Apa itu Iris / Iris Flower data set?

Iris flower data set atau Fisher’s Iris data set adalah multivariate data set yang diperkenalkan oleh seorang ahli statistik asalh Inggris, ROnald Fisher pada tahun 1936 di papernya yang berjudul The use of multiple measurements in taxonomic problems sebagai contoh dari liniear discriminant analysis.

Baru-baru ini, Iris dataset juga digadang-gadang sebagai Hello World nya untuk pembelajaran Machine Learning. Seperti yang kita tahu, setiap kita memulai belajar sebuah bahasa pemrograman misalnya, kita akan disuguhkan dengan tutorial pertama yaitu Hello World. Nah, katanya Iris Dataset ini sangat cocok bagi pemula yang ingin mempelajari machine learning.

Kenapa Iris data set sangat cocok bagi pembelajaran awal pada Machine Learning?

Dikutip dari https://machinelearningmastery.com/machine-learning-in-python-step-by-step/, Iris dataset ini memiliki berbagai macam keunggulan diantaranya adalah:

Kadang-kadang Iris data set juga dikatan sebagai Anderson’s Iris data set karena Edgar Anderson mengkoleksi data tersebut untuk menghitung variasi morphologic dari bunga Iris berdasarkan 3 spesies yang terkait.

Dua dari 3 sepsies yang dikoleksi adalah Gaspe Peninsula “all from the same pasture, and picked on the same day and measured at the same time by the same person with the same apparatus”.

Data set ini memiliki 50 contoh dari 3 spesies Iris (Iris setosa, Iris virginica, dan Iris versicolor). 4 fitur yang disuguhkan dari contoh tersebut adalah: panjang dari sepals dan petals, dalam centimeter. Berdasarkan kombinasi dari 4 fitur, Fisher membangun linier discriminant model untuk distinguish dari species satu dengan yang lainnya.