Iris flower data set atau Fisher’s Iris data set adalah multivariate data set yang diperkenalkan oleh seorang ahli statistik asalh Inggris, ROnald Fisher pada tahun 1936 di papernya yang berjudul The use of multiple measurements in taxonomic problems sebagai contoh dari liniear discriminant analysis.
Baru-baru ini, Iris dataset juga digadang-gadang sebagai Hello World nya untuk pembelajaran Machine Learning. Seperti yang kita tahu, setiap kita memulai belajar sebuah bahasa pemrograman misalnya, kita akan disuguhkan dengan tutorial pertama yaitu Hello World. Nah, katanya Iris Dataset ini sangat cocok bagi pemula yang ingin mempelajari machine learning.
Kenapa Iris data set sangat cocok bagi pembelajaran awal pada Machine Learning?
Dikutip dari https://machinelearningmastery.com/machine-learning-in-python-step-by-step/, Iris dataset ini memiliki berbagai macam keunggulan diantaranya adalah:
- Attributes are numeric so you have to figure out how to load and handle data.
- It is a classification problem, allowing you to practice with perhaps an easier type of supervised learning algorithm.
- It is a multi-class classification problem (multi-nominal) that may require some specialized handling.
- It only has 4 attributes and 150 rows, meaning it is small and easily fits into memory (and a screen or A4 page).
- All of the numeric attributes are in the same units and the same scale, not requiring any special scaling or transforms to get started.
Kadang-kadang Iris data set juga dikatan sebagai Anderson’s Iris data set karena Edgar Anderson mengkoleksi data tersebut untuk menghitung variasi morphologic dari bunga Iris berdasarkan 3 spesies yang terkait.
Dua dari 3 sepsies yang dikoleksi adalah Gaspe Peninsula “all from the same pasture, and picked on the same day and measured at the same time by the same person with the same apparatus”.
Data set ini memiliki 50 contoh dari 3 spesies Iris (Iris setosa, Iris virginica, dan Iris versicolor). 4 fitur yang disuguhkan dari contoh tersebut adalah: panjang dari sepals dan petals, dalam centimeter. Berdasarkan kombinasi dari 4 fitur, Fisher membangun linier discriminant model untuk distinguish dari species satu dengan yang lainnya.