ഫിഷറിന്റെ നോട്ടത്തിൻ ഈ പുഷ്പങ്ങള്ക്ക് നാലുതരം ഫീച്ചറുകളാണുള്ളത്. ഇത് മനസ്സിലാക്കാൻ ഇത്തരം ഒരു പുവിന്റെ പടം ചിത്രം 2 ൽ കാണിച്ചിരിക്കുന്നു. ഓരോപൂവിനും രണ്ട് സെറ്റ് ഇതളുകളുണ്ട്. പുറത്തുള്ള ഇതളിനെ പെറ്റൽ എന്നും അകത്തുള്ള ഇതളിനെ സെപൽ എന്നും വിളിക്കും. സെപലിന്റെ നീളം, വീതി, പെറ്റലിന്റ നീളം, വീതി എന്നിവയാണ് പൂവിന്റെ ഫീച്ചറുകളായി ഫിഷർ പരിഗണിച്ചത്. ഇവ എന്താണെന്ന് ചിത്രത്തില് കാണിച്ചിരിക്കുന്നു.
ഓരോ ഇനത്തിന്റെയും 50 സാമ്പിള് എടുത്ത് മേല്പറഞ്ഞ നീളവും വീതിയും ഉപയോഗിച് പൂക്കളെ വർഗീകരിക്കാമോ എന്ന് പഠിച്ചു . (ഈ ഡാറ്റ യഥാർത്ഥത്തിൽ ശേഖരിച്ചത് ആൻഡേഴ്സൺ എന്ന വേറൊരു ശാസ്ത്രജ്ഞനാണ്.) ഫിഷർ ഈ പഠനം ഒരു പ്രബന്ധമായി പ്രസിദ്ധീകരിച്ചിട്ടുണ്ട്. (റഫറൻസ് 1) സ്റ്റാറ്റിസ്റ്റിക്സ് വിദ്യാര്ത്ഥികള് അവരുടെ പഠന പ്രവർത്തനങ്ങളുടെ ഭാഗമായി ഈ ഡേറ്റ ഇപ്പോഴും ഉപയോഗിക്കുന്നുണ്ട്. നമുക്ക് മേല് വിവരിച്ച 150 ഡേറ്റ സാമ്പിളുകൾ ലഭ്യമാണ്. (റഫറൻസ് 2) ഈ ഡേറ്റയുടെ ഒരു ഭാഗം ചിത്രം 2ൽ കാണിച്ചിരിക്കുന്നു. നമ്മുടെ kNN അൽഗോരിതത്തിന് ഉപയോഗിക്കാൻ വേണ്ട ഡാറ്റാ സെറ്റാണിത്.
- Ref 1 R. A. Fisher (1936). “The use of multiple measurements in taxonomic problems”. Annals of Eugenics. 7 (2): 179–188.
- Ref 2 https://archive.ics.uci.edu/ml/datasets/iris
- ചിത്രം 1 http://dataaspirant.com/2017/01/25/…
- ചിത്രം 2 http://suruchifialoke.com/2016-10-1…
- ചിത്രം 4 http://rosalind.info/glossary/eucli…
- ചിത്രം 5 https://www.python-course.eu/k_near…