Örüntü Tanıma
Öğrenme Modelleri Supervised (Eğiticili): YSA, Naive Bayes, SVM, Logistic Regression,.. Unsupervised (Eğiticisiz): K-means, Fuzzy-C-Means,.. Semi-Supervised (Yarı-Eğiticili): Expectation Maximization, Co-Training,.. Reinforcement Learning (Takviyeli Öğrenme)
Classification Model Data: Özellik vektörü ve sınıf etiketi ile tanımlı veri kayıt kümesi k attributes: A1, A2, … Ak. class: daha önceden tanımlanmış bir sınıf ile etiketli Amaç: veriden bir sınıflama modeli öğrenmek ve yeni gelen veriler için gelecekle ilgili tahminlerde bulunmak. İnsanlar geçmiş tecrübelerinden öğrenirler, bilgisayarlar ise herhangi bir alanda geçmiş tecrübelerin yerini tutan kendisine gösterilen verilerden öğrenirler.
Örnek: data (loan application) Veriden bir sınıflama modeli öğren Öğrenilen modeli gelecek borç uygulamalarında kullan Aşağıdaki müşterinin kredi talebi onaylansın mı?
Supervised learning process: two steps Training(Learning): eğitim verilerinden model öğrenme Testing: modelin doğruluğunu daha önceden bilinmeyen test verileri ile test etmek
Öğrenmek ne demektir? data set: D, görev: T, performans ölçüsü: M, Given data set: D, görev: T, performans ölçüsü: M, bir bilgisayar T görevini yerine getirmek için D verilerinden öğrenir ve bu işlemi bir M performansı ile gerçeklemeye çalışır. Data: Loan application data Task: borç verme işlemi onaylansın mı onaylanmasın mı? Performance measure: verilen doğru kararlar
Sınıflandırma modellerinin değerlendirilmesi Main measure: Predictive accuracy Efficiency Modelin kuruluşu için geçen zaman Modelin kullanımı için geçen zaman Robustness: gürültü ve kayıp verilerin üstesinden gelebilmesi Bazı araştırmacılar sınıflandırmayı değerlendirmek için hata oranını kullanırlar:1-accuracy.
EVALUATING AND CHOOSING THE BEST HYPOTHESIS Veri kümesi D kesişmeyen iki alt kümeye ayrılır, training set Dtrain (modelin öğrenmesi için) test set Dtest (modeli test etmek için) Eğitim verileri ile test verileri birbirinden farklı olmalıdır. Test verileri modelin daha önce görmediği verilerdir.
…Değerlendirme yöntemleri n-fold cross-validation: veri kümesi n eşit parçada kesişmeyen alt kümeye bölünür. Her alt küme test kümesi olarak kullanılır ve kalan n-1 alt küme eğitim kümesi olarak belirlenir. n kere algoritma işletilir ve n adet farklı doğruluk derecesi (accuracies) elde edilir. Bu doğruluk derecelerinin ortalaması modelin tahmini doğruluğudur. Genelde 10-fold ve 5-fold cross-validations kullanılır. Veri kümesinin çok geniş ölçekli olmadığı zamanlarda izlenen bir yoldur.
…Değerlendirme yöntemleri Validation set: mevcut veriler 3 alt kümeye bölünürler, training set, validation set, test set. Validation set, öğrenme algoritmalarında parametrelerin kestirilmesi için kullanılır. Validation sette en iyi doğruluk derecelerini üretenler final parametreleri olarak kullanılırlar. Parametre kestirimi için Cross-validation yöntemi de kullanılabilir.
Sınıflandırma Ölçümleri Accuracy ölçümü bazı uygulamalar için uygun olmayabilir. Birçok uygulamada sadece tek bir sınıf ile ilgileniriz. Bu text ve web uygulamaları için geçerlidir. Örneğin tek bir başlık altındaki metinler ile ilgileniyoruz. Ancak imbalanced(dengesiz) veri içeren network intrusion ve financial fraud detection gibi uygulamalarda sadece azınlık sınıfı ile ilgileniriz. Kullanıcının ilgilendiği sınıf genelde positive class, ve geri kalanlar da negative classes olarak adlandırılırlar. Sınıflandırmanın genel başarısı çok yüksek olsa da azınlık sınıfının tahmin başarısı o kadar yüksek olmayabilir. Bu durumda precision ve recall daha geçerli doğruluk ölçümleridir. Çünkü bunlar sınıflandırmanın sadece pozitif sınıfı içinde ne doğrulukla gerçekleştiğinin ölçümüne izin verir.
Precision ve recall ölçümleri Bu ölçümler confusion matrix kullanılarak gerçekleştirilir. kullanılır. Confusion matrix e göre pozitif sınıfın precision(p) ve recall ( r) ölçümleri:
Precision ve recall ölçümleri Precision p doğru olarak sınıflandırılmış pozitif örneklerin pozitif olarak sınıflandırılmış toplam örneklerin sayısına bölümüdür. Recall r doğru olarak sınıflandırılmış pozitif örneklerin test kümesinde pozitif olması beklenen örneklerin sayısına bölümüdür.
Örnek confusion matrix’e göre Bir sınıflandırıcının confision matrisi: precision p = 100% recall r = 1% çünkü sadece 1 tek pozitif örnek doğru olarak sınıflandırılmış ve hiç negatif örnek yanlış sınıflandırılmamış. Not: precision ve recall ölçümleri sadece pozitif sınıf için sınıflandırmanın doğruluğunu test ederler.
F-score Sınıflandırma uygulamalarında kullanılan geçerlilik (doğruluk) ölçüsü F-score olarak adlandırılır. Yada F1-score:
Supervised Learning Example: Decision Tree Approach Karar ağacı öğrenmek, bir öğrenme kümesinden bir ağaç oluşturmak demektir. Bir öğrenme kümesini hatasız öğrenen birden çok karar ağacı olabilir Basitlik ilkesi nedeniyle bu ağaçların en küçüğü bulunmak istenir. Bir ağacın büyüklüğü düğüm sayısına ve bu düğümlerin karmaşıklığına bağlıdır. Sınıflandırma ağacında bir bölmenin iyiliği “impurity measure” (katışıklık ölçümü) kullanılarak hesaplanmaktadır. Yapılan bir bölmeden sonra oluşan dallara düşen tüm örnekler aynı sınıftansa o bölme “katışıksızdır” (pure). Impurity Measure olarak en sık Entropy (Quinlan, 1986) kullanılır. Entropy, bilgi kuramında bir örneğin sınıfını göstermek için kullanılan en az bit sayısı olarak tanımlanır.
Entropy S bir kaynak olsun. Bu kaynağın {mı,m2,...mn} olmak üzere n mesaj üretilebildiğini varsayalım. Tüm mesajlar birbirinden bağımsız olarak üretilmektedir ve mi mesajlarının üretilme olasılıkları pi'dir. P={p1,p2,...pn} olasılık dağılımına sahip mesajları üreten S kaynağının enropisi H(S): örnekler aynı sınıfa ait ise entropi=0 örnekler sınıflar arasında eşit dağılmışsa entropi=1 örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1
Örnek Entropi Hesabı Olay olasılıkları Bu durumda toplam belirsizlik (entropy): S ={evet, evet, hayır, hayır, hayır, hayır, hayır, hayır} Olasılıkları: p1=2/8=0.25 ve p2=6/8=0.75 Entropi:
ID3
Uygulama: hava problemi
OYUN = {hayır, hayır, hayır, hayır, hayır, evet, evet, evet, evet, evet, evet, evet, evet, evet} C1, sınıfı "hayır", C2, sınıfı ise "evet“ P1=5/14, P2=9/14
Adım1: Birinci dallanma
Adım1: Birinci dallanma
Adım1: Birinci dallanma
Adım1: Birinci dallanma
Adım1: Birinci dallanma Birinci dallanma sonucu karar ağacı:
Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma
Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Oyun için entropi:
Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma
Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma
Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma
Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma
Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma:
Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma:
Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:
Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:
Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:
Oluşturulan Karar Ağacı
Algorithms Supervised learning: Nonparametric Methods Decision Tree SVM Neural Networks Logistic Regression Vs. Nonparametric Methods KNN Parzen Window Estimator Ensemble Learning Bagging Boosting Stacking Unsupervised Learning: K-means Fzzy C-means Semisupervised Learning: Expectation maximization Co-training