Örüntü Tanıma.

Slides:



Advertisements
Benzer bir sunumlar
MIT563 Yapay Zeka ve Makine Öğrenmesi
Advertisements

Unsupervised Learning (Kümeleme)
Ayrık Yapılar Algoritma Analizi.
ALPER LAÇİN SERDAR TAŞAN
NAVIE BAYES CLASSIFICATION
MIT563 Yapay Zeka ve Makine Öğrenmesi
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
İstatistik Tahmin ve Güven aralıkları
MATLAB’İN SAYI YUVARLAMA FONKSİYONLARI
Support Vector Machines
Bellek Tabanlı Sınıflandırma
Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı
Karar Ağaçları.
MIT563 Yapay Zeka ve Makine Öğrenmesi
Karar Ağaçları İle Sınıflandırma
İstatistiksel Sınıflandırma
Hakan Öktem Orta Doğu Teknik Üniversitesi
MinDolog Minder Bilişim
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
MAKİNE ÖĞRENİMİ-Machine learning
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri
Concept Learning.
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
© Copyright by Deitel & Associates, Inc. and Pearson Education Inc. All Rights Reserved. 1 Amaçlar Bu derste öğrenilecekler: –Uygulamaları “method”
BM-103 Programlamaya Giriş Güz 2014 (4. Sunu)
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
C PROGRAMLAMA FONKSİYONLAR Adres ile Fonksiyon Çağırma Pointer (İşaretçiler) ile Fonksiyon Çağırma Rekürsif Fonksiyonlar.
M.Fatih AMASYALI Uzman Sistemler Ders Notları
Makine Öğrenmesinde Yeni Problemler
BİL551 – YAPAY ZEKA Öğrenme ve Sınıflandırma
Veri Madenciliği Giriş.
Sınıflandırma ve Tahmin
SU MİKROBİYOLOJİSİ LABORATUVARLARINDA METOT VALİDASYONU
Sınıflandırma & Tahmin — Devam—
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
BÖLÜM 1 DÜNYAYI KAVRAMAKBİLGİ KAYNAKLARIBİLİMSEL AÇIKLAMANIN DOĞASIPSİKOLOJİ BİLİMİ Birinci Bölüm Konuları.
Bölüm 4 için Ders Notları Introduction to Data Mining
Bulanık Mantık Kavramlar:
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Karar Ağaçları.
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
CSE 439 – Data Mining Assist. Prof. Dr. Derya BİRANT
BİL3112 Makine Öğrenimi (Machine Learning)
Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,
BİL551 – YAPAY ZEKA Öğrenme ve Siniflandırma
BİL551 – YAPAY ZEKA Kümeleme
Makine Öğrenmesinde Yeni Problemler YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ.
Sınıflandırma ve Tahmin
Bölüm 4 için Ders Notları Introduction to Data Mining
SINIFLAMA SİSTEMLERİ YRD. DOÇ. DR. Müge SEVAL.
İSTATİSTİK II BAĞIMSIZLIK TESTLERİ VE İYİ UYUM TESTLERİ “ c2 Kİ- KARE TESTLERİ “
Kümeleme Modeli (Clustering)
Karar Ağaçları (Decision trees)
Öğrenme ve Sınıflama.
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
5.1 POLİNOMİNAL REGRESSİYON
S. Haykin, “Neural Networks- A Comprehensive Foundation”,
Makine Öğrenmesinde Yeni Problemler
Bilgisayar Bilimi Problem Çözme Süreci-2.
İSTATİSTİK II Hipotez Testleri 1.
STANDART SAPMA.
Volkan Erol1,2 Yard.Doç.Dr.Aslı Uyar Özkaya1
BENZETİM 2. Ders Prof.Dr.Berna Dengiz Sistemin Performans Ölçütleri
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Yapay Öğrenme Teorisi Bölüm-1
Yapay Öğrenme Teorisi Bölüm-2
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

Örüntü Tanıma

Öğrenme Modelleri Supervised (Eğiticili): YSA, Naive Bayes, SVM, Logistic Regression,.. Unsupervised (Eğiticisiz): K-means, Fuzzy-C-Means,.. Semi-Supervised (Yarı-Eğiticili): Expectation Maximization, Co-Training,.. Reinforcement Learning (Takviyeli Öğrenme)

Classification Model Data: Özellik vektörü ve sınıf etiketi ile tanımlı veri kayıt kümesi k attributes: A1, A2, … Ak. class: daha önceden tanımlanmış bir sınıf ile etiketli Amaç: veriden bir sınıflama modeli öğrenmek ve yeni gelen veriler için gelecekle ilgili tahminlerde bulunmak. İnsanlar geçmiş tecrübelerinden öğrenirler, bilgisayarlar ise herhangi bir alanda geçmiş tecrübelerin yerini tutan kendisine gösterilen verilerden öğrenirler.

Örnek: data (loan application) Veriden bir sınıflama modeli öğren Öğrenilen modeli gelecek borç uygulamalarında kullan Aşağıdaki müşterinin kredi talebi onaylansın mı?

Supervised learning process: two steps Training(Learning): eğitim verilerinden model öğrenme Testing: modelin doğruluğunu daha önceden bilinmeyen test verileri ile test etmek

Öğrenmek ne demektir? data set: D, görev: T, performans ölçüsü: M, Given data set: D, görev: T, performans ölçüsü: M, bir bilgisayar T görevini yerine getirmek için D verilerinden öğrenir ve bu işlemi bir M performansı ile gerçeklemeye çalışır. Data: Loan application data Task: borç verme işlemi onaylansın mı onaylanmasın mı? Performance measure: verilen doğru kararlar

Sınıflandırma modellerinin değerlendirilmesi Main measure: Predictive accuracy Efficiency Modelin kuruluşu için geçen zaman Modelin kullanımı için geçen zaman Robustness: gürültü ve kayıp verilerin üstesinden gelebilmesi Bazı araştırmacılar sınıflandırmayı değerlendirmek için hata oranını kullanırlar:1-accuracy.

EVALUATING AND CHOOSING THE BEST HYPOTHESIS Veri kümesi D kesişmeyen iki alt kümeye ayrılır, training set Dtrain (modelin öğrenmesi için) test set Dtest (modeli test etmek için) Eğitim verileri ile test verileri birbirinden farklı olmalıdır. Test verileri modelin daha önce görmediği verilerdir.

…Değerlendirme yöntemleri n-fold cross-validation: veri kümesi n eşit parçada kesişmeyen alt kümeye bölünür. Her alt küme test kümesi olarak kullanılır ve kalan n-1 alt küme eğitim kümesi olarak belirlenir. n kere algoritma işletilir ve n adet farklı doğruluk derecesi (accuracies) elde edilir. Bu doğruluk derecelerinin ortalaması modelin tahmini doğruluğudur. Genelde 10-fold ve 5-fold cross-validations kullanılır. Veri kümesinin çok geniş ölçekli olmadığı zamanlarda izlenen bir yoldur.

…Değerlendirme yöntemleri Validation set: mevcut veriler 3 alt kümeye bölünürler, training set, validation set, test set. Validation set, öğrenme algoritmalarında parametrelerin kestirilmesi için kullanılır. Validation sette en iyi doğruluk derecelerini üretenler final parametreleri olarak kullanılırlar. Parametre kestirimi için Cross-validation yöntemi de kullanılabilir.

Sınıflandırma Ölçümleri Accuracy ölçümü bazı uygulamalar için uygun olmayabilir. Birçok uygulamada sadece tek bir sınıf ile ilgileniriz. Bu text ve web uygulamaları için geçerlidir. Örneğin tek bir başlık altındaki metinler ile ilgileniyoruz. Ancak imbalanced(dengesiz) veri içeren network intrusion ve financial fraud detection gibi uygulamalarda sadece azınlık sınıfı ile ilgileniriz. Kullanıcının ilgilendiği sınıf genelde positive class, ve geri kalanlar da negative classes olarak adlandırılırlar. Sınıflandırmanın genel başarısı çok yüksek olsa da azınlık sınıfının tahmin başarısı o kadar yüksek olmayabilir. Bu durumda precision ve recall daha geçerli doğruluk ölçümleridir. Çünkü bunlar sınıflandırmanın sadece pozitif sınıfı içinde ne doğrulukla gerçekleştiğinin ölçümüne izin verir.

Precision ve recall ölçümleri Bu ölçümler confusion matrix kullanılarak gerçekleştirilir. kullanılır. Confusion matrix e göre pozitif sınıfın precision(p) ve recall ( r) ölçümleri:

Precision ve recall ölçümleri Precision p doğru olarak sınıflandırılmış pozitif örneklerin pozitif olarak sınıflandırılmış toplam örneklerin sayısına bölümüdür. Recall r doğru olarak sınıflandırılmış pozitif örneklerin test kümesinde pozitif olması beklenen örneklerin sayısına bölümüdür.

Örnek confusion matrix’e göre Bir sınıflandırıcının confision matrisi: precision p = 100% recall r = 1% çünkü sadece 1 tek pozitif örnek doğru olarak sınıflandırılmış ve hiç negatif örnek yanlış sınıflandırılmamış. Not: precision ve recall ölçümleri sadece pozitif sınıf için sınıflandırmanın doğruluğunu test ederler.

F-score Sınıflandırma uygulamalarında kullanılan geçerlilik (doğruluk) ölçüsü F-score olarak adlandırılır. Yada F1-score:

Supervised Learning Example: Decision Tree Approach Karar ağacı öğrenmek, bir öğrenme kümesinden bir ağaç oluşturmak demektir. Bir öğrenme kümesini hatasız öğrenen birden çok karar ağacı olabilir Basitlik ilkesi nedeniyle bu ağaçların en küçüğü bulunmak istenir. Bir ağacın büyüklüğü düğüm sayısına ve bu düğümlerin karmaşıklığına bağlıdır. Sınıflandırma ağacında bir bölmenin iyiliği “impurity measure” (katışıklık ölçümü) kullanılarak hesaplanmaktadır. Yapılan bir bölmeden sonra oluşan dallara düşen tüm örnekler aynı sınıftansa o bölme “katışıksızdır” (pure). Impurity Measure olarak en sık Entropy (Quinlan, 1986) kullanılır. Entropy, bilgi kuramında bir örneğin sınıfını göstermek için kullanılan en az bit sayısı olarak tanımlanır.

Entropy S bir kaynak olsun. Bu kaynağın {mı,m2,...mn} olmak üzere n mesaj üretilebildiğini varsayalım. Tüm mesajlar birbirinden bağımsız olarak üretilmektedir ve mi mesajlarının üretilme olasılıkları pi'dir. P={p1,p2,...pn} olasılık dağılımına sahip mesajları üreten S kaynağının enropisi H(S): örnekler aynı sınıfa ait ise entropi=0 örnekler sınıflar arasında eşit dağılmışsa entropi=1 örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1

Örnek Entropi Hesabı Olay olasılıkları Bu durumda toplam belirsizlik (entropy): S ={evet, evet, hayır, hayır, hayır, hayır, hayır, hayır} Olasılıkları: p1=2/8=0.25 ve p2=6/8=0.75 Entropi:

ID3

Uygulama: hava problemi

OYUN = {hayır, hayır, hayır, hayır, hayır, evet, evet, evet, evet, evet, evet, evet, evet, evet} C1, sınıfı "hayır", C2, sınıfı ise "evet“ P1=5/14, P2=9/14

Adım1: Birinci dallanma

Adım1: Birinci dallanma

Adım1: Birinci dallanma

Adım1: Birinci dallanma

Adım1: Birinci dallanma Birinci dallanma sonucu karar ağacı:

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Oyun için entropi:

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma:

Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma:

Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:

Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:

Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:

Oluşturulan Karar Ağacı

Algorithms Supervised learning: Nonparametric Methods Decision Tree SVM Neural Networks Logistic Regression Vs. Nonparametric Methods KNN Parzen Window Estimator Ensemble Learning Bagging Boosting Stacking Unsupervised Learning: K-means Fzzy C-means Semisupervised Learning: Expectation maximization Co-training