Örüntü Tanıma.

Slides:

Advertisements

Benzer bir sunumlar

MIT563 Yapay Zeka ve Makine Öğrenmesi

Advertisements

Unsupervised Learning (Kümeleme)

Ayrık Yapılar Algoritma Analizi.

ALPER LAÇİN SERDAR TAŞAN

NAVIE BAYES CLASSIFICATION

MIT563 Yapay Zeka ve Makine Öğrenmesi

SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)

İstatistik Tahmin ve Güven aralıkları

MATLAB’İN SAYI YUVARLAMA FONKSİYONLARI

Support Vector Machines

Bellek Tabanlı Sınıflandırma

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Karar Ağaçları.

MIT563 Yapay Zeka ve Makine Öğrenmesi

Karar Ağaçları İle Sınıflandırma

İstatistiksel Sınıflandırma

Hakan Öktem Orta Doğu Teknik Üniversitesi

MinDolog Minder Bilişim

Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır

MAKİNE ÖĞRENİMİ-Machine learning

Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E

SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi

Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri

Concept Learning.

BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ

© Copyright by Deitel & Associates, Inc. and Pearson Education Inc. All Rights Reserved. 1 Amaçlar Bu derste öğrenilecekler: –Uygulamaları “method”

BM-103 Programlamaya Giriş Güz 2014 (4. Sunu)

YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI

C PROGRAMLAMA FONKSİYONLAR Adres ile Fonksiyon Çağırma Pointer (İşaretçiler) ile Fonksiyon Çağırma Rekürsif Fonksiyonlar.

M.Fatih AMASYALI Uzman Sistemler Ders Notları

Makine Öğrenmesinde Yeni Problemler

BİL551 – YAPAY ZEKA Öğrenme ve Sınıflandırma

Veri Madenciliği Giriş.

Sınıflandırma ve Tahmin

SU MİKROBİYOLOJİSİ LABORATUVARLARINDA METOT VALİDASYONU

Sınıflandırma & Tahmin — Devam—

ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.

BÖLÜM 1 DÜNYAYI KAVRAMAKBİLGİ KAYNAKLARIBİLİMSEL AÇIKLAMANIN DOĞASIPSİKOLOJİ BİLİMİ Birinci Bölüm Konuları.

Bölüm 4 için Ders Notları Introduction to Data Mining

Bulanık Mantık Kavramlar:

Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )

Karar Ağaçları.

Yapay Zeka Desteği ile Parfüm Öneri Sistemi

CSE 439 – Data Mining Assist. Prof. Dr. Derya BİRANT

BİL3112 Makine Öğrenimi (Machine Learning)

Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,

BİL551 – YAPAY ZEKA Öğrenme ve Siniflandırma

BİL551 – YAPAY ZEKA Kümeleme

Makine Öğrenmesinde Yeni Problemler YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ.

Sınıflandırma ve Tahmin

Bölüm 4 için Ders Notları Introduction to Data Mining

SINIFLAMA SİSTEMLERİ YRD. DOÇ. DR. Müge SEVAL.

İSTATİSTİK II BAĞIMSIZLIK TESTLERİ VE İYİ UYUM TESTLERİ “ c2 Kİ- KARE TESTLERİ “

Kümeleme Modeli (Clustering)

Karar Ağaçları (Decision trees)

Öğrenme ve Sınıflama.

Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme

5.1 POLİNOMİNAL REGRESSİYON

S. Haykin, “Neural Networks- A Comprehensive Foundation”,

Makine Öğrenmesinde Yeni Problemler

Bilgisayar Bilimi Problem Çözme Süreci-2.

İSTATİSTİK II Hipotez Testleri 1.

STANDART SAPMA.

Volkan Erol1,2 Yard.Doç.Dr.Aslı Uyar Özkaya1

BENZETİM 2. Ders Prof.Dr.Berna Dengiz Sistemin Performans Ölçütleri

Karar Ağaçları Destekli Vadeli Mevduat Analizi

Yapay Öğrenme Teorisi Bölüm-1

Yapay Öğrenme Teorisi Bölüm-2

Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN

Sunum transkripti:

Örüntü Tanıma

Öğrenme Modelleri Supervised (Eğiticili): YSA, Naive Bayes, SVM, Logistic Regression,.. Unsupervised (Eğiticisiz): K-means, Fuzzy-C-Means,.. Semi-Supervised (Yarı-Eğiticili): Expectation Maximization, Co-Training,.. Reinforcement Learning (Takviyeli Öğrenme)

Classification Model Data: Özellik vektörü ve sınıf etiketi ile tanımlı veri kayıt kümesi k attributes: A1, A2, … Ak. class: daha önceden tanımlanmış bir sınıf ile etiketli Amaç: veriden bir sınıflama modeli öğrenmek ve yeni gelen veriler için gelecekle ilgili tahminlerde bulunmak. İnsanlar geçmiş tecrübelerinden öğrenirler, bilgisayarlar ise herhangi bir alanda geçmiş tecrübelerin yerini tutan kendisine gösterilen verilerden öğrenirler.

Örnek: data (loan application) Veriden bir sınıflama modeli öğren Öğrenilen modeli gelecek borç uygulamalarında kullan Aşağıdaki müşterinin kredi talebi onaylansın mı?

Supervised learning process: two steps Training(Learning): eğitim verilerinden model öğrenme Testing: modelin doğruluğunu daha önceden bilinmeyen test verileri ile test etmek

Öğrenmek ne demektir? data set: D, görev: T, performans ölçüsü: M, Given data set: D, görev: T, performans ölçüsü: M, bir bilgisayar T görevini yerine getirmek için D verilerinden öğrenir ve bu işlemi bir M performansı ile gerçeklemeye çalışır. Data: Loan application data Task: borç verme işlemi onaylansın mı onaylanmasın mı? Performance measure: verilen doğru kararlar

Sınıflandırma modellerinin değerlendirilmesi Main measure: Predictive accuracy Efficiency Modelin kuruluşu için geçen zaman Modelin kullanımı için geçen zaman Robustness: gürültü ve kayıp verilerin üstesinden gelebilmesi Bazı araştırmacılar sınıflandırmayı değerlendirmek için hata oranını kullanırlar:1-accuracy.

EVALUATING AND CHOOSING THE BEST HYPOTHESIS Veri kümesi D kesişmeyen iki alt kümeye ayrılır, training set Dtrain (modelin öğrenmesi için) test set Dtest (modeli test etmek için) Eğitim verileri ile test verileri birbirinden farklı olmalıdır. Test verileri modelin daha önce görmediği verilerdir.

…Değerlendirme yöntemleri n-fold cross-validation: veri kümesi n eşit parçada kesişmeyen alt kümeye bölünür. Her alt küme test kümesi olarak kullanılır ve kalan n-1 alt küme eğitim kümesi olarak belirlenir. n kere algoritma işletilir ve n adet farklı doğruluk derecesi (accuracies) elde edilir. Bu doğruluk derecelerinin ortalaması modelin tahmini doğruluğudur. Genelde 10-fold ve 5-fold cross-validations kullanılır. Veri kümesinin çok geniş ölçekli olmadığı zamanlarda izlenen bir yoldur.

…Değerlendirme yöntemleri Validation set: mevcut veriler 3 alt kümeye bölünürler, training set, validation set, test set. Validation set, öğrenme algoritmalarında parametrelerin kestirilmesi için kullanılır. Validation sette en iyi doğruluk derecelerini üretenler final parametreleri olarak kullanılırlar. Parametre kestirimi için Cross-validation yöntemi de kullanılabilir.

Sınıflandırma Ölçümleri Accuracy ölçümü bazı uygulamalar için uygun olmayabilir. Birçok uygulamada sadece tek bir sınıf ile ilgileniriz. Bu text ve web uygulamaları için geçerlidir. Örneğin tek bir başlık altındaki metinler ile ilgileniyoruz. Ancak imbalanced(dengesiz) veri içeren network intrusion ve financial fraud detection gibi uygulamalarda sadece azınlık sınıfı ile ilgileniriz. Kullanıcının ilgilendiği sınıf genelde positive class, ve geri kalanlar da negative classes olarak adlandırılırlar. Sınıflandırmanın genel başarısı çok yüksek olsa da azınlık sınıfının tahmin başarısı o kadar yüksek olmayabilir. Bu durumda precision ve recall daha geçerli doğruluk ölçümleridir. Çünkü bunlar sınıflandırmanın sadece pozitif sınıfı içinde ne doğrulukla gerçekleştiğinin ölçümüne izin verir.

Precision ve recall ölçümleri Bu ölçümler confusion matrix kullanılarak gerçekleştirilir. kullanılır. Confusion matrix e göre pozitif sınıfın precision(p) ve recall ( r) ölçümleri:

Precision ve recall ölçümleri Precision p doğru olarak sınıflandırılmış pozitif örneklerin pozitif olarak sınıflandırılmış toplam örneklerin sayısına bölümüdür. Recall r doğru olarak sınıflandırılmış pozitif örneklerin test kümesinde pozitif olması beklenen örneklerin sayısına bölümüdür.

Örnek confusion matrix’e göre Bir sınıflandırıcının confision matrisi: precision p = 100% recall r = 1% çünkü sadece 1 tek pozitif örnek doğru olarak sınıflandırılmış ve hiç negatif örnek yanlış sınıflandırılmamış. Not: precision ve recall ölçümleri sadece pozitif sınıf için sınıflandırmanın doğruluğunu test ederler.

F-score Sınıflandırma uygulamalarında kullanılan geçerlilik (doğruluk) ölçüsü F-score olarak adlandırılır. Yada F1-score:

Supervised Learning Example: Decision Tree Approach Karar ağacı öğrenmek, bir öğrenme kümesinden bir ağaç oluşturmak demektir. Bir öğrenme kümesini hatasız öğrenen birden çok karar ağacı olabilir Basitlik ilkesi nedeniyle bu ağaçların en küçüğü bulunmak istenir. Bir ağacın büyüklüğü düğüm sayısına ve bu düğümlerin karmaşıklığına bağlıdır. Sınıflandırma ağacında bir bölmenin iyiliği “impurity measure” (katışıklık ölçümü) kullanılarak hesaplanmaktadır. Yapılan bir bölmeden sonra oluşan dallara düşen tüm örnekler aynı sınıftansa o bölme “katışıksızdır” (pure). Impurity Measure olarak en sık Entropy (Quinlan, 1986) kullanılır. Entropy, bilgi kuramında bir örneğin sınıfını göstermek için kullanılan en az bit sayısı olarak tanımlanır.

Entropy S bir kaynak olsun. Bu kaynağın {mı,m2,...mn} olmak üzere n mesaj üretilebildiğini varsayalım. Tüm mesajlar birbirinden bağımsız olarak üretilmektedir ve mi mesajlarının üretilme olasılıkları pi'dir. P={p1,p2,...pn} olasılık dağılımına sahip mesajları üreten S kaynağının enropisi H(S): örnekler aynı sınıfa ait ise entropi=0 örnekler sınıflar arasında eşit dağılmışsa entropi=1 örnekler sınıflar arasında rastgele dağılmışsa 0<entropi<1

Örnek Entropi Hesabı Olay olasılıkları Bu durumda toplam belirsizlik (entropy): S ={evet, evet, hayır, hayır, hayır, hayır, hayır, hayır} Olasılıkları: p1=2/8=0.25 ve p2=6/8=0.75 Entropi:

ID3

Uygulama: hava problemi

OYUN = {hayır, hayır, hayır, hayır, hayır, evet, evet, evet, evet, evet, evet, evet, evet, evet} C1, sınıfı "hayır", C2, sınıfı ise "evet“ P1=5/14, P2=9/14

Adım1: Birinci dallanma

Adım1: Birinci dallanma

Adım1: Birinci dallanma

Adım1: Birinci dallanma

Adım1: Birinci dallanma Birinci dallanma sonucu karar ağacı:

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma Oyun için entropi:

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 2: HAVA niteliğinin "güneşli" değeri için dallanma

Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma:

Adım 3: HAVA niteliğinin “bulutlu” değeri için dallanma:

Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:

Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:

Adım 3:HAVA niteliğinin “yağmurlu” değeri için dallanma:

Oluşturulan Karar Ağacı

Algorithms Supervised learning: Nonparametric Methods Decision Tree SVM Neural Networks Logistic Regression Vs. Nonparametric Methods KNN Parzen Window Estimator Ensemble Learning Bagging Boosting Stacking Unsupervised Learning: K-means Fzzy C-means Semisupervised Learning: Expectation maximization Co-training