İstatistiksel Sınıflandırma

Slides:



Advertisements
Benzer bir sunumlar
Normal Dağılım Dışındaki Teorik Dağılımlar
Advertisements

Bölüm 5 Örneklem ve Örneklem Dağılımları
BENZETİM Prof.Dr.Berna Dengiz 10. Ders.
Simülasyon Teknikleri
BENZETİM Prof.Dr.Berna Dengiz 8. Ders.
İLİŞKİLERİ İNCELEMEYE YÖNELİK ANALİZ TEKNİKLERİ
Kalibrasyon.
MIT563 Yapay Zeka ve Makine Öğrenmesi
Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ
THY SPSS UYGULAMASI 1.SORU:Kİ-KARE ANALİZİ
Kİ-KARE TESTİ Uygulama amacına ve durumuna göre Ki-Kare Testi üç başlık altında incelenir; Ki-Kare Uygunluk Testi Ki-Kare Bağımsızlık Testi Ki-Kare Homojenlik.
ÖLÇME VE DEĞERLENDİRME Temel Kavramlar
ANOVA.
Halis Emre YILDIZ SUNAR
Filogenetik analizlerde kullanılan en yaygın metotlar
Simülasyon Teknikleri
Yrd. Doç. Dr. Kemal DOYMUŞ K.K.E.F İlköğretim Bölümü
İstatistik Kavramı İstatistik; kesin olmayışlığın ışığı altında karar verme tekniğidir. Ana kitle hakkında örneklem yardımıyla tahmin çalışmalarıdır. Kitle.
Tanımlayıcı İstatistikler
MAKSİMUM OLASILIK (MAXİMUM LİKELİHOOD)
Karar Ağaçları İle Sınıflandırma
Sürekli Olasılık Dağılım (Birikimli-Kümülatif)Fonksiyonu
İstatistikte Bazı Temel Kavramlar
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
PARAMETRİK ANALİZ TEKNİKLERİ
Endüstride Veri Madenciliği Uygulamaları Yrd. Doç. Dr. Ayhan Demiriz 28/2/2006.
BENZETİM Prof.Dr.Berna Dengiz 9. Ders.
Bölüm 4: Sayısal İntegral
KOŞULLU ÖNGÖRÜMLEME.
OLASILIK ve OLASILIK DAĞILIMLARI
SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi
Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü
TEORİK DAĞILIMLAR 1- Binomiyal Dağılım 2- Poisson Dağılım
SÜREKLİ ŞANS DEĞİŞKENLERİNİN OLASILIK YOĞUNLUK FONKSİYONLARI
OLASILIK ve KURAMSAL DAĞILIMLAR
İki Ortalama Farkının Test Edilmesi
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
KRUSKAL WALLIS VARYANS ANALİZİ
Makine Öğrenmesinde Yeni Problemler
Kİ-KARE DAĞILIMI VE TESTİ
Epidemiyolojik Araştırma Tipleri ve Bazı Temel Kavramlar R. Erol Sezer
Yrd. Doç. Dr. Hamit ACEMOĞLU
SÜREKLİ ŞANS DEĞİŞKENLERİ
Sınıflandırma & Tahmin — Devam—
Bilişim Teknolojileri için İşletme İstatistiği
Bilişim Teknolojileri için İşletme İstatistiği
Bilişim Teknolojileri için İşletme İstatistiği
Bilişim Teknolojileri için İşletme İstatistiği
Olasılık Dağılımları ve Kuramsal Dağılışlar
KESİKLİ RASSAL DEĞİŞKENLER
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
İÇİNDEKİLER 2.1 Örneklem Uzayı ve Olaylar Sonucu önceden bilinmeyen bir deney göz önünde bulundurulsun. Deneyin örneklem uzayı olarak bilinen tüm olası.
HİPOTEZ TESTLERİNE GİRİŞ
İSTATİSTİKTE TAHMİN ve HİPOTEZ TESTLERİ İSTATİSTİK
BİL3112 Makine Öğrenimi (Machine Learning)
BÖLÜM 2 Endüstri/Örgüt Psikolojisinde Araştırma Yöntemleri.
Korelasyon testleri Pearson korelasyon testi Spearman korelasyon testi Regresyon analizi Basit doğrusal regresyon Çoklu doğrusal regresyon BBY252 Araştırma.
BİL3112 Makine Öğrenimi (Machine Learning) 7. Hafta
İSTATİSTİK II Örnekleme Dağılışları & Tahminleyicilerin Özellikleri.
OLASILIK ve İSTATİSTİK
NON-PARAMETRİK TESTLER Doç. Dr. Kemal DOYMUŞ K.K.E.F İlköğretim Bölümü.
Örüntü Tanıma.
Teorik Dağılımlar: Diğer Dağılımlar
DERS3 Prof.Dr. Serpil CULA
BİLİMSEL SÜREÇ BECERİLERİ
Numerik Veri Tek Grup Prof. Dr. Hamit ACEMOĞLU.
Makine Öğrenmesinde Yeni Problemler
TEORİK DAĞILIMLAR.
Sunum transkripti:

İstatistiksel Sınıflandırma Yrd. Doç. Dr. Ayhan Demiriz 7 Mart 2006

Sınıflandırma Problemi Verilen birden fazla kategoriye (sınıfa) ait verileri (datayı) birbirinden ayırarak önceden bilinen farklı gruplara atama Eğitici yardımıyla yapılan bu atama yardımıyla yeni karşılaşılan verilerin hangi sınıfa ait olduklarını tahmin etmek Örnek Uygulamalar: Kredi Kartı Başvuru Değerlendirme Kredi Başvurusu Değerlendirme Hedef Pazarlama Hastalık Teşhisi Okul Başvuruları Değerlendirme

Sınıflandırma: İki Adımlı Bir Süreç Model Oluşturma Ayağı: Önceden bilinen sınıfların tanımlanması Verilen her örneğin bilinen bir sınıfa ait olduğu kabul edilir Bu örnek seti “Öğrenme Kümesi (Seti)” olarak adlandırılır Bulunan model “Karar Ağacı”, “Sınıflandırma Kuralları” veya “Matematiksel Formül” olarak ifade edilir Modeli Kullanma: Sınıfları bilinmeyen verilerin sınıf tahmini Modelin doğruluk derecesini kestir Test kümesinin bilinen sınıf etiketleri tahmin sonucu elde edilen sınıflandırma sonuçları ile karşılaştırılır Doğruluk derecesi test setindeki tahmin başarı oranıdır Test kümesi öğrenme kümesinden bağımsızdır fakat aynı dağılımdan geldiği kabul edilir Eğer modelin doğruluk derecesi kabul edilebilir ise modeli kabullen ve yeni noktaları (verileri) sınıflandırmak için uygula

İstatistiksel Öğrenme ŷ Örnek Oluşturucu Öğrenme Makinası Kayıp fonskiyonu L(y, f(x, ω) ) olarak tanımlanır O zaman öğrenme ile alınan risk (beklenen kayıp) olarak hesaplanır İkili sınıflandırma için kayıp fonsiyonu aşağıdaki gibi verilebilir x Sistem y Örnek oluşturucu, p(x) dağılımına göre x’i (girdi değişkenleri) belirler Sistem, verilen x değerlerine karşı gelen y (çıktı - etiket) değerlerini belirler Öğrenme makinası, f(x, ω) fonksiyonunu öğrenerek verilen x için ŷ değerlerini hesaplar

Diskriminant (Ayrım) Analizi

Bayesci Sınıflandırma İhtimale Dayalı Öğrenme: Hipotezler için ihtimaller hesaplanır. Bazı öğrenme problemleri için en pratik yöntemdir. Artan: Önceden bilinenler gözlemlenen veri ile birleştirilebilir. Her örnek bir hipotezin doğruluk olasılığını artırıp azaltabilir. İhtimale Dayalı Tahmin: Birden fazla hipotez tahmin edilir ve ihtimallerine göre ağırlandırılır. Temel Karşılaştırma Yöntemi: Bazı durumlarda Bayesci öğrenme yöntemlerinin uygulanması sayısal olarak mümkün olmasa da diğer yöntemlerin optimal karar yüzeylerini karşılaştırmak için en önemli temel yaklaşımdır.

Bayes Teoremi X, ait olduğu sınıf belli olmayan veri olsun H hipotezi, X’in C sınıfına ait olduğunu kabul etsin Sınıflandırma problemi için gözlemlenen X’in verildiği varsayılırsa, P(H|X), yani X verildiğinde hipotezin kabul edilebilir (doğru) olma ihtimali P(H) ise H hipotezinin gözlem yapılmadan önceki ilk haldeki ihtimali P(X) ise örnek datanın gözlemlenmesi ihtimali P(X|H) ise hipotezin doğru olduğu verildiğinde X’in gözlemlenme ihtimali

Bayes Teoremi Sonsal İhtimal =Olabilirlik x Öncel İhtimal / Kanıt Öğrenme kümesi X verildiğinde, H hipotezinin sonsal (posterior) ihtimali, P(H|X) Bayes teoremine göre Başkabir ifadeyle Sonsal İhtimal =Olabilirlik x Öncel İhtimal / Kanıt Enbüyük Sonsal (MAP (maximum posteriori) ) hipotezi Zorluk: İlk hale ait birçok ihtimalin bilinmesini gerektiriyor

Naiv Bayes Sınıflandırıcı Değişkenlerin koşullu olarak bağımsız oluşu basitleştirilmiş bir varsayımdır Örneğin x1 ve x2 gibi 2 elemanın, verilen C sınıfı için ortak olasılık dağılımı herbirinin ayrı ayrı olasılık dağılımlarının çarpımına eşittir. Yani P([x1,x2],C) = P(x1,C) * P(x2,C) Hesaplamaları büyük oranda azaltıyor P(X|Ci) ihtimali bilindiğinde, X’i, maksimum P(X|Ci)*P(Ci) değerini veren sınıfa ata

Ögrenme veri seti Sınıflar: C1:Bilgisayar Alır?= ‘evet’ ‘hayır’ Örnek veri X =(yaş≤30, gelir=orta, öğrenci=evet Kredi durumu= vasat)

Naiv Bayes Sınıflandırıcı: Örnek Her sınıf için P(X/Ci)’i hesapla P(yaş=“<30” | Bilgisayar Alır?=“evet”) = 2/9=0.222 P(yaş=“<30” | Bilgisayar Alır?=“hayır”) = 3/5 =0.6 P(gelir=“orta” | Bilgisayar Alır?=“evet”)= 4/9 =0.444 P(gelir=“orta” | Bilgisayar Alır?=“hayır”) = 2/5 = 0.4 P(öğrenci=“evet” | Bilgisayar Alır?=“evet)= 6/9 =0.667 P(öğrenci=“evet” | Bilgisayar Alır?=“hayır”)= 1/5=0.2 P(kredi durumu=“vasat” | Bilgisayar Alır?=“evet”)=6/9=0.667 P(kredi durumu=“vasat” | Bilgisayar Alır?=“hayır”)=2/5=0.4 X=(yaş<=30 ,gelir =orta, öğrenci=evet,kredi durumu=vasat) P(X|Ci) : P(X|Bilgisayar Alır?=“evet”)= 0.222 x 0.444 x 0.667 x 0.0.667 =0.044 P(X|Bilgisayar Alır?=“hayır”)= 0.6 x 0.4 x 0.2 x 0.4 =0.019 P(X|Ci)*P(Ci ) : P(X|Bilgisayar Alır?=“evet”) * P(Bilgisayar Alır?=“evet”)=0.028 P(X|Bilgisayar Alır?=“hayır”) * P(Bilgisayar Alır?=“hayır”)=0.007 X, “Bilgisayar Alır?=evet” sınıfına aittir

Naiv Bayes Sınıflandırıcı: Yorumlar Faydaları: Uygulama için çok kolay Birçok durumda iyi sonuçlar verir Mahzurları Sınıflar arası koşullu bağımsızlık varsayımından ötürü doğruluğundaki azalma Gerçekte değişkenler arasında bağımlılık vardır Practically, dependencies exist among variables Bu bağımlılıklar naiv bayes yöntemi ile modellenemez Bu bağımlılıklarla nasıl modelleme yapabiliriz? Bayesian Belief Networks – Bayesci İnanç Ağları

Bayesci Ağlar Bayesci İnanç Ağları, değişkenlerin bir altkümesinin koşullu olarak bağımsız olmasına izin verir Nedensel ilişkilerin grafiksel bir modelidir Değişkenler arasında bağımlılığı gösterir Ortak olasılık dağılımları için spesifikasyonları belirler Düğüm: rassal değişkenler Bağlantılar: bağımlılık X,Y Z’nin ebeveynleridir, Y ise P’nin ebeveynidir Z ve P arasında herhangi bir bağımlılık yoktur Hiç bir çevrim ve döngüye izin vermez Y Z P X

Bayesci İnanç Ağı: Bir Örnek Aile Tarihçesi Sigara İçer (AT, S) (AT, ~S) (~AT, S) (~AT, ~S) AK 0.8 0.5 0.7 0.1 Akciğer Kanseri Emphysema ~AK 0.2 0.5 0.3 0.9 Akciğer Kanseri değişkeninin koşullu olasılık tablosu, bu değişkenin her ebeveyn kombinasyonu için koşullu olasılığını gösterir Positif Röntgen Dyspnea Bayesci İnanç Ağı