NAVIE BAYES CLASSIFICATION

Slides:



Advertisements
Benzer bir sunumlar
Prof. Dr. Ali ŞEN Akdeniz KARPAZ Üniversitesi
Advertisements

Unsupervised Learning (Kümeleme)
FEN BİLİMLERİ ENSTİTÜSÜ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
MIT563 Yapay Zeka ve Makine Öğrenmesi
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
Halis Emre YILDIZ SUNAR
FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.
Filogenetik analizlerde kullanılan en yaygın metotlar
Support Vector Machines
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bellek Tabanlı Sınıflandırma
Karar Ağaçları.
MIT563 Yapay Zeka ve Makine Öğrenmesi
İstatistiksel Sınıflandırma
Çizge Teorisi, Dağıtık Algoritmalar ve Telsiz Duyarga Ağları
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
OLASILIK ve OLASILIK DAĞILIMLARI
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri
Bölüm6:Diferansiyel Denklemler: Başlangıç Değer Problemleri
İŞ SIRALAMA VE ÇİZELGELEME DERS 5
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
NOUN CLAUSES (İSİM CÜMLECİKLERİ).
Sınıflandırıcılar -2.
EXPRESSING AGREEMENT AND DISAGREEMENT
Sınıflandırma ve Tahmin
Sınıflandırma & Tahmin — Devam—
EĞİTİM BİLİMLERİNDE ARAŞTIRMA YÖNTEMLERİ
Bölüm 5 Olasılığa Giriş Dr. Halil İbrahim CEBECİ İstatistik Ders Notu.
Veri Madenciliği Anormallik Tespiti
Bölüm 4 için Ders Notları Introduction to Data Mining
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Karar Ağaçları.
Maliye’de SPSS Uygulamaları
BİL3112 Makine Öğrenimi (Machine Learning)
Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise,
BİL3112 Makine Öğrenimi (Machine Learning) 7. Hafta
İSTATİSTİK II Örnekleme Dağılışları & Tahminleyicilerin Özellikleri.
OLASILIK ve İSTATİSTİK
Makine Öğrenmesinde Yeni Problemler YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ.
Numerik Veri İki Bağımsız Grup
Örüntü Tanıma.
Algoritmalar II Ders 6 Açgözlü Algoritmalar.
Teorik Dağılımlar: Diğer Dağılımlar
Algoritmalar II Ders 2 Dinamik Programlama Yöntemi.
Sınıflandırma & Tahmin — Devam—
Bölüm 4 için Ders Notları Introduction to Data Mining
BİLİMSEL SÜREÇ BECERİLERİ
Prof. Dr. Hamit Acemoğlu Tıp Eğitimi Anabilim Dalı
İSTATİSTİK II Hipotez Testleri 1.
Karar Ağaçları (Decision trees)
©McGraw-Hill Education, 2014
İSTATİSTİK II Varyans Analizi.
Maksimum akış.
NAVIE BAYES CLASSIFICATION
German shepherd dog. These dogs are said to be intelligent before they say.
Sınıflandırma & Tahmin — Devam—
Hipotez Testinde 5 Aşamalı Model
Makine Öğrenmesinde Yeni Problemler
Fırat Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Müh.
İSTATİSTİK II Hipotez Testleri 1.
MAKİNA TEORİSİ II GİRİŞ Prof.Dr. Fatih M. Botsalı.
İSTATİSTİK II Varyans Analizi.
Volkan Erol1,2 Yard.Doç.Dr.Aslı Uyar Özkaya1
İSTATİSTİK II Varyans Analizi.
Yapay Zeka Nadir Can KAVKAS
Yapay Öğrenme Teorisi Bölüm-1
Algoritmalar II Ders 2 Dinamik Programlama Yöntemi.
Sunum transkripti:

NAVIE BAYES CLASSIFICATION

Outline Generative Learning Algorithm Naive Bayes Laplace Smoothing

Generative Learning Eğitim verileri arasındaki (+) ve (-) örnekler değerlendirilir. Örnek vermek gerekir ise, “Breast Cancer” veri kümesinde, önce malignant (y=0) sonra beign (y=1) için bir model kurulur. Yeni bir hastanın durumunu kestirmeye çalışacağımız zaman, örneği malignant ve beign sınıflarına eşleştirmeye çalışırız. Hangi model ile daha iyi eşleşir ise o sınıfa dahil edilecektir. Bu konu kapsamında, p(x|y) ve p(y) modelini kurmaya çalışan algoritmalardan bahsedeceğiz.

Generative Learning alg. Discriminative learning algorithms : p(yІx)’i direk öğrenirler (örn.logistic regression) Yada X giriş uzayından {0,1} sınıf etiketlerine eşleşmeyi direk öğrenirler (perceptron algorithm) Generative learning algorithms: p(xІy) ve p(y) olasılıklarını modeller P(y) (class priors) ve p(x І y)’ yi modelledikten sonra algoritma verilen x değerlerine göre y’nin sonsal olasılığını hesaplamak için Bayes kuralını kullanabilir

Generative Learning Önsel olasılıklar olarak adlandırılan p(x|y) ve p(y) modellendikten sonra, algoritma verilen x ve y değerlerinden sonsal olasılıları türetir. Bayes Kuralı: Burada payda

Generative Learning Aslında p(y|x)’i tahmin yapmak için kullanacak isek, paydadaki değerin önemi yoktur.

BAYESIAN- Öğrenme Modelinin Özellikleri Bayes sınıflandırma meydana gelme olasılığı birbirinden bağımsız olayların birleşerek incelenmesi Öğrenme modeli, örneklerin hangi sınıfa hangi olasılıkla ait olduklarına dayanmaktadır.

Öğrenme Modelinin Özellikleri Bayesian yaklaşımda parametreleri önsel bir dağılımdan çekilmiş rastsal değişkenler olarak görürüz. Her yeni eğitim verisi hipotezin doğru olma olasılığını düşürebilir yada artırabilir. Bu da tek bir giriş verisi ile bile tutarlı olmayan hipotezlerin elenmesi konusunda daha esnek bir yaklaşım sunar. Hipotezin final olasılığının bulunması için eldeki veri ile önsel bilgi kombine edilir. Bayesian öğrenmede, önsel bilgi (prior knowledge): her aday hipotez için önsel olasılık öne sürmekle ve her hipotez için eldeki verinin olasılıklı dağılımı ile sağlanır. Bayesian yöntemleri hipotezleri olasılıklı tahminler yapabilecekleri şekilde düzenlerler. (%95 hasta değil şeklinde) Yeni örnekler, pek çok hipotezin tahmini kombine edilerek sınıflandırılabilirler.

Modelin Zorluğu Bayesian metotların uygulamalarındaki en belirgin zorluğu, olasılıkların başlangıç değerlerine ihtiyaç duyulmasıdır. Bu olasılıkların bilinmemesi durumunda genellikle verilerin dağılımlarına, elde var olan verilere yada veriler hakkındaki temel bilgilere dayanarak kestirilebilir. İkinci bir zorluk, bayes optimum hipotezin belirlenmesi için dikkate değer bir bilgisayar zamanı gerekmektedir.

En olası hipotez Amaç H hipotez uzayındaki en iyi hipotezlerin belirlenmesidir. En iyi hipotez: en olası hipotez Bayes teoremi: olasılıkların hesaplanması için direk bir yol sunar. kendi önsel olasılığına dayanarak hipotezin olasılığının hesaplanması için bir yol sağlar.

Notasyon Önsel olasılık P(h) : Eğitim verileri incelenmeden h’ın başlangıç olasılığı İşlenecek olan D eğitim verisinin önsel olasılığı : P(D) P(D|h) : Bir h hipotezi göz önünde tutulduğunda D eğitim verisinin olasılığı. ML problemlerinde ise P(h|D) olasılığı ile ilgileniriz: P(h|D) D göz önünde tutulduğunda h’ın olasılığı. Bayes Teoremi: P(h) önsel olasılıktan P(D) ve P(D|h) kullanarak sonsal olasılık hesaplanması için yol sağlar.

Bayes Kuralı Örnek Menenjitin var olduğu kişilerin yaklaşık % 50 sinde boyunda sertleşmeye neden olabileceğini kabul edelim. Araştırmalardan sonucunda elde edilen bilgiler doğrultusunda 50000 kişide bir menenjitin görüldüğünü ve her 20 kişiden birinde de boyunda sertleşme olduğunu varsayalım. Boyunda sertleşme şikayeti olan bir hastanın menenjit olup olmadığını bilmek istiyoruz. Bu da menenjitin boyun sertleşmesine neden olma olasılığıdır.

Navie Bayes İkinci Generative Learning algoritmasıdır. GDA’da x giriş verileri sürekli ve gerçek değerliydi. Navie Bayes öğrenme algoritmasında, x giriş verileri ayrık-değerlidir. Örnek: Spam classification

Spam Classification Her e-mail: kelimelerinden oluşan özellik vektörleri ile temsil edilir.

Spam Classification we want to build a discriminative model according to feature vector. we have to model p(x І y). But if we have, say, a vocabulary of 50000 words, then x is a 50000-dimensional vector of 0's and1's). This model needs too many parameters. p(x І y) model needs a very strong assumption. assume that the xi's are conditionally independent given y. This assumption is called Naive Bayes (NB) assumption, the algorithm is called Naive Bayes classier.

Spam Classification Modelin parametreleri:

Spam Classification Parametrelerin modele örtüşmesi için Joint-Likelihood yazılır:

Spam Classification Bir e-mail için kestirim yapmak demek, p(y|x) yi bulmak demektir (p(y) ve p(x|y) kullanılarak).

Laplace Smoothing Size gönderilen bir mail için sınıflandırıcı şunu söylüyor: p(x35000|y=1)=0 Navie bayes Spam sınıflayıcı p(y=1|x)’i hesaplayacaktır:

Laplace Smoothing Model tarafından görülmemiş bir örnek, hiç oluşmayacağı anlamına gelmez. Bu denklem, Laplaca smoothing ile yeniden düzenlenir: Navie Bayes Sınıflandırıcı:

Navie Bayes Örnek Eğitim verileri

Navie Bayes Örnek Frekanslar

Navie Bayes Örnek Önsel Olasılıklar

Navie Bayes Örnek Yeni bir örnek sınıflandırılacağında:

Navie Bayes Örnek Sınıflandırma modeline göre işlem yapıldığında: Bütün özellikler aynı önem derecesinde kabul edilir ve P(evet)=2/9*3/9*3/9*3/9=0.0082 P(hayır)=3/5*1/5*4/5*3/5=0.0577 Her sınıfın toplam olasılığı hesaba katılır ve özelliklerin olasılıkları ile çarpılır. P(evet)=0.0082*9/14=0.0053 P(hayır)=0/0577*5/14=0.0206 olasılığı maksimum yapan sınıf seçilirse yeni örnek `hayır` olarak etiketlenir.

Navie Bayes Örneği-2

Navie Bayes Örneği-2 Sınıflandırılacak örnek: Magazine Promotion = Yes Watch Promotion = Yes Life Insurance Promotion = No Credit Card Insurance = No Sex = ?

Navie Bayes Örneği-2

Navie Bayes Örneği-2 Sex = Male için olasılık hesabı

Navie Bayes Örneği-2 Sex = Male için koşullu olasılıklar: P(magazine promotion = yes | sex = male) = 4/6 P(watch promotion = yes | sex = male) = 2/6 P(life insurance promotion = no | sex = male) = 4/6 P(credit card insurance = no | sex = male) = 4/6 P(E | sex =male) = (4/6) (2/6) (4/6) (4/6) = 8/81 P(sex = male | E)  (8/81) (6/10) / P(E) P(sex = male | E)  0,0593 / P(E)

Navie Bayes Örneği-2 Sex = Female için olasılık hesabı

Navie Bayes Örneği-2 Sex = Female için koşullu olasılıklar; P(magazine promotion = yes | sex = female) = 3/4 P(watch promotion = yes | sex = female) = 2/4 P(life insurance promotion = no | sex = female) = 1/4 P(credit card insurance = no | sex =f emale) = 3/4 P(E | sex =female) = (3/4) (2/4) (1/4) (3/4) = 9/128 P(sex = female | E)  (9/128) (4/10) / P(E) P(sex = female | E)  0,0281 / P(E)

Navie Bayes Örneği-2 P(sex = male | E)  0,0593 / P(E) P(sex = female | E)  0,0281 / P(E) 0,0593 > 0,0281 ise sınıflayıcıya göre E davranışını gösteren kredi kartı sahibi erkektir.

Spam Filtering Example Two Classes: Spam and ham Training Data ham d1: “good.” ham d2: “very good.” spam d3: “bad.” spam d4: “very bad.” spam d5: “very bad, very bad.” Test Data d6: “good? bad! very bad!”

Spam Filtering Example Prior Probabilities:

Spam Filtering Example Likelihood of parameters: (d6: “good? bad! very bad!”) ) Posterior Probability: Classification: d6: SPAM

Bayes Sınıflandırıcılar-Değerlendirme Avantajları: gerçeklenmesi kolay Genel olarak iyi sonuçlar Eğitim ve değerlendirme işlemi çok hızlıdır Dezavantajları varsayım: sınıf bilgisi verildiğinde nitelikler bağımsız gerçek hayatta değişkenler birbirine bağımlı değişkenler arası ilişki modellenemiyor Çok karmaşık sınıflama problemleri çözmede yetersiz kalabilir Çözüm Bayes ağları

Örnek Bayes Ağı Bir Bayes Ağı aşağıdakilerden oluşur Directed Acyclic Graph Graphdaki her düğüm için bir tablo

Directed Acyclic Graph

Her düğüm için bir tablo

Bayes Ağları Önemli özellikleri: Değişkenler arasındaki koşullu olasılık ilişkilerini bir graph yapısı üzerinde tutar. Değişkenler arasındaki ortak olasılık dağılımının bütünleşik bir gösterimidir.

Ortak Olasılık Dağılımı Markov koşuluna göre Bayes ağındaki tüm Xi düğümlerinin ortak olasılığı aşağıdaki formule göre bulunabilir:

Bayes Ağı Örnek

Referanslar T.M. Mitchell, Machine Learning, McGraw Hill, 1997. E.Alpaydin, Introduction to Machine Learning, MIT Press, 2010. Han J., Kamber M., Data Mining Concepts and Techniques, Morgan Kaufmann Publishers, 2006. Andrew Ng, CS229 Lecture notes, Part IV.