BİL3112 Makine Öğrenimi (Machine Learning) 7. Hafta
Bayes Ağları (Bayesian Networks) 1. Bölüm
Bayes Teoremi X, ait olduğu sınıf belli olmayan veri olsun. H hipotezi, X’in C sınıfına ait olduğunu kabul etsin. Sınıflandırma problemi için gözlemlenen X’in verildiği varsayılırsa, P(H|X), yani X verildiğinde hipotezin kabul edilebilir (doğru) olma olasılığı, P(H) ise H hipotezinin gözlem yapılmadan önceki ilk haldeki öncül olasılığı (prior probability), P(X) ise örnek datanın gözlemlenmesi olasılığı, P(X|H) ise hipotezin doğru olduğu verildiğinde X’in gözlemlenme olasılığıdır.
Bayes Teoremi Sonsal Olasılık = (Olabilirlik x Öncül Olasılık) / Kanıt Öğrenme kümesi X verildiğinde, H hipotezinin sonsal (posterior) olasılığı, P(H|X) Bayes teoremine göre Başka bir ifadeyle Sonsal Olasılık = (Olabilirlik x Öncül Olasılık) / Kanıt Paydadaki kanıt yani p(x); Zorluk: İlk hale ait bir çok olasılığın bilinmesini gerektirebilir
En olası Hipotez Amaç, H hipotez uzayındaki en iyi hipotezlerin belirlenmesidir. En iyi hipotez: en olası hipotez Bayes Teoremi: olasılıkların hesaplanması için direk bir yol sunar. kendi öncül olasılığına dayanarak hipotezin olasılığının hesaplanması için bir yol sağlar.
Bayes Teoremi Bayes teoremi üzerine kurulu ve olasılık tabanlı çıkarsama yapan bir yöntemdir. Bayes Teoremi: Bağımsız iki olayın birlikte gerçekleşme olasılığı: Bağımlılık durumunda iki olayın birlikte gerçekleşme olasılığı: H ve B’nin birlikte olma olasılığı B ve H’nin birlikte olma olasılığına eşit olduğu için aşağıdaki yazılabilir: (B durumu bilindiğinde H’nin olma olasılığı / Koşullu olasılık) P(B) olasılığı H olduğu ve olmadığı durumlardaki olasılıkların toplamına eşit olduğundan P(B) aşağıdaki gibi yazılabilir: Buna göre düzenlenmiş Bayes teoremi aşağıdaki gibi olur:
Bayes Teoremi – Örnek 1 Menenjitin var olduğu kişilerin yaklaşık % 50’ sinde boyunda sertleşmeye neden olabileceğini kabul edelim. Araştırmalardan sonucunda elde edilen bilgiler doğrultusunda 50000 kişide bir menenjitin görüldüğünü ve her 20 kişiden birinde de boyunda sertleşme olduğunu varsayalım. Boyunda sertleşme şikayeti olan bir hastanın menenjit olup olmadığını bilmek istiyoruz. Bu da menenjitin boyun sertleşmesine neden olma olasılığıdır.
Bayes Teoremi – Örnek 2 İki tabak dolusu bisküvi düşünülsün; tabak #1 içinde 10 tane çikolatalı bisküvi ve 30 tane sade bisküvi bulunduğu kabul edilsin. Tabak #2 içinde ise her iki tip bisküviden 20’şer tane olduğu bilinsin. Evin küçük çocuğu bir tabağı rastgele seçip bu tabaktan rastgele bir bisküvi seçip alsın. Çocuğun bir tabağı diğerine ve bir tip bisküviyi diğerine tercih etmekte olduğuna dair elimizde hiçbir gösterge bulunmamaktadır. Çocuğun seçtiği bisküvinin sade olduğu görülsün. Soru: Çocuğun bu sade bisküviyi tabak #1’ den seçmiş olmasının olasılığı nedir?
Bayes Teoremi – Örnek 2 Çocuğun bir sade bisküvi seçmiş olduğu bilinmektedir; o halde bu koşulla birlikte tabak #1den seçim yapması olasılığı ne olacaktır? Bayes teoremi formülüne uymak için A olayı çocuğun tabak #1den seçim yapması; B olayı ise çocuğun bir sade bisküvi seçmesi olsun. İstenilen olasılık böylece P(A|B) olacaktır ve bunu hesaplamak için şu olasılıkların bulunması gerekir: P(A) veya hiçbir diğer bilgi olmadan çocuğun tabak #1'den seçim yapması olasılığı P(B) veya hiçbir diğer bilgi olmadan çocuğun bir sade bisküvi seçmesi olasılığı. Diğer bir ifade ile, bu çocuğun her bir tabaktan bir sade bisküvi seçme olasılığıdır. Bu olasılık, önce her iki tabaktan ayrı ayrı olarak seçilen bir tabaktan bir sade bisküvi seçme olasılığı ile bu tabağı seçme olasılığının birbirine çarpılması ve sonra bu iki çarpımın toplanması suretiyle elde edilir. Tabaklarda olan sade bisküvinin sayısının toplama orantısından bilinmektedir ki tabak #1'den bir sade bisküvi seçme olasılığı (30/40=) 0,75 Tabak #2'den sade bisküvi seçme olasılığı (20/40=) 0,5 olur.
Bayes Teoremi – Örnek 2 Her iki tabaktan seçme olasılığı ise her tabak aynı şekilde uygulama gördüğü için 0,50 olur. Böylece bu problemin tümü için bir sade bisküvi seçme olasılığı (0.75×0.5) + (0.5×0.5) = 0.625 olarak bulunur. Pr(B|A), veya çocuğun tabak #1'den seçim yaptığı bilirken bir sade bisküvi seçmesi: Bu 0,75 olarak bilinmektedir çünkü tabak #1'deki toplam 40 bisküviden 30'u sade bisküvidir. Şimdi bu açıklanan tüm olasılık değerleri Bayes Teoremi formülüne konulursa; Böylece çocuğun sade bisküvi seçimi bilindiğine göre tabak #1'den alma olasılığı %60'dır.
Bayesci Öğrenme Modelinin Özellikleri Bayesci yaklaşımda parametreleri öncül bir dağılımdan çekilmiş rastsal değişkenler olarak görürüz. Her yeni eğitim verisi hipotezin doğru olma olasılığını düşürebilir ya da artırabilir. Bu da tek bir giriş verisi ile bile tutarlı olmayan hipotezlerin elenmesi konusunda daha esnek bir yaklaşım sunar. Hipotezin nihai olasılığının bulunması için eldeki veri ile öncül bilgi kombine edilir. Bayesci öğrenmede, öncül bilgi (prior knowledge): her aday hipotez için önsel olasılık öne sürmekle ve her hipotez için eldeki verinin olasılıklı dağılımı ile sağlanır. Bayesci yöntemleri hipotezleri olasılıklı tahminler yapabilecekleri şekilde düzenlerler. (%95 hasta değil şeklinde) Yeni örnekler, pek çok hipotezin tahmini kombine edilerek sınıflandırılabilirler.
Modelin Zorluğu Bayesci yöntemlerinin uygulamalarındaki en belirgin zorluğu, olasılıkların başlangıç değerlerine ihtiyaç duyulmasıdır. Bu olasılıkların bilinmemesi durumunda genellikle verilerin dağılımlarına, elde var olan verilere ya da veriler hakkındaki temel bilgilere dayanarak kestirilebilir. İkinci bir zorluk, Bayes optimum hipotezin belirlenmesi için dikkate değer bir bilgisayar zamanı gerekmektedir.
Bayesci Sınıflandırma Olasılığa Dayalı Öğrenme: Hipotezler için olasılıklar hesaplanır. Bazı öğrenme problemleri için en pratik yöntemdir. Artan: Önceden bilinenler gözlemlenen veri ile birleştirilebilir. Her örnek bir hipotezin doğruluk olasılığını artırıp azaltabilir. Olasılığa Dayalı Tahmin: Birden fazla hipotez tahmin edilir ve olasılıklarına göre ağırlık verilir. Temel Karşılaştırma Yöntemi: Bazı durumlarda Bayesci öğrenme yöntemlerinin uygulanması sayısal olarak mümkün olmasa da diğer yöntemlerin optimal karar yüzeylerini karşılaştırmak için en önemli temel yaklaşımdır. En bilinen Bayesci sınıflandırma algoritmalarından birisi, Naive Bayes’ dir, ikili ya da çoklu sınıflandırmada kullanılabilir.
Bayes Sınıflandırıcılar-Değerlendirme Avantajları: gerçeklenmesi kolay Genel olarak iyi sonuçlar Eğitim ve değerlendirme işlemi çok hızlıdır Dezavantajları: varsayım: sınıf bilgisi verildiğinde nitelikler bağımsız gerçek hayatta değişkenler birbirine bağımlı değişkenler arası ilişki modellenemiyor Çok karmaşık sınıflama problemleri çözmede yetersiz kalabilir Çözüm: Bayes Ağları
Bayes Ağları Bayes İnanç Ağları, değişkenlerin bir alt kümesinin koşullu olarak bağımsız olmasına izin verir Nedensel ilişkilerin grafiksel bir modelidir Değişkenler arasında bağımlılığı gösterir Ortak olasılık dağılımları için spesifikasyonları belirler Düğüm: rassal değişkenler Bağlantılar: bağımlılık X,Y Z’nin ebeveynleridir, Y ise P’nin ebeveynidir Z ve P arasında herhangi bir bağımlılık yoktur Hiç bir çevrim ve döngüye izin vermez Y Z P X
Bayes Ağları Önemli özellikleri: Değişkenler arasındaki koşullu olasılık ilişkilerini bir graph yapısı üzerinde tutar. Değişkenler arasındaki ortak olasılık dağılımının bütünleşik bir gösterimidir.
Bayes İnanç Ağı: Bir Örnek Aile Tarihçesi Sigara İçer (AT, S) (AT, ~S) (~AT, S) (~AT, ~S) AK 0.8 0.5 0.7 0.1 Akciğer Kanseri Emphysema ~AK 0.2 0.5 0.3 0.9 Akciğer Kanseri değişkeninin koşullu olasılık tablosu, bu değişkenin her ebeveyn kombinasyonu için koşullu olasılığını gösterir Positif Röntgen Dyspnea Bayes İnanç Ağı
Örnek Bayes Ağı Bir Bayes Ağı aşağıdakilerden oluşur Directed Acyclic Graph Graphdaki her düğüm için bir tablo
Yönlü Döngüsüz Grafik Özelliği (Directed Acyclic Graph)
Her düğüm için bir tablo…
Ortak Olasılık Dağılımı Markov koşuluna göre Bayes ağındaki tüm Xi düğümlerinin ortak olasılığı aşağıdaki formule göre bulunabilir:
Bayes Ağı - Örnek
Bayes Ağlarının Temel Özellikleri Bayes teoremi az sayıda değişken üzerinde olasılık hesaplamaları yapmaktadır, oysa gerçek dünyada karar verilecek durumlarda değişken sayısı oldukça fazladır. Bu durumda, hem değişkenler arasındaki neden-sonuç ilişkileri kurulmalı hem de her bir neden-sonuç için koşullu olasılıklar belirlenmelidir. Neden-sonuç ilişkisi kural tabanlı yöntemler ve karar ağaçlarında olduğu gibi uzman görüşü ile hazırlanır. Koşullu olasılıklar gerçek dünyadaki örnekler incelenerek belirlenir. A B D E C Örnek Bayes Ağı Ağ ebeveyn (parent) ve çocuk (child) düğümlerden oluşur. Ebeveyn düğümler NEDEN’leri, çocuk düğümler SONUÇ’ları ifade eder.
Bayes Ağları – Örnek (Sınıf Alıştırması) Çimenlerin ıslak olma olasılığı nedir?