Saklı Markov Modelleri ve Uygulamaları Gıyasettin ÖZCAN
Özet Medikal, finansal, meteorolojik … veriler ve problemleri Örüntü tanıma NP Complete Problemler Artan veri hacmi Yüksek enerji tüketimi ve maliyeti Çözüm yöntemleri: Veri indirgeme: Doğru tahmin yaptım mı? İstatistiksel Yöntemler …..
Saklı Markov Modelleri İstatistiksel bir yöntem Sınıflandırma yapılmasını sağlar Eldeki verilere göre tahmin yapmayı sağlar 1960’lı yıllarda sinyal işleme amacıyla kullanılmış: Link katmanında veri ileten cihazlar veri gönderim zamanını doğru tahmin etmez ise çakışma olacak.. El yazısı verilerini doğru şekilde tahmin ederek dijitale dönüştürme Kişilerin ses sinyallerini ayırt edebilme. Finansal piyasalardaki anormal durumları belirleme.
Sekans Hizalama AATTGCCCTCGGGGAA ATGCATTGGCAATTGCC CCAATTGCCGCGCATTG
Saklı Markov Modelleri 1995: Biyolojik sekansların benzerliğini hesaplamak çok karmaşık bir problem. Oysa verim hacmi hızla artmaya başlamakta. İlk bakışta mantıksız görünse de Saklı Markov Modeli ile sekans benzerliği denenmiş. 2010 yılı itibarı ile HMM, sekans analizinde yaygın kullanılır hale gelmiş. [1]:http://www.bioinfo.ifm.liu.se/edu/TFTB29/HT2013/assignment3.html adresinden alınan şekle göre
Saklı Markov Modelleri Benzer mantık tüm zaman serisi uygulamalarında görülebilir Mevsimin yaz olması gün sıcaklığında önemli etmendir. Depremlerin gece saatlerinde olma ihtimali daha yüksek olabilir. Kişilerin kansere yakalanma riski yaşa bağımlı. Borsaların Ocak-Mayıs döneminde yükselme ihtimali göreceli olarak daha yüksek.
Saklı Markov Modeli (λ)
Üç SMM problemi İleri Algoritması: Viterbi Algoritması Karşımıza çıkan bir gözlemin eldeki SMM ile üretilme ihtimalini bulma. Formal olarak: O = O1,O2, O3,….On için P(O | λ)=? Viterbi Algoritması O gözlemine sebep olacak en muhtemel gizli durum sekansını çıkarmak. Baum-Welsch Algoritması: Eldeki gözlemlere göre en iyi λ nedir?
Viterbi Algoritması[2] Verilen bir sekansın gizli faktörlerini bulma. Elde edilen DNA sekansını üretebilecek gizli faktörleri bulmak. Gözlemlenen meteorolojik verileri sıraya dizerek sekans haline getirmek, daha sonra bu gözlemleri ortaya çıkaran gizli sebepleri incelemek. Borsada spekülatif hareketleri tespit etmek. Bir sunucuya gelen paketlerden saldırı amaçlı olanları tespit etmek
Baum Welsch Algoritması Gözlemlere göre λ={π, A,B} değerlerini tahmin et. Başlangıç değerlerini rastgele belirle. Mevcut A değerlerine göre B değerlerini hesapla. Mevcut B değerlerine göre A değerlerini hesapla. ……. …… Bir noktada bırak.
DNA Sekans Hizalama Uygulaması P53: Mutasyona uğramış hücrelerin yok edilmesini sağlar. : Çoğu canlının P53 DNA sekanslarında ortak ve farklı dizilimler bulunur. Amaç: Canlıların P53 sekansını ayırt edebilen bir SMM modeli tasarlamak. Canlı Sekans Uzunluğu Sığır 1161 Kurt 1247 Beyaz Balina 1164 Koyun 1149 Frekans Nükleotid Sığır Kurt Beyaz Balina Koyun A 0.229 0.222 0.225 0.221 T 0.315 0.322 0.308 0.311 G 0.254 0.252 0.268 0.265 C 0.201 0.202 0.197
Transmisyon-Emisyon Olasılıkları X1 X2 X3 X4 0.2459 0.2160 0.2892 0.2489 0.2006 0.4732 0.1322 0.1941 0.2504 0.1674 0.3319 0.2502 0.2446 0.2434 0.2662 0.2458 Y1 Y2 Y3 Y4 X1 0.2618 0.2496 0.2823 0.2063 X2 0.1054 0.5290 0.1171 0.2485 X3 0.3090 0.1750 0.3700 0.1460 X4 0.2430 0.2691 0.2926 0.1953
Sonuç Elde edilen SMM modelleri sınıflandırma amacıyla kullanılabilecektir. Geleneksel yollarla kıyaslanması neredeyse imkansız olan sekansların benzerliğini bulma konusunda başarılıdır. Matlab ya da Octave gibi uygulamalarda hem istatistik hem de biyoinformatik toolbox kolaylık sağlamakta. Açık kaynaklı C++ uygulamaları internette mevcuttur.
Referanslar [1] http://www.bioinfo.ifm.liu.se/edu/TFTB29/HT2013/assignment3.html [2] New Zealand University, Lecture Notes.