BİLEŞİK CÜMLELERDE YAN CÜMLECİKLERİN OTOMATİK ETİKETLENMESİ METİN BİLGİN-M.FATİH AMASYALI
SUNUŞ 1. Sekans Etiketleme 1.1Tanım 1.2 Uygulama Alanları 2. Hipotezimiz 2.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi 3. Sekans Etiketleme için Kullanılan Yöntemler 3.1.Saklı Markov Model 3.2.Maksimum Entropi Markov Model 3.3.Şartlı Rastgele Alanlar 4. Yapılan Çalışma 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi 5. Sonuç
1.Sekans Etiketleme Sekans Etiketleme, giriş I(i 1,i 2,…,i n ) sekansına karşılık çıkış için O(o 1,o 2,…,o n ) sekansının üretilmesidir. I ve O kümesine göre birçok uygulama alanı vardır.
1.Sekans Etiketleme Uygulama Alanları Varlık İsmi Tanımlama (Name Entity Recognition) (I-input O-Output) ORGEPEREELOCE UN official John heads forIraq. I O
1.Sekans Etiketleme POS (Part Of Speech) Tagging Shallow Parsing AdjNVDetN Fruit flies like a banana I O NP VP The hungry rabbiteats quickly I O
1.Sekans Etiketleme Cümleyi Öğelerine Ayırma (Role Labeling) ZTÖ Yük. Nokt. Bugün hava çok sıcak. I O
1.Sekans Etiketleme Yan Cümleciklere Ayırma Ali yarala n mış ol I1I1 O i al ıp kasaba yı I2I2 an. Elif Öİ fiil Fiil_n Fiil_dön Başla Devam terk et er fiil Fiil_n Öİib fiil fi-ipisimi.be isim fiil Fiil-er Nokta …Devam… Bitti Başla … Bitti Başla
1.Sekans Etiketleme Bağlılık Ayrıştırma (Dependency Parsing) Özne Nesne Nit. NesneNit. O kalemini tek silahı olarak I O2O O1O1 görür 0 ROOT
1.Sekans Etiketleme Diğer uygulama alanları Otomatik Çeviri Fikir Madenciliği Konuşma Tanıma … Ortak özellik: şu anki çıkışın geçmişe de bağlı olması
2. Hipotezimiz 2.1. Hipotezimiz İçerisinde birden fazla yargı bildiren bir bileşik cümleyi yan cümleciklerine ayırmak için Şartlı Rastgele Alanlar yöntemi kullanılabilir.
3.SE için Kullanılan Yöntemler HMM (Hidden Markov Model-Saklı Markov Model) MEMM (Maximum Entropy Markov Model) CRF (Condition Random Fields-Şartlı Rastgele Alanlar)
3.1. HMM Markov modeli, mevcut durumlar verildiğinde gelecek durumların geçmiş durumlara bağlı olması anlamına gelir. Durumlar gözlemci için görünebilirdir ve tek parametre durum geçiş olasılıklarıdır [1]. a=2 için; t=a anında S 2 değeri, sadece t=a-1 anındaki S 1 durumuna bağlıdır. S1S1 S2S2 S3S3 SnSn
3.1. HMM S1S1 S2S2 S3S3 SnSn O1O1 O2O2 O3O3 OnOn [2]
3.2. MEMM S1S1 S2S2 S3S3 SnSn O1O1 O2O2 O3O3 On [3]
3.3. CRF CRF’de ise; S1S1 S2S2 S3S3 SnSn O1O1 O2O2 O3O3 SnSn [4]
Yöntemlerin Karşılaştırılması HızYöntemNormalizasyon HMMHızlıBirleşik OlasılıkYerel MEMMOrtaKoşullu OlasılıkYerel CRFYavaşKoşullu OlasılıkGenel
4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi Öncelikle dilbilimciler tarafından elde edilen 1278 cümle el ile temel ve yan cümleciklerine ayrıldı. Ardından Fatih Parser programı ile her cümlenin tek tek kelime analizi gerçekleştirilir.
Sistemin 1.girişi kelime analizi yapılmış kelimeler ve ekleri, 2.girişleri ise bu kelimeler ve eklere karşılık Fatih Parser’ın ürettiği kelime türleridir Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi
Çıkışları etiketlemek için; EtiketAnlamı BaşlaYan/Temel cümlenin başladığını belirtir DevamYan/Temel cümlenin devam ettiğini belirtir BittiYan/Temel cümlenin bittiğini belirtir bos Cümle içindeki boşlukları belirtir NoktalamaNoktalama işareti olduğunu belirtir 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi
CRF’ye verilmeye hazır önişlemden geçmiş örnek cümle; Giriş 1Giriş 2Çıkış AliÖzel İsimBaşla yaralaFiilDevam nFiil_edilgen_sesli_nDevam mışFiil_dönüşüm_mişDevam olFiilDevam anFiil_dönüşüm_enBitti ElifÖzel isimBaşla iİsim_belirtmeDevam alFiilDevam ıpFiil_imsi_ipBitti kasabaİsimBaşla yıİsim_belirtmeDevam terkFiilDevam ederisimDevam.NoktaNoktalama 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi
Etiket 1026 Cümle 500 Cümle 250 Cümle 100 Cümle Basla Devam Bitti bos Noktalama Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi Eğitim Seti Etiket Frekansları
1278 cümlenin 1028 Eğitim, 250’si test seti olarak ayrılmıştır. Pencere boyutu 3[-1,1] olarak alınmıştır. Yapılan çalışma sonuçları; 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi
Etiketlerin başarı oranları
250 cümlelik test seti içerisinde bulunan 569 yan cümleci ğ in 543 adeti do ğ ru olarak işaretlenmiş ve 95.43'lük bir başarı oranı yakalanmıştır Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi
5. Sonuç Yapılan çalışma sonucunda, sekans etiketleme işlemlerinde sıklıkla tercih edilen CRF algoritması bileşik cümlelerdeki yan cümlecikleri otomatik etiketlemede kullanılabilir olduğu görülmüştür.
Elle etiketlenmiş verilerle eğitilen CRF sisteminin cümleyi temel ve yan cümleciklere ayırmada yüksek bir başarı gösterdiği görülmüştür. Burada eğitim setinin büyüklüğünün başarının artışı arasında doğru bir orantı olduğu görülmüştür. 5. Sonuç
Sistemin veri seti elde etme bölümü geliştirilmeye açık kısmıdır. Sistemin güvenliğinin artırılması ve daha kesin sonuçlara ulaşılabilmesi için eğitim ve test seti boyutu artırılmalıdır. 5. Sonuç
Kaynakça Türkçe Kaynak Sitesi, Yapılarına Göre Cümleler [Erişim Tarihi: ]. Lafferty, J., McCallum, A. ve Pereira, F., (2001). "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", International Conference on Machine Learning (ICML), 28 June-1 July 2001, Massachusetts. Wallach, H.M., Conditional random fields: An introduction, [Erişim Tarihi: 15 Ekim 2014]. Cornell University Department of Computer Science, Sequence Tagging with HMMs-MEMMs, [Erişim Tarihi: 11 Ekim 2015]. Kazkılınç,S., (2012). Türkçe Metinlerin Etiketlenmesi, Yüksek Lisans Tezi, İ stanbul Teknik Üniversitesi Fen Bilimleri Enstitüsü, İ stanbul. Rau, L.F., (1991). "Extracting Companu Names from Text", Artificial Intelligence Applications of IEEE, February 1991, Miami. MacQueen, J. B., (1965). "Some Methods for Classification and Analysis of Mutivariate Observations", Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, 1: Ekbal, A., Bandyopadhyay, S. ve Haque, R., (2009). "A Conditional Random Field Approach for Named Entity Recognition in Bengali and Hindi", Linguistic Issues in Language Technology (LiLT), 2(1):1-44. [9] Bilgin, M., (2015). Ardışık Şartlı Rastgele Alanlarla Sekans Etiketleme, Doktora Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İ stanbul. [10]Fatih Parser - Türkçe Çözümleyici -fatih-parser [Erişim Tarihi : ]. CRF Program, CRFSharp, [Erişim Tarihi: 20 Ekim 2015].
…TEŞEKKÜRLER…