BİLEŞİK CÜMLELERDE YAN CÜMLECİKLERİN OTOMATİK ETİKETLENMESİ METİN BİLGİN-M.FATİH AMASYALI.

Slides:



Advertisements
Benzer bir sunumlar
Araştırma adresinde, Computer Science alanında ilk 10’da yer alan, üniversitelerin web siteleri incelenerek yapılmıştır.
Advertisements

ÖZGÜRLÜK VE BAĞIMSIZLIK BENİM KARAKTERİMDİR.
FİİLİMSİLER 8.SINIF EBRU GÜNAY   Türkçe Öğretmenliği 2. SINIF(İ.Ö)
Bilgisayar Dosya Uzantıları
YAPAY ZEKA ÖDEV - 3 Kenan KILIÇASLAN Trakya Üniversitesi Fen Bilimleri Enstitüsü Makina Mühendisliği Doktora Programı.
CÜMLE TÜRLERİ.
Hazırlayan: Zeynep Adsoy Türkçe Öğretmenliği/2 No:
Türkçe Dokümanlarda Yapay Sinir Ağları ile Yazar Tanıma
Noktalama işaretleri ( NOKTA , virgül , noktalı virgül )
HAZIRLAYAN :Arda UZUNOĞLU
Gömülü ve Akıllı Sistemler Öğretimi ve Laboratuvarı
XII International TwelfthTurkish Symposium on Artificial Intelligence and Neural Networks 2003 Canakkale Turkey Veri Tabanı Sunucu Kümelerinde Yük Dengeleme.
CÜMLENİN ÖGELERİ.
CÜMLE.
TÜRKÇE ÖĞRETMENLİĞİ(İ.Ö) 2.SINIF
=>NOKTALAMA İŞARETLERİ<=
Erkan ULKER & Ahmet ARSLAN Selçuk Üniversitesi,
NOKTALAMA İŞARETLERİ Eğik Çizgi ( / ) Yay Ayraç ( )
TESTLER. 2 Değerlendirme  Öğretim sürecindeki değerlendirme basamağı etkili öğretim için vazgeçilmezdir.  Değerlendirme; Konunun ne düzeyde anlaşıldığını.
Sayısal Görüntü İşleme’de Özel Konular
TÜRKÇE / Noktalama İşaretleri
İSTATİSTİKTE GÜVEN ARALIĞI VE HATALAR
M.Fatih AMASYALI Uzman Sistemler Ders Notları
1 Tarım Politikası Dersi Uygulama Dönemi Tez Yazımında Dikkat Edilmesi Gereken Konular Dr. Yener ATASEVEN Ankara Üniversitesi.
TÜRKÇE / CÜMLE TÜRLERİ CÜMLE TÜRLERİ.
NOUN CLAUSES (İSİM CÜMLECİKLERİ).
TC.ERCİYES ÜNİVERSİTESİ TÜRKÇE ÖĞRETMENLİĞİ
Makine Öğrenmesinde Yeni Problemler
CÜMLEDE ANLAM Ahmet Eren Köksal.
YAZIM KURALLARI.
Kısa Çizgi ( - ) Uzun Çizgi ( — ) NOKTALAMA İŞARETLERİ
E Kitap Yrd. Doç. Dr. Cenk Akbıyık. E kitaplar, bilgisayar, tablet, telefon, okuyucu gibi elektronik araçlarla görüntülenebilir kitaplardır.
BBY606: Araştırma Yöntemleri
Statistics, Data, and Statistical Thinking
CÜMLENİN ÖĞELERİ 1. YÜKLEM Türkçe bir cümlede, yüklem mutlaka olmalıdır. Yüklemi olmayan bir cümle olmaz. Yüklem, tümcede iş, oluş, hareket, davranış,
NOKTALAMA İŞARETLLERİ
NOKTALAMA İŞARETLERİ.
Bölüm 2 : Yapay Zeka nedir?
Makine Öğrenmesinde Yeni Problemler YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ.
1. Ders: Ders İşleyişi Hazırlayan ve Sunan:
Habibe GÜLER1, Nazan ÜZÜM1, Kurtuluş OLGUN1
Bilgisayar Mühendisliği Bölümü
Avrupa Birliği Ortak Dil Kaynakları ve Teknoloji Altyapısı
İSTATİSTİK II Hipotez Testleri 1.
Bilgisayar ile Çeviri Sistemleri
Türkçe Arama Motorları Ne Kadar Türkçe?
Emg İşleme Engin Kaya.
LIBRARY SCIENCE JEOPARDY
Simple Present Tense Simple Present Tense (Basit Geniş Zaman)
60x90 cm Title of the congress paper Author(s) Name Surname Özet
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
Deniz Tekin Ersan Şükran Alan
Nitel Veri Analiz Programlarının Veri Analizinde Kullanılması
The 2nd UNIDOKAP International Symposium on BIODIVERSITY,
Makine Öğrenmesinde Yeni Problemler
END331 Yöneylem Araştırması I
60x90 cm Title of the congress paper Author(s) Name Surname Özet
İSTATİSTİK II Hipotez Testleri 1.
Mehmet Fatih KARACA Yrd. Doç. Dr. Salih GÖRGÜNOĞLU
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
NİŞANTAŞI ÜNİVERSİTESİ
Bitirme tezi nasıl yazılır
NİŞANTAŞI ÜNİVERSİTESİ
Ahmet DURAP1 YUNUS DOĞAN2
Türkçe Haber Yazılarında Sosyal Ağların İncelenmesi
Yapay Öğrenme Teorisi Bölüm-1
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Hidden Markov Model Forward Algoritması Viterbi Algoritması
Kelime Anlamları (Word Semantics) Doç.Dr.Banu Diri
Sunum transkripti:

BİLEŞİK CÜMLELERDE YAN CÜMLECİKLERİN OTOMATİK ETİKETLENMESİ METİN BİLGİN-M.FATİH AMASYALI

SUNUŞ 1. Sekans Etiketleme 1.1Tanım 1.2 Uygulama Alanları 2. Hipotezimiz 2.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi 3. Sekans Etiketleme için Kullanılan Yöntemler 3.1.Saklı Markov Model 3.2.Maksimum Entropi Markov Model 3.3.Şartlı Rastgele Alanlar 4. Yapılan Çalışma 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi 5. Sonuç

1.Sekans Etiketleme  Sekans Etiketleme, giriş I(i 1,i 2,…,i n ) sekansına karşılık çıkış için O(o 1,o 2,…,o n ) sekansının üretilmesidir.  I ve O kümesine göre birçok uygulama alanı vardır.

1.Sekans Etiketleme  Uygulama Alanları  Varlık İsmi Tanımlama (Name Entity Recognition) (I-input O-Output) ORGEPEREELOCE UN official John heads forIraq. I O

1.Sekans Etiketleme  POS (Part Of Speech) Tagging  Shallow Parsing AdjNVDetN Fruit flies like a banana I O NP VP The hungry rabbiteats quickly I O

1.Sekans Etiketleme  Cümleyi Öğelerine Ayırma (Role Labeling) ZTÖ Yük. Nokt. Bugün hava çok sıcak. I O

1.Sekans Etiketleme  Yan Cümleciklere Ayırma Ali yarala n mış ol I1I1 O i al ıp kasaba yı I2I2 an. Elif Öİ fiil Fiil_n Fiil_dön Başla Devam terk et er fiil Fiil_n Öİib fiil fi-ipisimi.be isim fiil Fiil-er Nokta …Devam… Bitti Başla … Bitti Başla

1.Sekans Etiketleme  Bağlılık Ayrıştırma (Dependency Parsing) Özne Nesne Nit. NesneNit. O kalemini tek silahı olarak I O2O O1O1 görür 0 ROOT

1.Sekans Etiketleme  Diğer uygulama alanları  Otomatik Çeviri  Fikir Madenciliği  Konuşma Tanıma  …  Ortak özellik: şu anki çıkışın geçmişe de bağlı olması

2. Hipotezimiz  2.1. Hipotezimiz  İçerisinde birden fazla yargı bildiren bir bileşik cümleyi yan cümleciklerine ayırmak için Şartlı Rastgele Alanlar yöntemi kullanılabilir.

3.SE için Kullanılan Yöntemler  HMM (Hidden Markov Model-Saklı Markov Model)  MEMM (Maximum Entropy Markov Model)  CRF (Condition Random Fields-Şartlı Rastgele Alanlar)

3.1. HMM  Markov modeli, mevcut durumlar verildiğinde gelecek durumların geçmiş durumlara bağlı olması anlamına gelir. Durumlar gözlemci için görünebilirdir ve tek parametre durum geçiş olasılıklarıdır [1].  a=2 için;  t=a anında S 2 değeri, sadece t=a-1 anındaki S 1 durumuna bağlıdır. S1S1 S2S2 S3S3 SnSn

3.1. HMM S1S1 S2S2 S3S3 SnSn O1O1 O2O2 O3O3 OnOn [2]

3.2. MEMM S1S1 S2S2 S3S3 SnSn O1O1 O2O2 O3O3 On [3]

3.3. CRF  CRF’de ise; S1S1 S2S2 S3S3 SnSn O1O1 O2O2 O3O3 SnSn [4]

Yöntemlerin Karşılaştırılması HızYöntemNormalizasyon HMMHızlıBirleşik OlasılıkYerel MEMMOrtaKoşullu OlasılıkYerel CRFYavaşKoşullu OlasılıkGenel

4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi  Öncelikle dilbilimciler tarafından elde edilen 1278 cümle el ile temel ve yan cümleciklerine ayrıldı.  Ardından Fatih Parser programı ile her cümlenin tek tek kelime analizi gerçekleştirilir.

 Sistemin 1.girişi kelime analizi yapılmış kelimeler ve ekleri, 2.girişleri ise bu kelimeler ve eklere karşılık Fatih Parser’ın ürettiği kelime türleridir Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi

 Çıkışları etiketlemek için; EtiketAnlamı BaşlaYan/Temel cümlenin başladığını belirtir DevamYan/Temel cümlenin devam ettiğini belirtir BittiYan/Temel cümlenin bittiğini belirtir bos Cümle içindeki boşlukları belirtir NoktalamaNoktalama işareti olduğunu belirtir 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi

 CRF’ye verilmeye hazır önişlemden geçmiş örnek cümle; Giriş 1Giriş 2Çıkış AliÖzel İsimBaşla yaralaFiilDevam nFiil_edilgen_sesli_nDevam mışFiil_dönüşüm_mişDevam olFiilDevam anFiil_dönüşüm_enBitti ElifÖzel isimBaşla iİsim_belirtmeDevam alFiilDevam ıpFiil_imsi_ipBitti kasabaİsimBaşla yıİsim_belirtmeDevam terkFiilDevam ederisimDevam.NoktaNoktalama 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi

Etiket 1026 Cümle 500 Cümle 250 Cümle 100 Cümle Basla Devam Bitti bos Noktalama Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi Eğitim Seti Etiket Frekansları

 1278 cümlenin 1028 Eğitim, 250’si test seti olarak ayrılmıştır. Pencere boyutu 3[-1,1] olarak alınmıştır.  Yapılan çalışma sonuçları; 4.1. Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi

Etiketlerin başarı oranları

 250 cümlelik test seti içerisinde bulunan 569 yan cümleci ğ in 543 adeti do ğ ru olarak işaretlenmiş ve 95.43'lük bir başarı oranı yakalanmıştır Bileşik Cümlelerde Yan Cümleciklerin Otomatik Etiketlenmesi

5. Sonuç  Yapılan çalışma sonucunda, sekans etiketleme işlemlerinde sıklıkla tercih edilen CRF algoritması bileşik cümlelerdeki yan cümlecikleri otomatik etiketlemede kullanılabilir olduğu görülmüştür.

 Elle etiketlenmiş verilerle eğitilen CRF sisteminin cümleyi temel ve yan cümleciklere ayırmada yüksek bir başarı gösterdiği görülmüştür. Burada eğitim setinin büyüklüğünün başarının artışı arasında doğru bir orantı olduğu görülmüştür. 5. Sonuç

 Sistemin veri seti elde etme bölümü geliştirilmeye açık kısmıdır. Sistemin güvenliğinin artırılması ve daha kesin sonuçlara ulaşılabilmesi için eğitim ve test seti boyutu artırılmalıdır. 5. Sonuç

Kaynakça  Türkçe Kaynak Sitesi, Yapılarına Göre Cümleler [Erişim Tarihi: ].  Lafferty, J., McCallum, A. ve Pereira, F., (2001). "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", International Conference on Machine Learning (ICML), 28 June-1 July 2001, Massachusetts.  Wallach, H.M., Conditional random fields: An introduction, [Erişim Tarihi: 15 Ekim 2014].  Cornell University Department of Computer Science, Sequence Tagging with HMMs-MEMMs, [Erişim Tarihi: 11 Ekim 2015].  Kazkılınç,S., (2012). Türkçe Metinlerin Etiketlenmesi, Yüksek Lisans Tezi, İ stanbul Teknik Üniversitesi Fen Bilimleri Enstitüsü, İ stanbul.  Rau, L.F., (1991). "Extracting Companu Names from Text", Artificial Intelligence Applications of IEEE, February 1991, Miami.  MacQueen, J. B., (1965). "Some Methods for Classification and Analysis of Mutivariate Observations", Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, 1:  Ekbal, A., Bandyopadhyay, S. ve Haque, R., (2009). "A Conditional Random Field Approach for Named Entity Recognition in Bengali and Hindi", Linguistic Issues in Language Technology (LiLT), 2(1):1-44.  [9] Bilgin, M., (2015). Ardışık Şartlı Rastgele Alanlarla Sekans Etiketleme, Doktora Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İ stanbul.  [10]Fatih Parser - Türkçe Çözümleyici -fatih-parser [Erişim Tarihi : ].  CRF Program, CRFSharp, [Erişim Tarihi: 20 Ekim 2015].

…TEŞEKKÜRLER…