Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008.

Benzer bir sunumlar


... konulu sunumlar: "Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008."— Sunum transkripti:

1 Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008

2 Sunum Planı  Genel Bilgiler  Türkçe’de Artgönderimler  Sistem Tasarımı  Sınıflandırma Sonuçları Değerlendirilmesi  Artgönderim Çözümleme Sonuçları Değerlendirilmesi  Sonuç 2

3 Genel Bilgiler  Gönderimler metinde bağlaşıklığı (cohesion) kurarak, bilgi akışında devamlılık ve bilginin artışı sağlayan etkenlerden biridir.  Artgönderim, doğal dil ile kurulan cümlelerde bir adıl veya bir isim öbeğinin, kendinden önce bahsi geçen bir nesne veya olaya tekrar yoluyla referansta bulunmasıdır (Grosz 1995). Ali, Ahmet i ’i ziyaret edecekti. Çünkü ona i yardım etmeliydi.  Söylem içinde artgönderimler ve öncülleri arasında bağlantının kurulmasına artgönderim çözümlemesi denir. 3 ÖNCÜL ARTGÖNDERİM gönderim

4 Genel Bilgiler - devam  Makine çevirisi, metin özetleme, bilgi çıkarımı ve soru cevaplama sistemleri artgönderim çözümlemesine en çok ihtiyaç duyulan alanlardır.  20 yıldan uzunca bir zamandır yapılan çalışmalarda ortaya konan yöntemler, birbirlerinden oldukça farklı metin ve diller üzerinde denenmişlerdir.  Bugün gelinen noktada, bu yöntemlerin karşılaştırılmalı bir değerlendirilmesinin yapılması ve ortama uygun yöntemlerin belirlenmesi ihtiyacı ortaya çıkmıştır.  Bu çalışmada da Türkçe artgönderim çözümlemesinin karmaşıklığını gösterebilmek ve en uygun yöntemi belirleyebilmek amacıyla denetimli makine öğrenmesi yöntemleri kullanılmıştır. 4

5 Gönderimlerin Sınıflandırılması 5 GÖNDERİMLER Dilbilgisel Kategori Gönderim Yönü Gönderim Ses İçeriği Gönderim – Öncül Konumları Adıl İsim Yüklem Belirteç Artgönderim Öngönderim Açık Gizli Cümle içi Cümleler arası Ahmet, Oya i ’ya onu i sevdiğini söyledi. Sabahtan beri onu i bekliyoruz. Fakat [Ahmet Beyler] i ancak gelebildiler. Öğretmen i, Oya j ’ya bir kitap k verdi. Ø i Ø j Onu k bir hafta içinde okumasını söyledi.

6 Artgönderim Çözümleme Etkenleri 6 ARTGÖNDERİM ÇÖZÜMLEME ETKENLERİ KISITLAYICI ETKENLER AYRICALIK TANIYAN ETKENLER Kişi/sayı ve cinsiyet uyumu kısıtları Anlamsal kısıtlar Sözdizimsel Bağlama Kuramı kısıtları Sözdizimsel Paralellik Anlamsal Paralellik Merkezleme Yaklaşımı

7 Kısıtlayıcı Etkenler Kişi/sayı ve cinsiyet uyumu kısıtları Oya, Ali’ye geçen hafta [iki kitap] i vermişti. Ali, bugün Oya’ya onları i henüz okuyamadığını söyledi. Anlamsal kısıtlar Kedi i çıktığı ağaçtan j inmek istemiyordu. Ø i aşağıdakilere yalvarır gibi bakıyordu. Sözdizimsel Bağlama Kuramı kısıtları (Chomsky 1981) 7 John i kendini i sever. John i, Mary’den onu i yıkamasını istedi. [PRO Okumak] gereklidir.

8 Ayrıcalık Tanıyan Etkenler Sözdizimsel Paralellik Oya i kitabı j çantasına koymuştu. Ø i Akşam eve geldiğinde ise Ø j çantasında bulamadı. Anlamsal Paralellik Oya, Ali i ’ye bir kitap verdi. Ayrıca, Hasan da ona i bir kalem verdi. Merkezleme Yaklaşımı (Grosz ve Sidner 1986) Oya önceki gün markete alışverişe gitti ve orada bir bardak gördü. Onu almak istedi ancak yeterli parası yoktu. Dün tekrar markete gittiğinde bardağı alacak parası vardı. Bardağı alıp evine döndü. Mutfağa giden Oya, bardağı tabağın içine koydu ve o kırıldı... 8

9 Bilgisayarlı Artgönderim Çözümleme Çalışmaları 9 ARTGÖNDERİM ÇÖZÜMLEME YAKLAŞIMLARI BİLGİ TABANLI YAKLAŞIMLAR ÖĞRENME TABANLI YAKLAŞIMLAR MELEZ YAKLAŞIMLAR bilgi-yoksun bilgi-zengin denetimli denetimsiz Hobbs 1977 Lappin ve Leass 1994 Kennedy ve Boguraev 1996 Baldwin 1996 … McCarthy ve Lehnert 1995 Aone ve Bennet 1996 Soon, Ng ve Lim 2001 Ng ve Cardie 2002 … Mitkov vd. 2002 Preiss 2002 …

10 Türkçe’de Artgönderim  Adıllar, özne konumunda yalın durumda olmakta, nesne veya belirtecimsi konumlarında ise durum ekleri alabilmektedirler.  Türkçe, adıl düşüren (pro-drop) bir dildir.  Gizli adıl kullanımı çok yaygın olduğundan soğuk diller kategorisine girer (Kılıçaslan vd. 2007).  Özne ve yüklem arasında uyum vardır. Öğrenci-ler problem-i çöz-dü-(ler). Onlar o-nu çöz-dü-(ler). Ø Ø Çöz-dü-ler.  3. kişi adılı cinsiyet bilgisi taşımaz. 10 Kişi Adılları Konum Adılları Dönüşlü Adıllar İşteş Adıllar benBurakendim senOrakendin oŞurakendi bizkendimizbirbirimiz sizkendinizbirbiriniz onlarkendileribirbirleri  Türkçe’de artgönderimlerle ilgili dilbilimsel çalışmalar: –Erguvanlı-Taylan (1986) –Enç (1986) –Kerslake (1987) –Turan (1996) –Kılıçaslan (2004) Adam i kadına j bir kitap k verdi. ‘The man gave the woman a book.’ Ø i Çocuğun onu i/j/k görmesini istemiyordu. ‘He did not want the child to see him / her / it.’

11 Türkçe için Bilgisayarlı Çalışmalar  Tın ve Akman (1992, 1994) –BABYSIT, Durum kuramı (situation theory)  Turhan-Yöndem ve Şehitoğlu (1997) –HPSG  Yüksel ve Bozşahin (2002) –Bağlama ve merkezleme kuramları  Yıldırım, Kılıçaslan, Aykaç (2004) –Merkezleme kuramı  Tüfekçi ve Kılıçaslan (2005, 2007) –Hobbs’ naive (1978) algoritması  Küçük ve Turhan-Yöndem (2007) –Bilgi-yoksun çözümleme  Yıldırım ve Kılıçaslan (2007) –karar ağacı 11

12 Sistem Tasarımı 12 Belirtke Ayırıcı Biçimsel Çözümleyici Kullanıcı Arayüzü Çift Oluşturucu (+ / -) Özellik – Değer Vektörleri SINIFLANDIRICI (WEKA) İşaretleme Aracı Ham Metin

13 Derlem Oluşturma  Bu çalışmada, artgönderim çözümlemesi için çeşitli makine öğrenmesi yöntemleri kullanılarak derlem tabanlı bir yöntem uygulanmıştır.  20 farklı çocuk hikayesi kullanılarak 1114’ü adıl olan 10165 kelime kapasiteli bir derlem hazırlandı. Bu adılların 419’u açık, 695’i gizli adıldır. Derlemdeki adıl tipleri ve oranları şu şekildedir: –Kişi adılı (%82.3) –Konum belirten adıl (%6.6) –Dönüşlü adıl (%10.7) –İşteş adıl (%0.4) 13

14 İşaretlenen Özellikler  Durum eki: Yalın, belirtme, yönelme, bulunma, sahiplik, ayrılma veya araç durumları  Dilbilgisel görev: Özne veya nesne  Açıklık (overtness): Açık veya gizli  Adıl Tipi: Kişi, konum, dönüşlü veya işteş  Anlamsal Tip: Hayvan, insan, yer, soyut veya fiziksel nesne  Kişi ve Sayı: Kişi ve sayı bilgisi  Konum: Kelimenin söylem parçası içindeki doğrusal konumu  Öncül konumu: Bir adılın gerçek öncülünün konumu  Gönderimsel (Referential) Durum: Adılsıl olma veya olmama 14

15 Sınıflandırma İşlemleri  Bütün deneyler Weka yazılımı (version 3.5.6) üzerinde onlu çapraz doğrulama (tenfold cross-validation) stratejisi kullanılarak gerçekleştirilmiştir.  Bu yazılım üzerinde gerçeklenmiş olan beş farklı denetimli makine öğrenme algoritması veri kümesine uygulanmıştır: –Naïve Bayes algoritması –K-en yakın komşu algoritması –Karar ağacı algoritması –Destek vektör (support vector) algoritması –Seçimli algılayıcı – voted perceptron 15

16 Naïve Bayes  Naïve Bayes sınıflandırması, sınıfları belirli örneklerin özelliklerinin birbirlerinden bağımsız oldukları varsayımı üzerine dayanır.  Özellik vektörü (x 1,…,x n ) olan bir X örneği verildiğinde, Naïve bayes sınıflandırıcısı, denklemini kullanarak benzerliği en yüksek yapan bir C sınıf etiketi arar. 16

17 K - En Yakın Komşu  Eğitim örnekleri yerleştirildikleri özellik uzayında birer nokta ile temsil edilirler. Sınıfı bulunacak olan örnek bu uzayda kendine en yakın ve sayıca belirli bir örneklemin sınıf değerini alır. Örneğin diğerlerine uzaklığı öklit uzaklığı ile hesaplanır.  k değeri iyi belirlendiği takdirde olumlu sonuçlar verir. 17

18 Karar Ağacı  Karar ağacı, ağacın kökünden başlayıp yaprak düğümlere doğru hareket ederek örnek üzerinden sınıflamayı sağlamada kullanılan tümevarımsal bir yaklaşımdır.  Güçlendirme (boosting) ile çeşitli hipotezler birleştirilir.  Budama (pruning) ile genelleme gücü arttırılır. 18 A C B D k=xk=y k=x Karar Düğümü Yaprak Düğümü A > 1A <= 1 B > 3.5 B <=3.5 B >=6.5B < 6.5 C >=0.5 C <0.5

19 Seçimli Algılayıcı (Voted Perceptron)  Bir yapay sinir ağı yöntemi olan Seçimli Algılayıcı, biyolojik sinir sisteminin çalışma şekli simüle edilerek tasarlanmış, nöronlar içeren ve bu nöronların çeşitli şekillerde birbirlerine bağlanarak oluşturduğu bir öğrenme sistemidir. 19 Girdi Çıktı Gizli

20 Destek Vektör Makinesi  Düşük boyutta lineer olarak ayrılamayacak bir veri kümesini, daha yüksek boyuta taşıyarak bir düzlem yardımıyla ayırmayı sağlar.  Sınıflandırmada çeşitli çekirdek fonksiyonları kullanılabilmektedir. 20 x x x x X o o o o Ø(x) Ø(o) Ø F

21 Başarım Değerlendirme Ölçütleri 21 Tahmin edilen sınıf PozitifNegatif Gerçek sınıf PozitifTPFP NegatifFNTN

22 Dayanak (baseline) Deneyleri ve Kappa Ölçütü  Deneylerde kullanılan sınıflandırıcıların etkinliklerinin ölçülmesi için de üç dayanak kullanılmıştır: –çogunluk tabanlı rastgele tahmin edici –sınıf dağılımı tabanlı rastgele tahmin edici –en yakın adayla eşleme yapan tahmin edici  Kappa ölçütü, bir sınıflandırıcının başarımının, rastgele bir sınıflandırıcının başarımıyla karşılaştırılması amacıyla kullanılmaktadır. 22

23 Deney Sonuçları 23 Deney No. SınıflandırıcıParametrik Değişimler Sınıflandırma Sonuçları DoğrulukDuyarlılıkGeriçağırımF-ölçütüKappa -Dayanak-1Çoğunluk tabanlı67.3---0 -Dayanak-2Sınıf dağılımı tabanlı55.231.5 0 -Dayanak-3En yakın aday--46.7-- 1Ibkk = 10.750.600.760.670.4792 2C-SVCDoğrusal çekirdek0.770.660.620.640.4736 3Naïve BayesNormal dağılım0.780.650.710.680.5202 4J48 Güçlendirilmiş ve Budanmamış 0.770.640.700.670.4968 5 Voted Perceptronüs = 1 0.790.710.650.680.5155 6Naïve BayesÇekirdek kestirici0.800.690.710.700.5402 7Ibkk = 110.800.670.760.720.5534 8J48Budanmış0.810.71 0.5712 9 Voted Perceptronüs = 2 0.810.720.700.710.5739 10C-SVCRadyal tabanlı çekirdek0.820.730.74 0.6017

24 Sınıflandırma Performansını Etkileyen Faktörler  Algoritmalardaki eksiklikler  Veriye özgü zorluklar –sınıf belirsizliği John i hid Bill j ’s keys. He i(?)/j(?) was drunk. John i, Bill j ’in anahtarlarını sakladı. O i(?)/j(?) sarhoştu. –örnek seyrekliği (sparsity)  Sınıflandırıcı ve sınıf sınırları arasında uyumsuzluk 24 RBF

25 Yetersiz Uyum ve Aşırı Uyum Dengesi 25 Yetersiz Uyum Aşırı Uyum OPTIMUM kNN deneyleri

26 Özellik Değerliliği 26 Deney No Özellik 12345678910Ortalama Adıl Durum10050 801009080100 85 Adıl Dilb. Rol100 6090706080100709082 Açıklık1002010806020701006010062 Adıl Sözd. Tipi1006080100 90100 93 Gönderge Durum100400100 30100 77 Gönderge Anl. Tipi10040100 94 Gönderge Dilb. Rol100 50700100 9010081 Uzaklık100 Kişi-Sayı Uyumu00000000000 ÖzellikBilgi Kazancı Uzaklık0.184443 Gönderge Anl. Tipi0.104029 Gönderge Dilb. Rol0.091898 Gönderge Durum0.076781 Adıl Durum0.019131 Adıl Dilb. Rol0.017319 Adıl Sözd. Tipi0.013411 Açıklık0.000135 Kişi-Sayı Uyumu0.000000 Sınıflandırıcı Altküme Değerlendirmesi Bilgi Kazancı

27 Artgönderim Çözümleme Başarımı 27 Sessel İçerikAdıl Tipi ModelToplamAçıkGizliKişiKonum Bel.Dönüşlüİşteş Voted Perceptron (Üs = 1) 0.520.460.550.480.640.750.60 C-SVC (Doğrusal Çekirdek) 0.540.390.630.530.370.750.60 Naïve Bayes (Normal Dağılım) 0.610.570.640.600.820.60 J48 (Budanmış) 0.620.600.630.590.700.830.75 Voted Perceptron (Üs = 2) 0.630.530.700.580.840.860.60 Naïve Bayes (Çekirdek Kestirici) 0.630.570.670.590.950.770.75 IBk (k = 11) 0.660.630.670.640.700.770.60 J48 (Güçlendirilmiş Budanmamış) 0.690.670.700.680.760.740.75 C-SVC (Radyal Tabanlı Çekirdek) 0.700.600.760.660.890.861.00 IBk (k = 1) 0.750.690.790.730.890.820.75

28 Uzaklığa Bağlı Dağılım 28

29 Ses İçeriğine Göre Dağılım 29 Sessel İçerik ÖzellikDeğerAçıkGizli Adıl Durumu Kalma0.060.05 Belirtme0.270.02 Yalın0.260.77 Yönelme0.180.06 İyelik0.150.09 Çıkma0.040.01 Araç0.040.00 Adıl Dilbilgisel Görev Nesne0.790.36 Özne0.210.64 Adıl Sözdizimsel Tip Kişi0.830.82 Konum0.080.06 Dönüşlü0.080.12 İşteş0.010.00 Gönderimsel İfade Durum Kalma0.010.02 Belirtme0.170.07 Yalın0.550.76 Yönelme0.100.04 İyelik0.130.10 Çıkma0.020.01 Araç0.020.00 Gönderimsel İfade Anlamsal Tip Soyut nesne0.020.00 Hayvan0.200.18 İnsan0.600.75 Fiziksel nesne0.090.02 Yer0.090.05 Zaman0.00 Gönderimsel İfade Dilbilgisel Görev Nesne0.450.21 Özne0.550.79

30 Adıl Tipine Göre Dağılım 30 Adıl Tipi ÖzellikDeğerKişiKonumDönüşlüİşteş Adıl Durum Konum0.000.690.010.00 Belirtme0.120.050.080.00 Yalın0.590.000.860.00 Yönelme0.120.150.010.60 İyelik0.130.000.010.00 Çıkma0.020.110.030.40 Araç0.020.00 Adıl Dilbilgisel Görev Nesne0.421.000.990.60 Özne0.580.000.010.40 Gönderimsel İfade Durum Konum0.000.260.00 Belirtme0.120.030.041.00 Yalın0.720.070.790.00 Yönelme0.040.500.00 İyelik0.100.090.160.00 Çıkma0.010.050.010.00 Araç0.010.00 Gönderimsel İfade Anlamsal Tip Soyut nesne0.010.00 Hayvan0.200.000.230.40 İnsan0.740.030.750.60 Fiziksel nesne0.050.000.020.00 Yer0.000.970.00 Zaman0.00 Gönderimsel İfade Dilbilgisel Görev Nesne0.270.930.130.00 Özne0.730.070.871.00

31 Sonuç  SINIFLANDIRMA SONUÇLARI ÜZERİNE DENEYSEL GÖZLEMLER: –Doğrusal olmayan bir sınıflandırıcı kullanan bir model her zaman doğrusal bir sınıflandırıcı kullanan halinden daha başarılı olmuştur. –Doğrusal olmayan bir modelin performansı, ifade gücü belirli bir seviyenin üstüne çıktıktan sonra kötüye gitmiştir.  ÖĞRENME MODELLERİ İLE İLGİLİ İKİ SONUÇ: –Doğrusal bir sınıflandırıcının ifade gücüne sahip öğrenme modelleri, Türkçe için artgönderim çözümlemesinde kullanıldığında yetersiz uyum sorunuyla karşılaşmaktadır. –İfade gücü aşırı derecede yüksek modeller, aynı uygulama alanında aşırı uyuma sebep olabilmektedir.  ARTGÖNDERİM ÇÖZÜMLEME SONUÇLARI ÜZERİNE GÖZLEMLER: –Modelin ifade gücü arttıkça, artgönderim çözümleme başarı oranı da artmaktadır. –Gizli adıllar açık olanlardan daha iyi çözümlenmektedir. –Dönüşlü, işteş ve konum belirten adıllar, kişi adıllarından daha iyi çözümlenmiştir. 31

32 Teşekkürler...


"Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008." indir ppt

Benzer bir sunumlar


Google Reklamları