Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008.

Benzer bir sunumlar


... konulu sunumlar: "Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008."— Sunum transkripti:

1 Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008

2 Sunum Planı  Genel Bilgiler  Türkçe’de Artgönderimler  Sistem Tasarımı  Sınıflandırma Sonuçları Değerlendirilmesi  Artgönderim Çözümleme Sonuçları Değerlendirilmesi  Sonuç 2

3 Genel Bilgiler  Gönderimler metinde bağlaşıklığı (cohesion) kurarak, bilgi akışında devamlılık ve bilginin artışı sağlayan etkenlerden biridir.  Artgönderim, doğal dil ile kurulan cümlelerde bir adıl veya bir isim öbeğinin, kendinden önce bahsi geçen bir nesne veya olaya tekrar yoluyla referansta bulunmasıdır (Grosz 1995). Ali, Ahmet i ’i ziyaret edecekti. Çünkü ona i yardım etmeliydi.  Söylem içinde artgönderimler ve öncülleri arasında bağlantının kurulmasına artgönderim çözümlemesi denir. 3 ÖNCÜL ARTGÖNDERİM gönderim

4 Genel Bilgiler - devam  Makine çevirisi, metin özetleme, bilgi çıkarımı ve soru cevaplama sistemleri artgönderim çözümlemesine en çok ihtiyaç duyulan alanlardır.  20 yıldan uzunca bir zamandır yapılan çalışmalarda ortaya konan yöntemler, birbirlerinden oldukça farklı metin ve diller üzerinde denenmişlerdir.  Bugün gelinen noktada, bu yöntemlerin karşılaştırılmalı bir değerlendirilmesinin yapılması ve ortama uygun yöntemlerin belirlenmesi ihtiyacı ortaya çıkmıştır.  Bu çalışmada da Türkçe artgönderim çözümlemesinin karmaşıklığını gösterebilmek ve en uygun yöntemi belirleyebilmek amacıyla denetimli makine öğrenmesi yöntemleri kullanılmıştır. 4

5 Gönderimlerin Sınıflandırılması 5 GÖNDERİMLER Dilbilgisel Kategori Gönderim Yönü Gönderim Ses İçeriği Gönderim – Öncül Konumları Adıl İsim Yüklem Belirteç Artgönderim Öngönderim Açık Gizli Cümle içi Cümleler arası Ahmet, Oya i ’ya onu i sevdiğini söyledi. Sabahtan beri onu i bekliyoruz. Fakat [Ahmet Beyler] i ancak gelebildiler. Öğretmen i, Oya j ’ya bir kitap k verdi. Ø i Ø j Onu k bir hafta içinde okumasını söyledi.

6 Artgönderim Çözümleme Etkenleri 6 ARTGÖNDERİM ÇÖZÜMLEME ETKENLERİ KISITLAYICI ETKENLER AYRICALIK TANIYAN ETKENLER Kişi/sayı ve cinsiyet uyumu kısıtları Anlamsal kısıtlar Sözdizimsel Bağlama Kuramı kısıtları Sözdizimsel Paralellik Anlamsal Paralellik Merkezleme Yaklaşımı

7 Kısıtlayıcı Etkenler Kişi/sayı ve cinsiyet uyumu kısıtları Oya, Ali’ye geçen hafta [iki kitap] i vermişti. Ali, bugün Oya’ya onları i henüz okuyamadığını söyledi. Anlamsal kısıtlar Kedi i çıktığı ağaçtan j inmek istemiyordu. Ø i aşağıdakilere yalvarır gibi bakıyordu. Sözdizimsel Bağlama Kuramı kısıtları (Chomsky 1981) 7 John i kendini i sever. John i, Mary’den onu i yıkamasını istedi. [PRO Okumak] gereklidir.

8 Ayrıcalık Tanıyan Etkenler Sözdizimsel Paralellik Oya i kitabı j çantasına koymuştu. Ø i Akşam eve geldiğinde ise Ø j çantasında bulamadı. Anlamsal Paralellik Oya, Ali i ’ye bir kitap verdi. Ayrıca, Hasan da ona i bir kalem verdi. Merkezleme Yaklaşımı (Grosz ve Sidner 1986) Oya önceki gün markete alışverişe gitti ve orada bir bardak gördü. Onu almak istedi ancak yeterli parası yoktu. Dün tekrar markete gittiğinde bardağı alacak parası vardı. Bardağı alıp evine döndü. Mutfağa giden Oya, bardağı tabağın içine koydu ve o kırıldı... 8

9 Bilgisayarlı Artgönderim Çözümleme Çalışmaları 9 ARTGÖNDERİM ÇÖZÜMLEME YAKLAŞIMLARI BİLGİ TABANLI YAKLAŞIMLAR ÖĞRENME TABANLI YAKLAŞIMLAR MELEZ YAKLAŞIMLAR bilgi-yoksun bilgi-zengin denetimli denetimsiz Hobbs 1977 Lappin ve Leass 1994 Kennedy ve Boguraev 1996 Baldwin 1996 … McCarthy ve Lehnert 1995 Aone ve Bennet 1996 Soon, Ng ve Lim 2001 Ng ve Cardie 2002 … Mitkov vd Preiss 2002 …

10 Türkçe’de Artgönderim  Adıllar, özne konumunda yalın durumda olmakta, nesne veya belirtecimsi konumlarında ise durum ekleri alabilmektedirler.  Türkçe, adıl düşüren (pro-drop) bir dildir.  Gizli adıl kullanımı çok yaygın olduğundan soğuk diller kategorisine girer (Kılıçaslan vd. 2007).  Özne ve yüklem arasında uyum vardır. Öğrenci-ler problem-i çöz-dü-(ler). Onlar o-nu çöz-dü-(ler). Ø Ø Çöz-dü-ler.  3. kişi adılı cinsiyet bilgisi taşımaz. 10 Kişi Adılları Konum Adılları Dönüşlü Adıllar İşteş Adıllar benBurakendim senOrakendin oŞurakendi bizkendimizbirbirimiz sizkendinizbirbiriniz onlarkendileribirbirleri  Türkçe’de artgönderimlerle ilgili dilbilimsel çalışmalar: –Erguvanlı-Taylan (1986) –Enç (1986) –Kerslake (1987) –Turan (1996) –Kılıçaslan (2004) Adam i kadına j bir kitap k verdi. ‘The man gave the woman a book.’ Ø i Çocuğun onu i/j/k görmesini istemiyordu. ‘He did not want the child to see him / her / it.’

11 Türkçe için Bilgisayarlı Çalışmalar  Tın ve Akman (1992, 1994) –BABYSIT, Durum kuramı (situation theory)  Turhan-Yöndem ve Şehitoğlu (1997) –HPSG  Yüksel ve Bozşahin (2002) –Bağlama ve merkezleme kuramları  Yıldırım, Kılıçaslan, Aykaç (2004) –Merkezleme kuramı  Tüfekçi ve Kılıçaslan (2005, 2007) –Hobbs’ naive (1978) algoritması  Küçük ve Turhan-Yöndem (2007) –Bilgi-yoksun çözümleme  Yıldırım ve Kılıçaslan (2007) –karar ağacı 11

12 Sistem Tasarımı 12 Belirtke Ayırıcı Biçimsel Çözümleyici Kullanıcı Arayüzü Çift Oluşturucu (+ / -) Özellik – Değer Vektörleri SINIFLANDIRICI (WEKA) İşaretleme Aracı Ham Metin

13 Derlem Oluşturma  Bu çalışmada, artgönderim çözümlemesi için çeşitli makine öğrenmesi yöntemleri kullanılarak derlem tabanlı bir yöntem uygulanmıştır.  20 farklı çocuk hikayesi kullanılarak 1114’ü adıl olan kelime kapasiteli bir derlem hazırlandı. Bu adılların 419’u açık, 695’i gizli adıldır. Derlemdeki adıl tipleri ve oranları şu şekildedir: –Kişi adılı (%82.3) –Konum belirten adıl (%6.6) –Dönüşlü adıl (%10.7) –İşteş adıl (%0.4) 13

14 İşaretlenen Özellikler  Durum eki: Yalın, belirtme, yönelme, bulunma, sahiplik, ayrılma veya araç durumları  Dilbilgisel görev: Özne veya nesne  Açıklık (overtness): Açık veya gizli  Adıl Tipi: Kişi, konum, dönüşlü veya işteş  Anlamsal Tip: Hayvan, insan, yer, soyut veya fiziksel nesne  Kişi ve Sayı: Kişi ve sayı bilgisi  Konum: Kelimenin söylem parçası içindeki doğrusal konumu  Öncül konumu: Bir adılın gerçek öncülünün konumu  Gönderimsel (Referential) Durum: Adılsıl olma veya olmama 14

15 Sınıflandırma İşlemleri  Bütün deneyler Weka yazılımı (version 3.5.6) üzerinde onlu çapraz doğrulama (tenfold cross-validation) stratejisi kullanılarak gerçekleştirilmiştir.  Bu yazılım üzerinde gerçeklenmiş olan beş farklı denetimli makine öğrenme algoritması veri kümesine uygulanmıştır: –Naïve Bayes algoritması –K-en yakın komşu algoritması –Karar ağacı algoritması –Destek vektör (support vector) algoritması –Seçimli algılayıcı – voted perceptron 15

16 Naïve Bayes  Naïve Bayes sınıflandırması, sınıfları belirli örneklerin özelliklerinin birbirlerinden bağımsız oldukları varsayımı üzerine dayanır.  Özellik vektörü (x 1,…,x n ) olan bir X örneği verildiğinde, Naïve bayes sınıflandırıcısı, denklemini kullanarak benzerliği en yüksek yapan bir C sınıf etiketi arar. 16

17 K - En Yakın Komşu  Eğitim örnekleri yerleştirildikleri özellik uzayında birer nokta ile temsil edilirler. Sınıfı bulunacak olan örnek bu uzayda kendine en yakın ve sayıca belirli bir örneklemin sınıf değerini alır. Örneğin diğerlerine uzaklığı öklit uzaklığı ile hesaplanır.  k değeri iyi belirlendiği takdirde olumlu sonuçlar verir. 17

18 Karar Ağacı  Karar ağacı, ağacın kökünden başlayıp yaprak düğümlere doğru hareket ederek örnek üzerinden sınıflamayı sağlamada kullanılan tümevarımsal bir yaklaşımdır.  Güçlendirme (boosting) ile çeşitli hipotezler birleştirilir.  Budama (pruning) ile genelleme gücü arttırılır. 18 A C B D k=xk=y k=x Karar Düğümü Yaprak Düğümü A > 1A <= 1 B > 3.5 B <=3.5 B >=6.5B < 6.5 C >=0.5 C <0.5

19 Seçimli Algılayıcı (Voted Perceptron)  Bir yapay sinir ağı yöntemi olan Seçimli Algılayıcı, biyolojik sinir sisteminin çalışma şekli simüle edilerek tasarlanmış, nöronlar içeren ve bu nöronların çeşitli şekillerde birbirlerine bağlanarak oluşturduğu bir öğrenme sistemidir. 19 Girdi Çıktı Gizli

20 Destek Vektör Makinesi  Düşük boyutta lineer olarak ayrılamayacak bir veri kümesini, daha yüksek boyuta taşıyarak bir düzlem yardımıyla ayırmayı sağlar.  Sınıflandırmada çeşitli çekirdek fonksiyonları kullanılabilmektedir. 20 x x x x X o o o o Ø(x) Ø(o) Ø F

21 Başarım Değerlendirme Ölçütleri 21 Tahmin edilen sınıf PozitifNegatif Gerçek sınıf PozitifTPFP NegatifFNTN

22 Dayanak (baseline) Deneyleri ve Kappa Ölçütü  Deneylerde kullanılan sınıflandırıcıların etkinliklerinin ölçülmesi için de üç dayanak kullanılmıştır: –çogunluk tabanlı rastgele tahmin edici –sınıf dağılımı tabanlı rastgele tahmin edici –en yakın adayla eşleme yapan tahmin edici  Kappa ölçütü, bir sınıflandırıcının başarımının, rastgele bir sınıflandırıcının başarımıyla karşılaştırılması amacıyla kullanılmaktadır. 22

23 Deney Sonuçları 23 Deney No. SınıflandırıcıParametrik Değişimler Sınıflandırma Sonuçları DoğrulukDuyarlılıkGeriçağırımF-ölçütüKappa -Dayanak-1Çoğunluk tabanlı Dayanak-2Sınıf dağılımı tabanlı Dayanak-3En yakın aday Ibkk = C-SVCDoğrusal çekirdek Naïve BayesNormal dağılım J48 Güçlendirilmiş ve Budanmamış Voted Perceptronüs = Naïve BayesÇekirdek kestirici Ibkk = J48Budanmış Voted Perceptronüs = C-SVCRadyal tabanlı çekirdek

24 Sınıflandırma Performansını Etkileyen Faktörler  Algoritmalardaki eksiklikler  Veriye özgü zorluklar –sınıf belirsizliği John i hid Bill j ’s keys. He i(?)/j(?) was drunk. John i, Bill j ’in anahtarlarını sakladı. O i(?)/j(?) sarhoştu. –örnek seyrekliği (sparsity)  Sınıflandırıcı ve sınıf sınırları arasında uyumsuzluk 24 RBF

25 Yetersiz Uyum ve Aşırı Uyum Dengesi 25 Yetersiz Uyum Aşırı Uyum OPTIMUM kNN deneyleri

26 Özellik Değerliliği 26 Deney No Özellik Ortalama Adıl Durum Adıl Dilb. Rol Açıklık Adıl Sözd. Tipi Gönderge Durum Gönderge Anl. Tipi Gönderge Dilb. Rol Uzaklık100 Kişi-Sayı Uyumu ÖzellikBilgi Kazancı Uzaklık Gönderge Anl. Tipi Gönderge Dilb. Rol Gönderge Durum Adıl Durum Adıl Dilb. Rol Adıl Sözd. Tipi Açıklık Kişi-Sayı Uyumu Sınıflandırıcı Altküme Değerlendirmesi Bilgi Kazancı

27 Artgönderim Çözümleme Başarımı 27 Sessel İçerikAdıl Tipi ModelToplamAçıkGizliKişiKonum Bel.Dönüşlüİşteş Voted Perceptron (Üs = 1) C-SVC (Doğrusal Çekirdek) Naïve Bayes (Normal Dağılım) J48 (Budanmış) Voted Perceptron (Üs = 2) Naïve Bayes (Çekirdek Kestirici) IBk (k = 11) J48 (Güçlendirilmiş Budanmamış) C-SVC (Radyal Tabanlı Çekirdek) IBk (k = 1)

28 Uzaklığa Bağlı Dağılım 28

29 Ses İçeriğine Göre Dağılım 29 Sessel İçerik ÖzellikDeğerAçıkGizli Adıl Durumu Kalma Belirtme Yalın Yönelme İyelik Çıkma Araç Adıl Dilbilgisel Görev Nesne Özne Adıl Sözdizimsel Tip Kişi Konum Dönüşlü İşteş Gönderimsel İfade Durum Kalma Belirtme Yalın Yönelme İyelik Çıkma Araç Gönderimsel İfade Anlamsal Tip Soyut nesne Hayvan İnsan Fiziksel nesne Yer Zaman0.00 Gönderimsel İfade Dilbilgisel Görev Nesne Özne

30 Adıl Tipine Göre Dağılım 30 Adıl Tipi ÖzellikDeğerKişiKonumDönüşlüİşteş Adıl Durum Konum Belirtme Yalın Yönelme İyelik Çıkma Araç Adıl Dilbilgisel Görev Nesne Özne Gönderimsel İfade Durum Konum Belirtme Yalın Yönelme İyelik Çıkma Araç Gönderimsel İfade Anlamsal Tip Soyut nesne Hayvan İnsan Fiziksel nesne Yer Zaman0.00 Gönderimsel İfade Dilbilgisel Görev Nesne Özne

31 Sonuç  SINIFLANDIRMA SONUÇLARI ÜZERİNE DENEYSEL GÖZLEMLER: –Doğrusal olmayan bir sınıflandırıcı kullanan bir model her zaman doğrusal bir sınıflandırıcı kullanan halinden daha başarılı olmuştur. –Doğrusal olmayan bir modelin performansı, ifade gücü belirli bir seviyenin üstüne çıktıktan sonra kötüye gitmiştir.  ÖĞRENME MODELLERİ İLE İLGİLİ İKİ SONUÇ: –Doğrusal bir sınıflandırıcının ifade gücüne sahip öğrenme modelleri, Türkçe için artgönderim çözümlemesinde kullanıldığında yetersiz uyum sorunuyla karşılaşmaktadır. –İfade gücü aşırı derecede yüksek modeller, aynı uygulama alanında aşırı uyuma sebep olabilmektedir.  ARTGÖNDERİM ÇÖZÜMLEME SONUÇLARI ÜZERİNE GÖZLEMLER: –Modelin ifade gücü arttıkça, artgönderim çözümleme başarı oranı da artmaktadır. –Gizli adıllar açık olanlardan daha iyi çözümlenmektedir. –Dönüşlü, işteş ve konum belirten adıllar, kişi adıllarından daha iyi çözümlenmiştir. 31

32 Teşekkürler...


"Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008." indir ppt

Benzer bir sunumlar


Google Reklamları