Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008.

Benzer bir sunumlar


... konulu sunumlar: "Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008."— Sunum transkripti:

1 Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008

2 Sunum Planı Genel Bilgiler Türkçe’de Artgönderimler Sistem Tasarımı
Sınıflandırma Sonuçları Değerlendirilmesi Artgönderim Çözümleme Sonuçları Değerlendirilmesi Sonuç

3 Genel Bilgiler Gönderimler metinde bağlaşıklığı (cohesion) kurarak, bilgi akışında devamlılık ve bilginin artışı sağlayan etkenlerden biridir. Artgönderim, doğal dil ile kurulan cümlelerde bir adıl veya bir isim öbeğinin, kendinden önce bahsi geçen bir nesne veya olaya tekrar yoluyla referansta bulunmasıdır (Grosz 1995). Ali, Ahmeti’i ziyaret edecekti. Çünkü onai yardım etmeliydi. Söylem içinde artgönderimler ve öncülleri arasında bağlantının kurulmasına artgönderim çözümlemesi denir. ÖNCÜL ARTGÖNDERİM gönderim

4 Genel Bilgiler - devam Makine çevirisi, metin özetleme, bilgi çıkarımı ve soru cevaplama sistemleri artgönderim çözümlemesine en çok ihtiyaç duyulan alanlardır. 20 yıldan uzunca bir zamandır yapılan çalışmalarda ortaya konan yöntemler, birbirlerinden oldukça farklı metin ve diller üzerinde denenmişlerdir. Bugün gelinen noktada, bu yöntemlerin karşılaştırılmalı bir değerlendirilmesinin yapılması ve ortama uygun yöntemlerin belirlenmesi ihtiyacı ortaya çıkmıştır. Bu çalışmada da Türkçe artgönderim çözümlemesinin karmaşıklığını gösterebilmek ve en uygun yöntemi belirleyebilmek amacıyla denetimli makine öğrenmesi yöntemleri kullanılmıştır.

5 Gönderimlerin Sınıflandırılması
Dilbilgisel Kategori Gönderim Yönü Gönderim Ses İçeriği Gönderim – Öncül Konumları Adıl İsim Yüklem Belirteç Artgönderim Öngönderim Açık Gizli Cümle içi Cümleler arası Ahmet, Oyai’ya onui sevdiğini söyledi. Sabahtan beri onui bekliyoruz. Fakat [Ahmet Beyler]i ancak gelebildiler. Öğretmeni, Oyaj’ya bir kitapk verdi. Øi Øj Onuk bir hafta içinde okumasını söyledi.

6 Artgönderim Çözümleme Etkenleri
KISITLAYICI ETKENLER AYRICALIK TANIYAN ETKENLER Kişi/sayı ve cinsiyet uyumu kısıtları Anlamsal kısıtlar Sözdizimsel Bağlama Kuramı kısıtları Sözdizimsel Paralellik Anlamsal Paralellik Merkezleme Yaklaşımı

7 Kısıtlayıcı Etkenler Kişi/sayı ve cinsiyet uyumu kısıtları
Oya, Ali’ye geçen hafta [iki kitap]i vermişti. Ali, bugün Oya’ya onlarıi henüz okuyamadığını söyledi. Anlamsal kısıtlar Kedii çıktığı ağaçtanj inmek istemiyordu. Øi aşağıdakilere yalvarır gibi bakıyordu. Sözdizimsel Bağlama Kuramı kısıtları (Chomsky 1981) Johni kendinii sever. Johni, Mary’den onui yıkamasını istedi. [PRO Okumak] gereklidir.

8 Ayrıcalık Tanıyan Etkenler
Sözdizimsel Paralellik Oyai kitabıj çantasına koymuştu. Øi Akşam eve geldiğinde ise Øj çantasında bulamadı. Anlamsal Paralellik Oya, Alii’ye bir kitap verdi. Ayrıca, Hasan da onai bir kalem verdi. Merkezleme Yaklaşımı (Grosz ve Sidner 1986) Oya önceki gün markete alışverişe gitti ve orada bir bardak gördü. Onu almak istedi ancak yeterli parası yoktu. Dün tekrar markete gittiğinde bardağı alacak parası vardı. Bardağı alıp evine döndü. Mutfağa giden Oya, bardağı tabağın içine koydu ve o kırıldı...

9 Bilgisayarlı Artgönderim Çözümleme Çalışmaları
ARTGÖNDERİMÇÖZÜMLEME YAKLAŞIMLARI BİLGİ TABANLI YAKLAŞIMLAR ÖĞRENME TABANLI YAKLAŞIMLAR MELEZ YAKLAŞIMLAR bilgi-yoksun bilgi-zengin denetimli denetimsiz Hobbs 1977 Lappin ve Leass 1994 Kennedy ve Boguraev 1996 Baldwin 1996 McCarthy ve Lehnert 1995 Aone ve Bennet 1996 Soon, Ng ve Lim 2001 Ng ve Cardie 2002 Mitkov vd. 2002 Preiss 2002

10 Türkçe’de Artgönderim
Adıllar, özne konumunda yalın durumda olmakta, nesne veya belirtecimsi konumlarında ise durum ekleri alabilmektedirler. Türkçe, adıl düşüren (pro-drop) bir dildir. Gizli adıl kullanımı çok yaygın olduğundan soğuk diller kategorisine girer (Kılıçaslan vd. 2007). Özne ve yüklem arasında uyum vardır. Öğrenci-ler problem-i çöz-dü-(ler) . Onlar o-nu çöz-dü-(ler). Ø Ø Çöz-dü-ler. 3. kişi adılı cinsiyet bilgisi taşımaz. Kişi Adılları Konum Dönüşlü Adıllar İşteş ben Bura kendim sen Ora kendin o Şura kendi biz kendimiz birbirimiz siz kendiniz birbiriniz onlar kendileri birbirleri Türkçe’de artgönderimlerle ilgili dilbilimsel çalışmalar: Erguvanlı-Taylan (1986) Enç (1986) Kerslake (1987) Turan (1996) Kılıçaslan (2004) Adami kadınaj bir kitapk verdi. ‘The man gave the woman a book.’ Øi Çocuğun onui/j/k görmesini istemiyordu. ‘He did not want the child to see him / her / it.’

11 Türkçe için Bilgisayarlı Çalışmalar
Tın ve Akman (1992, 1994) BABYSIT, Durum kuramı (situation theory) Turhan-Yöndem ve Şehitoğlu (1997) HPSG Yüksel ve Bozşahin (2002) Bağlama ve merkezleme kuramları Yıldırım, Kılıçaslan, Aykaç (2004) Merkezleme kuramı Tüfekçi ve Kılıçaslan (2005, 2007) Hobbs’ naive (1978) algoritması Küçük ve Turhan-Yöndem (2007) Bilgi-yoksun çözümleme Yıldırım ve Kılıçaslan (2007) karar ağacı

12 Sistem Tasarımı İşaretleme Aracı Ham Metin Belirtke Ayırıcı
Biçimsel Çözümleyici Özellik – Değer Vektörleri SINIFLANDIRICI (WEKA) Kullanıcı Arayüzü Çift Oluşturucu (+ / -)

13 Derlem Oluşturma Bu çalışmada, artgönderim çözümlemesi için çeşitli makine öğrenmesi yöntemleri kullanılarak derlem tabanlı bir yöntem uygulanmıştır. 20 farklı çocuk hikayesi kullanılarak 1114’ü adıl olan kelime kapasiteli bir derlem hazırlandı. Bu adılların 419’u açık, 695’i gizli adıldır. Derlemdeki adıl tipleri ve oranları şu şekildedir: Kişi adılı (%82.3) Konum belirten adıl (%6.6) Dönüşlü adıl (%10.7) İşteş adıl (%0.4)

14 İşaretlenen Özellikler
Durum eki: Yalın, belirtme, yönelme, bulunma, sahiplik, ayrılma veya araç durumları Dilbilgisel görev: Özne veya nesne Açıklık (overtness): Açık veya gizli Adıl Tipi: Kişi, konum, dönüşlü veya işteş Anlamsal Tip: Hayvan, insan, yer, soyut veya fiziksel nesne Kişi ve Sayı: Kişi ve sayı bilgisi Konum: Kelimenin söylem parçası içindeki doğrusal konumu Öncül konumu: Bir adılın gerçek öncülünün konumu Gönderimsel (Referential) Durum: Adılsıl olma veya olmama

15 Sınıflandırma İşlemleri
Bütün deneyler Weka yazılımı (version 3.5.6) üzerinde onlu çapraz doğrulama (tenfold cross-validation) stratejisi kullanılarak gerçekleştirilmiştir. Bu yazılım üzerinde gerçeklenmiş olan beş farklı denetimli makine öğrenme algoritması veri kümesine uygulanmıştır: Naïve Bayes algoritması K-en yakın komşu algoritması Karar ağacı algoritması Destek vektör (support vector) algoritması Seçimli algılayıcı – voted perceptron

16 Naïve Bayes Naïve Bayes sınıflandırması, sınıfları belirli örneklerin özelliklerinin birbirlerinden bağımsız oldukları varsayımı üzerine dayanır. Özellik vektörü (x1,…,xn) olan bir X örneği verildiğinde, Naïve bayes sınıflandırıcısı, denklemini kullanarak benzerliği en yüksek yapan bir C sınıf etiketi arar.

17 K - En Yakın Komşu Eğitim örnekleri yerleştirildikleri özellik uzayında birer nokta ile temsil edilirler. Sınıfı bulunacak olan örnek bu uzayda kendine en yakın ve sayıca belirli bir örneklemin sınıf değerini alır. Örneğin diğerlerine uzaklığı öklit uzaklığı ile hesaplanır. k değeri iyi belirlendiği takdirde olumlu sonuçlar verir.

18 Karar Ağacı A C B D k=x k=y Karar Düğümü Yaprak Düğümü A > 1 A <= 1 B > 3.5 B <=3.5 B >=6.5 B < 6.5 C >=0.5 C <0.5 Karar ağacı, ağacın kökünden başlayıp yaprak düğümlere doğru hareket ederek örnek üzerinden sınıflamayı sağlamada kullanılan tümevarımsal bir yaklaşımdır. Güçlendirme (boosting) ile çeşitli hipotezler birleştirilir. Budama (pruning) ile genelleme gücü arttırılır.

19 Seçimli Algılayıcı (Voted Perceptron)
Bir yapay sinir ağı yöntemi olan Seçimli Algılayıcı, biyolojik sinir sisteminin çalışma şekli simüle edilerek tasarlanmış, nöronlar içeren ve bu nöronların çeşitli şekillerde birbirlerine bağlanarak oluşturduğu bir öğrenme sistemidir. Girdi Çıktı Gizli

20 Destek Vektör Makinesi
Düşük boyutta lineer olarak ayrılamayacak bir veri kümesini, daha yüksek boyuta taşıyarak bir düzlem yardımıyla ayırmayı sağlar. Sınıflandırmada çeşitli çekirdek fonksiyonları kullanılabilmektedir. x X o Ø(x) Ø(o) Ø F

21 Başarım Değerlendirme Ölçütleri
Tahmin edilen sınıf Pozitif Negatif Gerçek sınıf TP FP FN TN

22 Dayanak (baseline) Deneyleri ve Kappa Ölçütü
Deneylerde kullanılan sınıflandırıcıların etkinliklerinin ölçülmesi için de üç dayanak kullanılmıştır: çogunluk tabanlı rastgele tahmin edici sınıf dağılımı tabanlı rastgele tahmin edici en yakın adayla eşleme yapan tahmin edici Kappa ölçütü, bir sınıflandırıcının başarımının, rastgele bir sınıflandırıcının başarımıyla karşılaştırılması amacıyla kullanılmaktadır.

23 Sınıflandırma Sonuçları
Deney Sonuçları Deney No. Sınıflandırıcı Parametrik Değişimler Sınıflandırma Sonuçları Doğruluk Duyarlılık Geriçağırım F-ölçütü Kappa - Dayanak-1 Çoğunluk tabanlı 67.3 Dayanak-2 Sınıf dağılımı tabanlı 55.2 31.5 Dayanak-3 En yakın aday 46.7 1 Ibk k = 1 0.75 0.60 0.76 0.67 0.4792 2 C-SVC Doğrusal çekirdek 0.77 0.66 0.62 0.64 0.4736 3 Naïve Bayes Normal dağılım 0.78 0.65 0.71 0.68 0.5202 4 J48 Güçlendirilmiş ve Budanmamış 0.70 0.4968 5 Voted Perceptron üs = 1 0.79 0.5155 6 Çekirdek kestirici 0.80 0.69 0.5402 7 k = 11 0.72 0.5534 8 Budanmış 0.81 0.5712 9 üs = 2 0.5739 10 Radyal tabanlı çekirdek 0.82 0.73 0.74 0.6017

24 Sınıflandırma Performansını Etkileyen Faktörler
Algoritmalardaki eksiklikler Veriye özgü zorluklar sınıf belirsizliği Johni hid Billj’s keys. Hei(?)/j(?) was drunk. Johni, Billj’in anahtarlarını sakladı. O i(?)/j(?) sarhoştu. örnek seyrekliği (sparsity) Sınıflandırıcı ve sınıf sınırları arasında uyumsuzluk RBF

25 Yetersiz Uyum ve Aşırı Uyum Dengesi
OPTIMUM kNN deneyleri

26 Sınıflandırıcı Altküme Değerlendirmesi
Özellik Değerliliği Deney No Özellik 1 2 3 4 5 6 7 8 9 10 Ortalama Adıl Durum 100 50 80 90 85 Adıl Dilb. Rol 60 70 82 Açıklık 20 62 Adıl Sözd. Tipi 93 Gönderge Durum 40 30 77 Gönderge Anl. Tipi 94 Gönderge Dilb. Rol 81 Uzaklık Kişi-Sayı Uyumu Sınıflandırıcı Altküme Değerlendirmesi Özellik Bilgi Kazancı Uzaklık Gönderge Anl. Tipi Gönderge Dilb. Rol Gönderge Durum Adıl Durum Adıl Dilb. Rol Adıl Sözd. Tipi Açıklık Kişi-Sayı Uyumu Bilgi Kazancı

27 Artgönderim Çözümleme Başarımı
Sessel İçerik Adıl Tipi Model Toplam Açık Gizli Kişi Konum Bel. Dönüşlü İşteş Voted Perceptron (Üs = 1) 0.52 0.46 0.55 0.48 0.64 0.75 0.60 C-SVC (Doğrusal Çekirdek) 0.54 0.39 0.63 0.53 0.37 Naïve Bayes (Normal Dağılım) 0.61 0.57 0.82 J48 (Budanmış) 0.62 0.59 0.70 0.83 (Üs = 2) 0.58 0.84 0.86 (Çekirdek Kestirici) 0.67 0.95 0.77 IBk (k = 11) 0.66 (Güçlendirilmiş Budanmamış) 0.69 0.68 0.76 0.74 (Radyal Tabanlı Çekirdek) 0.89 1.00 (k = 1) 0.79 0.73

28 Uzaklığa Bağlı Dağılım

29 Ses İçeriğine Göre Dağılım
Sessel İçerik Özellik Değer Açık Gizli Adıl Durumu Kalma 0.06 0.05 Belirtme 0.27 0.02 Yalın 0.26 0.77 Yönelme 0.18 İyelik 0.15 0.09 Çıkma 0.04 0.01 Araç 0.00 Adıl Dilbilgisel Görev Nesne 0.79 0.36 Özne 0.21 0.64 Sözdizimsel Tip Kişi 0.83 0.82 Konum 0.08 Dönüşlü 0.12 İşteş Gönderimsel İfade Durum 0.17 0.07 0.55 0.76 0.10 0.13 Anlamsal Tip Soyut nesne Hayvan 0.20 İnsan 0.60 0.75 Fiziksel nesne Yer Zaman 0.45

30 Adıl Tipine Göre Dağılım
Özellik Değer Kişi Konum Dönüşlü İşteş Adıl Durum 0.00 0.69 0.01 Belirtme 0.12 0.05 0.08 Yalın 0.59 0.86 Yönelme 0.15 0.60 İyelik 0.13 Çıkma 0.02 0.11 0.03 0.40 Araç Dilbilgisel Görev Nesne 0.42 1.00 0.99 Özne 0.58 Gönderimsel İfade 0.26 0.04 0.72 0.07 0.79 0.50 0.10 0.09 0.16 Anlamsal Tip Soyut nesne Hayvan 0.20 0.23 İnsan 0.74 0.75 Fiziksel nesne Yer 0.97 Zaman 0.27 0.93 0.73 0.87

31 Sonuç SINIFLANDIRMA SONUÇLARI ÜZERİNE DENEYSEL GÖZLEMLER:
Doğrusal olmayan bir sınıflandırıcı kullanan bir model her zaman doğrusal bir sınıflandırıcı kullanan halinden daha başarılı olmuştur. Doğrusal olmayan bir modelin performansı, ifade gücü belirli bir seviyenin üstüne çıktıktan sonra kötüye gitmiştir. ÖĞRENME MODELLERİ İLE İLGİLİ İKİ SONUÇ: Doğrusal bir sınıflandırıcının ifade gücüne sahip öğrenme modelleri, Türkçe için artgönderim çözümlemesinde kullanıldığında yetersiz uyum sorunuyla karşılaşmaktadır. İfade gücü aşırı derecede yüksek modeller, aynı uygulama alanında aşırı uyuma sebep olabilmektedir. ARTGÖNDERİM ÇÖZÜMLEME SONUÇLARI ÜZERİNE GÖZLEMLER: Modelin ifade gücü arttıkça, artgönderim çözümleme başarı oranı da artmaktadır. Gizli adıllar açık olanlardan daha iyi çözümlenmektedir. Dönüşlü, işteş ve konum belirten adıllar, kişi adıllarından daha iyi çözümlenmiştir.

32 Teşekkürler...


"Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008." indir ppt

Benzer bir sunumlar


Google Reklamları