Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008.

Slides:



Advertisements
Benzer bir sunumlar
Cümlenin Öğeleri Sözcüklerin cümle içerisindeki görev adlarına “cümlenin öğeleri”denir. Cümle öğelerini, temel öğeler ve yardımcı öğeler olmak üzere iki.
Advertisements

KELİME TÜRLERİ ZARFLAR.
Unsupervised Learning (Kümeleme)
Diferansiyel Sürüş Sistemi E-posta:
Cümlenin Öğeleri Sözcüklerin cümle içerisindeki görev adlarına “cümlenin öğeleri”denir. Cümle öğelerini, temel öğeler ve yardımcı öğeler olmak üzere iki.
ZARFLAR (BELİRTEÇLER)
A) Zilin çalmasıyla yarışma başladı.
HÜSEYİN OKAN EROĞLU TÜRKÇE ÖĞRETMENLİĞİ
ÜNİTE DEĞERLENDİRMESİ 1.Sınıf Türkçe
NOKTALAMA İŞARETLERİ.
e i ADIN DURUMLARI den yalın de Aşağıdaki iki tümceyi okuyalım.
Yüz Tanıma İçin İlinti Tabanlı Yama Yerelleştirme
SONLU DURUM OTOMATLARI
SONLU DURUM OTOMATLARI
VURGU CÜMLEDE VURGU.
Köylü ulusun efendisidir.
Bellek Tabanlı Sınıflandırma
(BELİRTEÇ) ZARF.
Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı
Hazırlayan: Zeynep Adsoy Türkçe Öğretmenliği/2 No:
Gani Şimşek Botégo – 3 Nisan 2010 Doğal Dil İşlemeye Dayalı Bot Uygulamaları.
Karar Ağaçları.
Öğretim Stratejileri ve Kavram Öğretimi
Noktalama işaretleri ( NOKTA , virgül , noktalı virgül )
İlksen Uysal BOZYEL/Türkçe Öğretmeni
İstatistiksel Sınıflandırma
1/20 Zamir A B C D Aşağıdaki cümlelerin hangisinde şahıs ( kişi ) zamiri vardır? Akşam dayımlar geldiğinde uyuyordum. Durmadan yağan kar çocukları heyecanlandırdı.
Sözcük Türleri Setenay KAYA Hazırlık-D/153
BİÇİMBİLİM Bugün biçimbilim adı altında yapılan araştırmaların, sözcüklerin kökenlerinin saptanması,ek ve kök olarak belirlenmeleri, dilbilgisinin en.
EKLER VE KELİME YAPISI.
KISALTMA GRUPLARI.
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
Uzaktan Eğitimin Temelleri
SORU EKİNİN YAZILIŞI ?.
CÜMLENİN ÖGELERİ.
Öğretim Tasarımı
Okul Deneyimi Dersi Eser Çeker (Uz.).
3.Ünite Öğrenme,Bellek,Düşünme DÜŞÜNMENİN YAPITAŞLARI
FİİLDE ÇATI Fiillerin özne ve nesne ile olan ilişkisine çatı denir.
YAPI BİLGİSİ.
CÜMLENİN YARDIMCI ÖGELERİ
HAZIRLAYAN: KISMET YAŞAR 8-A ÖĞRETMEN : SELMA ERASLAN
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Hazırlayan: Serkan Aslan
2. SINIFLAR BİLGİ YARIŞMASINA HOŞGELDİNİZ
Cümlenin Öğeleri Sözcüklerin cümle içerisindeki görev adlarına “cümlenin öğeleri”denir. Cümle öğelerini, temel öğeler ve yardımcı öğeler olmak üzere iki.
ZARFLAR (BELİRTEÇ) Burak SÖKÜCÜ
BECERİ VE KAVRAM ÖĞRETİMİ
İSMİN HALLERİ.
PROJE TABANLI ÖĞRENME. Proje tabanlı öğrenme, öğrenci merkezli bir öğretim modelidir.
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
M.Fatih AMASYALI Uzman Sistemler Ders Notları
ÖĞRETİMDE STRATEJİ Ali ÇELiK (Biyoloji).
Cümlenin Öğeleri Sözcüklerin cümle içerisindeki görev adlarına “cümlenin öğeleri”denir. Cümle öğelerini, temel öğeler ve yardımcı öğeler olmak üzere iki.
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
KISIM 4 Sınıfta Biliş. KISIM 4 Sınıfta Biliş BÖLÜM 11 Okumayı Öğrenme.
ÖZNE YÜKLEM UYGUNLUĞU.
Hakan Satılmış (Türkçe Öğretmeni) Biz uygarlıktan,bilimden ve fenden güç alıyor ve ona göre yürüyoruz.
CÜMLENİN ÖGELERİ.
Bir kelimenin cümlede diğerlerine göre daha baskılı okunmasına vurgu denir.
ADLAR (İSİMLER).
Bilgisayar Mühendisliği Bölümü
ADLAR (İSİMLER).
Bilgisayar ile Çeviri Sistemleri
SORU EKİNİN YAZILIŞI ?.
Cümlenin Öğeleri Sözcüklerin cümle içerisindeki görev adlarına “cümlenin öğeleri”denir. Cümle öğelerini, temel öğeler ve yardımcı öğeler olmak üzere iki.
Cümlenin Ögeleri İsim:EyüpCan Soy İsim :Aydemir Sınıf : 8-D No : 352.
Volkan Erol1,2 Yard.Doç.Dr.Aslı Uyar Özkaya1
HATIRLAYALIM.
Sunum transkripti:

Türkçe İçin Derlem Tabanlı Bir Anafor Çözümleme Çalışması Edip Serdar GÜNER Yüksek Lisans Tezi Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN 28 Temmuz 2008

Sunum Planı Genel Bilgiler Türkçe’de Artgönderimler Sistem Tasarımı Sınıflandırma Sonuçları Değerlendirilmesi Artgönderim Çözümleme Sonuçları Değerlendirilmesi Sonuç

Genel Bilgiler Gönderimler metinde bağlaşıklığı (cohesion) kurarak, bilgi akışında devamlılık ve bilginin artışı sağlayan etkenlerden biridir. Artgönderim, doğal dil ile kurulan cümlelerde bir adıl veya bir isim öbeğinin, kendinden önce bahsi geçen bir nesne veya olaya tekrar yoluyla referansta bulunmasıdır (Grosz 1995). Ali, Ahmeti’i ziyaret edecekti. Çünkü onai yardım etmeliydi. Söylem içinde artgönderimler ve öncülleri arasında bağlantının kurulmasına artgönderim çözümlemesi denir. ÖNCÜL ARTGÖNDERİM gönderim

Genel Bilgiler - devam Makine çevirisi, metin özetleme, bilgi çıkarımı ve soru cevaplama sistemleri artgönderim çözümlemesine en çok ihtiyaç duyulan alanlardır. 20 yıldan uzunca bir zamandır yapılan çalışmalarda ortaya konan yöntemler, birbirlerinden oldukça farklı metin ve diller üzerinde denenmişlerdir. Bugün gelinen noktada, bu yöntemlerin karşılaştırılmalı bir değerlendirilmesinin yapılması ve ortama uygun yöntemlerin belirlenmesi ihtiyacı ortaya çıkmıştır. Bu çalışmada da Türkçe artgönderim çözümlemesinin karmaşıklığını gösterebilmek ve en uygun yöntemi belirleyebilmek amacıyla denetimli makine öğrenmesi yöntemleri kullanılmıştır.

Gönderimlerin Sınıflandırılması Dilbilgisel Kategori Gönderim Yönü Gönderim Ses İçeriği Gönderim – Öncül Konumları Adıl İsim Yüklem Belirteç Artgönderim Öngönderim Açık Gizli Cümle içi Cümleler arası Ahmet, Oyai’ya onui sevdiğini söyledi. Sabahtan beri onui bekliyoruz. Fakat [Ahmet Beyler]i ancak gelebildiler. Öğretmeni, Oyaj’ya bir kitapk verdi. Øi Øj Onuk bir hafta içinde okumasını söyledi.

Artgönderim Çözümleme Etkenleri KISITLAYICI ETKENLER AYRICALIK TANIYAN ETKENLER Kişi/sayı ve cinsiyet uyumu kısıtları Anlamsal kısıtlar Sözdizimsel Bağlama Kuramı kısıtları Sözdizimsel Paralellik Anlamsal Paralellik Merkezleme Yaklaşımı

Kısıtlayıcı Etkenler Kişi/sayı ve cinsiyet uyumu kısıtları Oya, Ali’ye geçen hafta [iki kitap]i vermişti. Ali, bugün Oya’ya onlarıi henüz okuyamadığını söyledi. Anlamsal kısıtlar Kedii çıktığı ağaçtanj inmek istemiyordu. Øi aşağıdakilere yalvarır gibi bakıyordu. Sözdizimsel Bağlama Kuramı kısıtları (Chomsky 1981) Johni kendinii sever. Johni, Mary’den onui yıkamasını istedi. [PRO Okumak] gereklidir.

Ayrıcalık Tanıyan Etkenler Sözdizimsel Paralellik Oyai kitabıj çantasına koymuştu. Øi Akşam eve geldiğinde ise Øj çantasında bulamadı. Anlamsal Paralellik Oya, Alii’ye bir kitap verdi. Ayrıca, Hasan da onai bir kalem verdi. Merkezleme Yaklaşımı (Grosz ve Sidner 1986) Oya önceki gün markete alışverişe gitti ve orada bir bardak gördü. Onu almak istedi ancak yeterli parası yoktu. Dün tekrar markete gittiğinde bardağı alacak parası vardı. Bardağı alıp evine döndü. Mutfağa giden Oya, bardağı tabağın içine koydu ve o kırıldı...

Bilgisayarlı Artgönderim Çözümleme Çalışmaları ARTGÖNDERİMÇÖZÜMLEME YAKLAŞIMLARI BİLGİ TABANLI YAKLAŞIMLAR ÖĞRENME TABANLI YAKLAŞIMLAR MELEZ YAKLAŞIMLAR bilgi-yoksun bilgi-zengin denetimli denetimsiz Hobbs 1977 Lappin ve Leass 1994 Kennedy ve Boguraev 1996 Baldwin 1996 … McCarthy ve Lehnert 1995 Aone ve Bennet 1996 Soon, Ng ve Lim 2001 Ng ve Cardie 2002 … Mitkov vd. 2002 Preiss 2002 …

Türkçe’de Artgönderim Adıllar, özne konumunda yalın durumda olmakta, nesne veya belirtecimsi konumlarında ise durum ekleri alabilmektedirler. Türkçe, adıl düşüren (pro-drop) bir dildir. Gizli adıl kullanımı çok yaygın olduğundan soğuk diller kategorisine girer (Kılıçaslan vd. 2007). Özne ve yüklem arasında uyum vardır. Öğrenci-ler problem-i çöz-dü-(ler) . Onlar o-nu çöz-dü-(ler). Ø Ø Çöz-dü-ler. 3. kişi adılı cinsiyet bilgisi taşımaz. Kişi Adılları Konum Dönüşlü Adıllar İşteş ben Bura kendim sen Ora kendin o Şura kendi biz kendimiz birbirimiz siz kendiniz birbiriniz onlar kendileri birbirleri Türkçe’de artgönderimlerle ilgili dilbilimsel çalışmalar: Erguvanlı-Taylan (1986) Enç (1986) Kerslake (1987) Turan (1996) Kılıçaslan (2004) Adami kadınaj bir kitapk verdi. ‘The man gave the woman a book.’ Øi Çocuğun onui/j/k görmesini istemiyordu. ‘He did not want the child to see him / her / it.’

Türkçe için Bilgisayarlı Çalışmalar Tın ve Akman (1992, 1994) BABYSIT, Durum kuramı (situation theory) Turhan-Yöndem ve Şehitoğlu (1997) HPSG Yüksel ve Bozşahin (2002) Bağlama ve merkezleme kuramları Yıldırım, Kılıçaslan, Aykaç (2004) Merkezleme kuramı Tüfekçi ve Kılıçaslan (2005, 2007) Hobbs’ naive (1978) algoritması Küçük ve Turhan-Yöndem (2007) Bilgi-yoksun çözümleme Yıldırım ve Kılıçaslan (2007) karar ağacı

Sistem Tasarımı İşaretleme Aracı Ham Metin Belirtke Ayırıcı Biçimsel Çözümleyici Özellik – Değer Vektörleri SINIFLANDIRICI (WEKA) Kullanıcı Arayüzü Çift Oluşturucu (+ / -)

Derlem Oluşturma Bu çalışmada, artgönderim çözümlemesi için çeşitli makine öğrenmesi yöntemleri kullanılarak derlem tabanlı bir yöntem uygulanmıştır. 20 farklı çocuk hikayesi kullanılarak 1114’ü adıl olan 10165 kelime kapasiteli bir derlem hazırlandı. Bu adılların 419’u açık, 695’i gizli adıldır. Derlemdeki adıl tipleri ve oranları şu şekildedir: Kişi adılı (%82.3) Konum belirten adıl (%6.6) Dönüşlü adıl (%10.7) İşteş adıl (%0.4)

İşaretlenen Özellikler Durum eki: Yalın, belirtme, yönelme, bulunma, sahiplik, ayrılma veya araç durumları Dilbilgisel görev: Özne veya nesne Açıklık (overtness): Açık veya gizli Adıl Tipi: Kişi, konum, dönüşlü veya işteş Anlamsal Tip: Hayvan, insan, yer, soyut veya fiziksel nesne Kişi ve Sayı: Kişi ve sayı bilgisi Konum: Kelimenin söylem parçası içindeki doğrusal konumu Öncül konumu: Bir adılın gerçek öncülünün konumu Gönderimsel (Referential) Durum: Adılsıl olma veya olmama

Sınıflandırma İşlemleri Bütün deneyler Weka yazılımı (version 3.5.6) üzerinde onlu çapraz doğrulama (tenfold cross-validation) stratejisi kullanılarak gerçekleştirilmiştir. Bu yazılım üzerinde gerçeklenmiş olan beş farklı denetimli makine öğrenme algoritması veri kümesine uygulanmıştır: Naïve Bayes algoritması K-en yakın komşu algoritması Karar ağacı algoritması Destek vektör (support vector) algoritması Seçimli algılayıcı – voted perceptron

Naïve Bayes Naïve Bayes sınıflandırması, sınıfları belirli örneklerin özelliklerinin birbirlerinden bağımsız oldukları varsayımı üzerine dayanır. Özellik vektörü (x1,…,xn) olan bir X örneği verildiğinde, Naïve bayes sınıflandırıcısı, denklemini kullanarak benzerliği en yüksek yapan bir C sınıf etiketi arar.

K - En Yakın Komşu Eğitim örnekleri yerleştirildikleri özellik uzayında birer nokta ile temsil edilirler. Sınıfı bulunacak olan örnek bu uzayda kendine en yakın ve sayıca belirli bir örneklemin sınıf değerini alır. Örneğin diğerlerine uzaklığı öklit uzaklığı ile hesaplanır. k değeri iyi belirlendiği takdirde olumlu sonuçlar verir.

Karar Ağacı A C B D k=x k=y Karar Düğümü Yaprak Düğümü A > 1 A <= 1 B > 3.5 B <=3.5 B >=6.5 B < 6.5 C >=0.5 C <0.5 Karar ağacı, ağacın kökünden başlayıp yaprak düğümlere doğru hareket ederek örnek üzerinden sınıflamayı sağlamada kullanılan tümevarımsal bir yaklaşımdır. Güçlendirme (boosting) ile çeşitli hipotezler birleştirilir. Budama (pruning) ile genelleme gücü arttırılır.

Seçimli Algılayıcı (Voted Perceptron) Bir yapay sinir ağı yöntemi olan Seçimli Algılayıcı, biyolojik sinir sisteminin çalışma şekli simüle edilerek tasarlanmış, nöronlar içeren ve bu nöronların çeşitli şekillerde birbirlerine bağlanarak oluşturduğu bir öğrenme sistemidir. Girdi Çıktı Gizli

Destek Vektör Makinesi Düşük boyutta lineer olarak ayrılamayacak bir veri kümesini, daha yüksek boyuta taşıyarak bir düzlem yardımıyla ayırmayı sağlar. Sınıflandırmada çeşitli çekirdek fonksiyonları kullanılabilmektedir. x X o Ø(x) Ø(o) Ø F

Başarım Değerlendirme Ölçütleri Tahmin edilen sınıf Pozitif Negatif Gerçek sınıf TP FP FN TN

Dayanak (baseline) Deneyleri ve Kappa Ölçütü Deneylerde kullanılan sınıflandırıcıların etkinliklerinin ölçülmesi için de üç dayanak kullanılmıştır: çogunluk tabanlı rastgele tahmin edici sınıf dağılımı tabanlı rastgele tahmin edici en yakın adayla eşleme yapan tahmin edici Kappa ölçütü, bir sınıflandırıcının başarımının, rastgele bir sınıflandırıcının başarımıyla karşılaştırılması amacıyla kullanılmaktadır.

Sınıflandırma Sonuçları Deney Sonuçları Deney No. Sınıflandırıcı Parametrik Değişimler Sınıflandırma Sonuçları Doğruluk Duyarlılık Geriçağırım F-ölçütü Kappa - Dayanak-1 Çoğunluk tabanlı 67.3 Dayanak-2 Sınıf dağılımı tabanlı 55.2 31.5 Dayanak-3 En yakın aday 46.7 1 Ibk k = 1 0.75 0.60 0.76 0.67 0.4792 2 C-SVC Doğrusal çekirdek 0.77 0.66 0.62 0.64 0.4736 3 Naïve Bayes Normal dağılım 0.78 0.65 0.71 0.68 0.5202 4 J48 Güçlendirilmiş ve Budanmamış 0.70 0.4968 5 Voted Perceptron üs = 1 0.79 0.5155 6 Çekirdek kestirici 0.80 0.69 0.5402 7 k = 11 0.72 0.5534 8 Budanmış 0.81 0.5712 9 üs = 2 0.5739 10 Radyal tabanlı çekirdek 0.82 0.73 0.74 0.6017

Sınıflandırma Performansını Etkileyen Faktörler Algoritmalardaki eksiklikler Veriye özgü zorluklar sınıf belirsizliği Johni hid Billj’s keys. Hei(?)/j(?) was drunk. Johni, Billj’in anahtarlarını sakladı. O i(?)/j(?) sarhoştu. örnek seyrekliği (sparsity) Sınıflandırıcı ve sınıf sınırları arasında uyumsuzluk RBF

Yetersiz Uyum ve Aşırı Uyum Dengesi OPTIMUM kNN deneyleri

Sınıflandırıcı Altküme Değerlendirmesi Özellik Değerliliği Deney No Özellik 1 2 3 4 5 6 7 8 9 10 Ortalama Adıl Durum 100 50 80 90 85 Adıl Dilb. Rol 60 70 82 Açıklık 20 62 Adıl Sözd. Tipi 93 Gönderge Durum 40 30 77 Gönderge Anl. Tipi 94 Gönderge Dilb. Rol 81 Uzaklık Kişi-Sayı Uyumu Sınıflandırıcı Altküme Değerlendirmesi Özellik Bilgi Kazancı Uzaklık 0.184443 Gönderge Anl. Tipi 0.104029 Gönderge Dilb. Rol 0.091898 Gönderge Durum 0.076781 Adıl Durum 0.019131 Adıl Dilb. Rol 0.017319 Adıl Sözd. Tipi 0.013411 Açıklık 0.000135 Kişi-Sayı Uyumu 0.000000 Bilgi Kazancı

Artgönderim Çözümleme Başarımı Sessel İçerik Adıl Tipi Model Toplam Açık Gizli Kişi Konum Bel. Dönüşlü İşteş Voted Perceptron (Üs = 1) 0.52 0.46 0.55 0.48 0.64 0.75 0.60 C-SVC (Doğrusal Çekirdek) 0.54 0.39 0.63 0.53 0.37 Naïve Bayes (Normal Dağılım) 0.61 0.57 0.82 J48 (Budanmış) 0.62 0.59 0.70 0.83 (Üs = 2) 0.58 0.84 0.86 (Çekirdek Kestirici) 0.67 0.95 0.77 IBk (k = 11) 0.66 (Güçlendirilmiş Budanmamış) 0.69 0.68 0.76 0.74 (Radyal Tabanlı Çekirdek) 0.89 1.00 (k = 1) 0.79 0.73

Uzaklığa Bağlı Dağılım

Ses İçeriğine Göre Dağılım Sessel İçerik Özellik Değer Açık Gizli Adıl Durumu Kalma 0.06 0.05 Belirtme 0.27 0.02 Yalın 0.26 0.77 Yönelme 0.18 İyelik 0.15 0.09 Çıkma 0.04 0.01 Araç 0.00 Adıl Dilbilgisel Görev Nesne 0.79 0.36 Özne 0.21 0.64 Sözdizimsel Tip Kişi 0.83 0.82 Konum 0.08 Dönüşlü 0.12 İşteş Gönderimsel İfade Durum 0.17 0.07 0.55 0.76 0.10 0.13 Anlamsal Tip Soyut nesne Hayvan 0.20 İnsan 0.60 0.75 Fiziksel nesne Yer Zaman 0.45

Adıl Tipine Göre Dağılım Özellik Değer Kişi Konum Dönüşlü İşteş Adıl Durum 0.00 0.69 0.01 Belirtme 0.12 0.05 0.08 Yalın 0.59 0.86 Yönelme 0.15 0.60 İyelik 0.13 Çıkma 0.02 0.11 0.03 0.40 Araç Dilbilgisel Görev Nesne 0.42 1.00 0.99 Özne 0.58 Gönderimsel İfade 0.26 0.04 0.72 0.07 0.79 0.50 0.10 0.09 0.16 Anlamsal Tip Soyut nesne Hayvan 0.20 0.23 İnsan 0.74 0.75 Fiziksel nesne Yer 0.97 Zaman 0.27 0.93 0.73 0.87

Sonuç SINIFLANDIRMA SONUÇLARI ÜZERİNE DENEYSEL GÖZLEMLER: Doğrusal olmayan bir sınıflandırıcı kullanan bir model her zaman doğrusal bir sınıflandırıcı kullanan halinden daha başarılı olmuştur. Doğrusal olmayan bir modelin performansı, ifade gücü belirli bir seviyenin üstüne çıktıktan sonra kötüye gitmiştir. ÖĞRENME MODELLERİ İLE İLGİLİ İKİ SONUÇ: Doğrusal bir sınıflandırıcının ifade gücüne sahip öğrenme modelleri, Türkçe için artgönderim çözümlemesinde kullanıldığında yetersiz uyum sorunuyla karşılaşmaktadır. İfade gücü aşırı derecede yüksek modeller, aynı uygulama alanında aşırı uyuma sebep olabilmektedir. ARTGÖNDERİM ÇÖZÜMLEME SONUÇLARI ÜZERİNE GÖZLEMLER: Modelin ifade gücü arttıkça, artgönderim çözümleme başarı oranı da artmaktadır. Gizli adıllar açık olanlardan daha iyi çözümlenmektedir. Dönüşlü, işteş ve konum belirten adıllar, kişi adıllarından daha iyi çözümlenmiştir.

Teşekkürler...