Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER

Benzer bir sunumlar


... konulu sunumlar: "Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER"— Sunum transkripti:

1 Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER
Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER Sunan : Yasin BEKTAŞ 5 Şubat 2014

2 İçindekiler Giriş Alanyazın
Açık Kaynak / Ücretsiz Yazılımlarla Türkçe Tümcelerin Belirlenmesi TUD-Alt Derlemi Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri Sonuç ve Öneriler Kaynaklar

3 1. Giriş Doğal Dil İşleme (DDİ) günümüzde
dil bilimi, dil eğitimi, bilgisayar mühendisliği v.b. pek çok farklı alanı birleştiren bir araştırma alanıdır.

4 1. Giriş Derlem İşlemleme (Corpus Processing)
Özel ya da genel amaçlı incelemeler yapmak için yazılı ve sözlü metinlerden oluşan metinler bütünüdür, Elektronik veritabanında kayıtlı metinlerin veri bilgisiyle birleştirilmiş toplamıdır, Derlem veritabanları, dilin farklı yönlerinin araştırmacılar tarafından betimlenmesine olanak tanımaktadır.

5 1. Giriş Tümce sonu belirleme çalışmalarında,
nokta, ünlem, soru işareti vb. noktalama işaretleri sadece tümce ayracı olarak kullanılmazlar ve bu anlamda, Tümce sonu belirleme, noktalama işaretlerinin belirginleştirilmesi olarak da özetlenebilir.

6 1. Giriş Bilgisayar mühendisliği açısından tümce sonu belirleme ;
Sözdizimsel ayrıştırma (syntactic parsing), Bilgi çıkarımı (information extraction), Makine çevirisi (machine translation), Metin hizalama (text alignment), Belge özetleme (document summarization), İstatistiksel ya da makine öğrenmesi yöntemleri Sözcük türü belirginleştirme çalışmaları için önemli olduğu söylenebilir.

7 2. Alanyazın Bilgisayarlı dilbilim alanyazınında tümce sonu belirleme problemi iki farklı yöntemle çözümlenmeye çalışılmıştır; Kural Tabanlı Yaklaşım Makine Öğrenmesine Dayalı Yaklaşım

8 2. Alanyazın Kural Tabanlı Yaklaşım Makine Öğrenmesine Dayalı Yaklaşım
Anlaşılması zor Veri setleri yalnızca kullanılan metinler ile sınırlı Makine Öğrenmesine Dayalı Yaklaşım Reynar ve Ratnaparkhi(Maksimum Entropi) Riley(Karar Ağacı Sınıflandırıcısı) Palmer ve Hearst(Yapay Sinir Ağı) Mikheev(Hiddin Markov-Maksimum Entropi)

9 2. Alanyazın Var Olan Bazı Uygulamalar Apache OpenNLP kütüphanesi
Julie Sentence Boundary Detector (Tomanek vd.) GeniaSS Splitta(Gillick)

10 2. Alanyazın Türkçe için yapılan bazı çalışmalar
İstatistiksel Bir Bilgi Çıkarım Sistemi (Tür) - Başarım: %91.56 Türkçede tümce sonu belirleme (Dinçer ve Karaoğlan ) – Başarım: %96.02 Türkçe için kural tabalı cümle belirleme metodu(Aktaş ve Çebi) - Başarım: %99.60

11 3.1. TUD-Alt Derlemi Çalışmaya konu olan derlem, TUD dağılım ölçütleri kullanılarak hazırlanmış; Günümüz Türkçesinin metin örneklerinden oluşan, 20 yıllık bir dönemi ( ) kapsayan, Çok farklı alan ve türden Yazılı ve sözlü metin örneklerini içeren, Dengeli Temsil yeterliliğine sahip bir alt-derlemdir.

12 Hedeflenen Sözcük Sayısı
3.1. TUD-Alt Derlemi Alan Oran Toplam Sözcük Sayısı Hedeflenen Sözcük Sayısı 1.Kurgusal Düzyazı %19 2. Bilgilendirici Metinler %81 Tablo 1. Alana göre Dağılım

13 Tablo 3. Bilgilendirici Metinlerin Medyaya göre Dağılımı
3.1. TUD-Alt Derlemi Türev Metin Biçimi Oran Toplam Sözcük Sayısı 1. Akademik Düzyazı %95 2. Kurgu ve Şiir %2 37.059 3. Dram, Tiyatro %3 57.407 Tablo 2. Kurgusal Düzyazı Metinlerinin Türev Metin Biçimine göre Dağılımı Media Oran Toplam Sözcük Sayısı 1. Kitaplar %46,1 2. Süreli Yayınlar %37,1 2.1. Bilim.Dergileri %14,9 2.2. Gazeteler %11,1 2.3. Dergiler 3. Diğer Basılmış Metinler %6,09 4. Basılmamış Yazılı Metinler %2,5 5. Sözlü Metinler %8,21 Tablo 3. Bilgilendirici Metinlerin Medyaya göre Dağılımı

14 Tablo 4. Bilgilendirici Metinlerin Alanlara göre Dağılımı
3.1. TUD-Alt Derlemi Alan Oran Toplam Sözcük Sayısı 1. Bilgilendirici: Doğa ve Temel Bilimler %5,03 2. Bilgilendirici: Uygulamalı Bilimler %10,21 3. Bilgilendirici: Sosyal Bilimler %20,08 4. Bilgilendirici: Dünya Sorunları %22,57 5. Bilgilendirici: Sanat %8,78 6. Bilgilendirici: Düşünce ve İnanç %5,00 7. Bilgilendirici: Serbest %18,29 8. Bilgilendirici: Ticaret ve Finans %10,04 Tablo 4. Bilgilendirici Metinlerin Alanlara göre Dağılımı

15 3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri
Bu çalışmada açık kaynak kodlu Julie Sentence Boundary Detector (JSBD), GeniaSS, Splitta, Ücretsiz Web servisi şeklinde çalışan ve Dokuz Eylül Üniversitesi Doğal Dil İşleme Araştırma Grubu (9EDDİ) tarafından Türkçe metinler için geliştirilmiş tümce ayırma sistemi karşılaştırılmıştır.

16 3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri
Kullanılan alt derlem; Yarı otomatik olarak oluşturulmuştur 10 Milyon sözcük adet tümce elde edilmiştir.

17 3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri
Yazılım Bulunan Toplam Tümce Sayısı Doğru Tümce Sayısı Doğruluk Oranı JSBD %70 Splitta %22 GeniaSS %88 9EDDİ %75 Tablo 5. Tümce Sonu Belirleme Yazılımlarının Alt-derlem Üzerindeki Başarımı

18 3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri
Şekil 1. Yazılımların Doğa ve Temel Bilimler Alanındaki Metinler Üzerindeki Başarımı Şekil 2. Yazılımların Uygulamalı Bilimler Alanındaki Metinler Üzerindeki Başarımı Şekil 3. Yazılımların Sosyal Bilimler Alanındaki Metinler Üzerindeki Başarımı Şekil 4. Yazılımların Dünya Sorunları Alanındaki Metinler Üzerindeki Başarımı

19 3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri
Şekil 5. Yazılımların Sanat Alanındaki Metinler Üzerindeki Başarımı Şekil 6. Yazılımların Düşünce ve İnanç Alanındaki Metinler Üzerindeki Başarımı Şekil 7. Yazılımların Serbest Alanındaki Metinler Üzerindeki Başarımı Şekil 8. Yazılımların Ticaret ve Finans Alanındaki Metinler Üzerindeki Başarımı

20 3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri
Şekillerde yer alan yüzdelik ifadeler, yazılımın ürettiği doğru tümce sayısının/yazılımın ürettiği toplam tümce Splitta hariç %75 ile %89 aralığında oranlar elde edilmiştir. En fazla tümceyi ve en fazla doğru tümceyi üreten GeniaSS uygulaması olmuştur. Güncel Türkçe metinler için hazırlanan 9EDDİ ise bazı alanlarda daha iyi sonuçlar vermiştir.

21 4. Sonuç ve Öneriler İngilizce tıp metinleri için hazırlanmasına rağmen en iyi sonucu GeniaSS üretmiştir. Daha sonra (özellikle bazı metin gurupları için) 9EDDİ yazılımı başarılı sonuçlar vermiştir. Üretilen tümce sayının doğru tümcelere oranına bakıldığında 9EDDİ daha iyi sonuçlar vermiştir.

22 4. Sonuç ve Öneriler Bu çalışma çeşitli alanlarda yazılmış Türkçe metinler için; Daha etkin tümce sonu belirleme sistemlerine ihtiyaç olduğunu göstermiştir. Tümce sonu belirleme yöntemi geliştirilirken TUD alt-derlemi gibi dili temsil etme yeteneğine sahip bir derlem ile çalışmanın daha etkin sistemlerin geliştirilmesine yardımcı olacağı düşünülmektedir.

23 Destekler  TÜBİTAK: Proje no 113K039

24 Teşekkürler Yasin BEKTAŞ


"Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER" indir ppt

Benzer bir sunumlar


Google Reklamları