Türkçe ve Kırım Tatarca’sı Arasında Bir Çeviri Sistemi İlyas Çiçekli Bilgisayar Mühendisliği Bölümü Bilkent Üniversitesi Bilkent 06800, Ankara ilyas@cs.bilkent.edu.tr
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Ana Hatlar Yapıları Birbirine Yakın Diller Arasında Tercüme Türkçe’den Kırım Tatarca’sına Tercüme Türkçe ve Kırım Tatarcası Gramerlerinin Karşılaştırılması Türkçe’den Tatarca’ya Tercüme Yapan Sistemin Yapısı Sonlu Durum Yöntemlerinin Tercüme Kurallarında Kullanımı Tükçe ve Tatarca Arasındaki Tercüme Sistemin Geliştirme Ortamı Tercüme Sistemin Sınırlamaları Sonuçlar ve Gelecekteki Çalışmalar Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Yapıları Birbirlerine Yakın Diller Arasında Tercüme Yapıları birbirlerine benzeyen diller arasında tercüme benzemeyenlere göre daha kolaydır. Birbirlerine benzemeyen diller arasındaki tercüme sistemleri daha fazla kaynak bilgiye ihtiyaç duyarlar. Sözlük, gramer kuralları, aktarma kuralları, ontoloji Gerekli kaynakları hazırlamak pahalı olabilir. Birbirlerine benzeyen diller arasındaki tercüme sistemleri daha az kaynak bilgiye ihtiyaç duyarlar. Morfolojik Analizciler, Morfolojik Belirsizlik Gidericiler, Tercüme Sözlükleri ve Basit Tercüme Kuralları Anlamsal Analizceye gerek olmayabilir. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Tercüme Türkçe ve Tatarca arasında sonlu durum yöntemleri kullanıldı. Türkçe ve Tatarca Gramerleri Birbirlerine Çok Benzerler Türkçe ile Tatarca arasındaki bir tercüme sisteminde kelime sırası problemiyle ilgilenmemize gerek yoktur. Ama Türkçe ve İngilizce arasındaki bir tercüme sisteminde kelime sırası problemiyle ilgilenmemiz gerekir. Basit Tercüme Kuralları (Sonlu Durum Kuralları) Bazı belirsizlikler aynen korunduğundan, daha az belirsizlik problemi. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Gramerleri Çok Benzer Yapılar Türkçe Dedesini özlemiş. Dede+si+ni özle+miş Dede+P3SG+ACC özle+NARR+A3SG Tatarca Qartbaba+P3SG+ACC sağın+NARR+A3SG Qartbaba+sı+nı sağın+gen Qartbabasını sağınğan. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arsındaki Farklılıklar Farklı Kökler ev ev bırakmak taşlamaq araba maşina Farklı Morfemler mışlı Geşmiş Zaman : gel+miş <=> kel+gen Şimdiki Zaman : gel+iyor <=> kel+e İsmin e-hali : ev+e <=> ev+ge İsmin i-hali : defter+i <=> defter+ni İsmin ile-hali : kalem+le <=> qalem+nen Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arsındaki Farklılıklar Farklı Gramer Kuralları gel+dik+imiz yer kel+gen yer+imiz birçok insan bir çoq adam+lar gel+miş+ti kel+gen edi Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasındaki Tercüme Sistemi Türkçe Metin Türkçe Morfolojik Analizci Türkçe Morfolojik Belirsizlik Giderici Tercüme Gramer Kuralların Tercümesi Duruma Bağlı Yapıların Tercümesi Köklerin Tercümesi Tatarca Morfolojik Üretici Tatarca Metin Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe Morfolojik Analiz ve Morfolojik Belirsizlik Giderici Tek bir kelime alır. O kelimenin bütün morfolojik analizlerini verir. evleremizden 1. ev+Noun+A3PL+P1PL+ABL adam 1. adam 2. ada+P1SG Türkçe Morfolojik Belirsizlik Giderici Cümledeki durum bilgisini kullanarak kelimenin bazı morfolojik analizlerinden kurtulur. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Tercüme Duruma bağlı kurallar Kelimeler grup olarak tercüme edilebilir. Bazı kelimeler cümledeki durum bilgisine göre tercüme edilirler. Türkçe sözdizim analizcisi kullanılmadı Sadece sonlu durum kuralları kullanıldı Kökler bir tercüme sözlüğü kullanılarak tercüme edilir. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Tercüme Kurallarının Yapısı [ kaynak -> hedef || SolDurum _ SağDurum ]; Eğer kaynak verilen SolDurum ve SağDurum arasında gözükürse, hedef ile değiştirilir. Durum bilgisi şart değildir. Aynı kural birden fazla durumla kullanılabilir. Birden fazla kural paralel olarak uygulanabilir. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Tercüme Kuralları En Basit -- Hiç Değişiklik Yapılmaması Kök ve morfemler hiç bir değişikliğe uğramaz. Hiç bir tercüme kuralı kullanılmaz. evimiz evimiz ev+Noun+A3SG+P1PL ev+Noun+A3SG+P1PL Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Tercüme Kuralları Kök Değişikliği Sadece kök değişir, morfemleri değişmez. Tercüme sözlüğünden gelen kurallar. Örnek Kurallar: [çocuk %+ Noun -> bala %+ Noun , güven %+ Noun -> işanç %+ Noun, dön %+ Verb -> qayt %+ Verb]; çocuklar balalar çocuk+Noun+A3PL bala+Noun+A3PL Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Tercüme Kuralları Kök ve Morfem Değişikliği Kök ve bazı morfemleri değişir. Root and some morphemes of the source are changed Çoğunlukla değişik katagoride ifade edilen kelimeleri kapsar. Mostly words that are expressed in different word category Örnek Kural: [sakin %+ Adj %^ DB %+ Verb %+ Become -> tIn %+ Verb ]; sakinleşti tındı sakin+Adj^DB+Verb+Become+POS+PAST+A3SG tın+Verb+POS+PAST+A3#G Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Tercüme Kuralları Nesnelerini Etkileyen Fiiller Verbs That Effect Their Objects Bazı fiiller nesnelerini değişik halleri ile kullanır. Örnek Kural: [DAT -> ABL || _ [% ]+[sor | ısmarla ] %+ Verb]; çocuğa sordu baladan soradı çocuk+Noun+A3SG+DAT sor+Verb+POS+PAST+A3SG bala+Noun+A3SG+ABL sora+Verb+POS+PAST+A3SG Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Geliştirme Ortamı Tercüme sistemi XEROX sonlu durum araçları kullanılarak uygulamaya geçirildi. Tatarca Morfolojik İşlemci Ses uyumu kuralları twolc kullanılarak derlendi Sözlük kuralları lexc ile derlendi 5300 kök kelime (80000 kelimelik metinlerden toplandı) İki yönlü çalışır: analiz, üretici Tercüme sistemi xfst ile derlendi Arayüz Java ile yazıldı Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Örnek Türkçe Cümle (Girdi) akşam eve geleceğiz Tatarca Cümle (Çıktı) * 2 aqSam evge kelecekmiz (doğrusu) 1 aqSam evge istiqbalmIz Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Örnek Türkçe Kelimelerin Morfolojik Analizi akşam: 1. akşam+Noun+A3sg+Pnon+Nom eve: 1. ev+Noun+A3sg+Pnon+Dat geleceğiz: 1. gel+Verb+Pos+Fut+A1pl 2. gelecek+Noun+A3sg+Pnon+Nom^DB+Verb+Zero+Pres+A1pl 3. gelecek+Adj^DB+Verb+Zero+Pres+A1pl Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Örnek Morfolojik Seviyede Üç Türkçe Cümle akşam+Noun+A3sg+Pnon+Nom ev+Noun+A3sg+Pnon+Dat gel+Verb+Pos+Fut+A1pl akşam+Noun+A3sg+Pnon+Nom ev+Noun+A3sg+Pnon+Dat gelecek+Noun+A3sg+Pnon+Nom^DB+Verb+Zero+Pres+A1pl akşam+Noun+A3sg+Pnon+Nom ev+Noun+A3sg+Pnon+Dat gelecek+Adj^DB+Verb +Zero+Pres+A1pl Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Örnek Morfolojik Seviyede Üç Tatarca Cümle akşam+Noun+A3Sg+Pnon+Nom ev+Noun+A3Sg+Pnon+Dat kel+Verb+Pos+Fut+A1Pl akşam+Noun+A3Sg+Pnon+Nom ev+Noun+A3Sg+Pnon+Dat istiqbal+Noun+A3Sg+Pnon+Nom^DB+Verb+Zero+Pres+A1Pl akşam+Noun+A3Sg+Pnon+Nom ev+Noun+A3Sg+Pnon+Dat kelecek+Adj^DB+Verb+Zero+Pres+A1Pl Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Zorluklar Belirsizlik: yüzdü => yüz edi yüzdü => çere, bet edi yüzdü => yaldadı yüzdü => soydı Tercüme Sözlüklerin Olmaması Tatarcada çok az linguistik çalışma olması Sonlu durum yöntemleri her zaman yeterli olmayabilir Türkçe sözdizim derleyicisi bazen gerekebilir Türkçe ve Tatarca Arasında Bir Çeviri Sistemi
Türkçe ve Tatarca Arasında Bir Çeviri Sistemi Sonuçlar Yapıları benzer olan diller arasındaki tercüme sistemlerinde çoğu zaman sonlu durum yöntemleri yeterli olabilir. Yapıları benzer olan diller arasındaki bir tercüme sistemi daha az bir çabayla geliştirilebilir. Türkçe ve Tatarca arasında kullanılan yöntemler, diğer Türkük diller içinde uygulanabilir. Türkçe ve Tatarca Arasında Bir Çeviri Sistemi