Hayat Bilgisi Veritabanı Kullanarak Otomatik Cümle Üretimi

Slides:



Advertisements
Benzer bir sunumlar
1EĞİTİM BİRİMİ DİYARBAKIR KHB 90 GÜN ÇALIŞMASI  ‘’Hedeflerle Yönetim İlkesine’’ dayanan bir proje çalışmasıdır.  Çalışma kapsamında 90 gün.
Advertisements

8. SINIF 3. ÜNİTE BİLGİ YARIŞMASI
VERİTABANI YÖNETİM SİSTEMLERİ
Tutarlı Bir Katalog için Otorite Kontrolü
Kurumlar Arasındaki Alan-Kesiştirici İşbirliği İlişkisi İçin Kerberos Güvenlik Sistemini Geliştirme: “Gelişen & Doğrulanabilir E-Toplum” İçin Yenilikçi.
ALİ YALKIN İLKÖĞRETİM OKULU 2/A SINIFI ÇALIŞMA SAYFASI
NOKTA, DOĞRU, DOĞRU PARÇASI, IŞIN, DÜZLEMDEKİ DOĞRULAR
Sistem Analizi ve Planlama
Eğitim Programı Kurulum Aşamaları E. Savaş Başcı ASO 1. ORGANİZE SANAYİ BÖLGESİ AVRUPA BİLGİSAYAR YERKİNLİĞİ SERTİFİKASI EĞİTİM PROJESİ (OBİYEP)
Konu Başlıkları Müfredat Oluşturulurken Dikkat Edilmesi Gereken Hususlar Çalışmalardaki Olumsuz Örnekler ve İstatistiksel Bilgiler Anket Çalışmaları Teknik.
Yıldız Teknik Üniversitesi
Veri ve Veri Yapıları Genel olarak bilgisayarlar.
Öğr.Gör.Dr. S. Sadi SEFEROĞLU & Arş. Gör. Fatih GÜRSUL
KÜTÜPHANE OTOMASYON SİSTEMİNİN KULLANIMI
Prof. Dr. Eşref ADALI Yrd. Doç. Dr. Şule Gündüz Öğüdücü SürümA
MÜRACAAT VE EĞİTİM SÜRECİ BİLGİLENDİRME TOPLANTISI 17.EKİM.2009
Ankara Üniversitesi Açık Arşiv Uygulaması Doç. Dr. Doğan Atılgan Yard.Doç.Dr.Sacit Arslantekin Yard. Doç. Dr. Özlem Bayram AB’06 Pamukkale Üniversitesi.
E-SINAV Sistemi Halil Özmen
Microsoft Danışman Öğrenci
Veri İletiminde Hata Kontrol Yöntemleri
BTO310:Topluma Hizmet Uygulamaları Dersi Kitap Toplama Projesi
BELGELEME Ian Sommerville, “Software Documentation”,
KÜTÜPHANELERDE HALKLA İLİŞKİLER ve PAZARLAMA ANKARA ÜNİVERSİTESİ KÜTÜPHANESİ ÖRNEĞİ Tuna CAN & E.Erdal AYDIN
Yönetim Bilgi Sistemleri Şubat TAPU VE KADASTRO GENEL MÜDÜRLÜĞÜ.
Ankara Üniversitesi Açık Arşiv Uygulaması
Köylü ulusun efendisidir.
BPR151 ALGORİTMA VE PROGRAMLAMA - I
1 DİNAMİK WEB SAYFASI. 2 Personel ve Öğrenciler ile tüm internet kullanıcılarına hizmet verebilecek, Ziyaretçilerin kolay anlaşılabilir bir ara yüz ile.
E-İçerik Arama, Bulma ve Seçme
VERİ TABANI ve YÖNETİMİ
SOME-Bus Mimarisi Üzerinde Mesaj Geçişi Protokolünün Başarımını Artırmaya Yönelik Bir Algoritma Çiğdem İNAN, M. Fatih AKAY Çukurova Üniversitesi Bilgisayar.
Meslektaşlarımızın Ücret Almadan Hizmete Devam Etmesi. Haksız Rekabette Sorunlar.
Meslektaşlarımızın Ücret Almadan Hizmete Devam Etmesi. Haksız Rekabette Sorunlar.
Kaliteli Teknik Resmin Üç Temel Niteliği:
Örnek Bİr VerİtabanI TasarImI
ARALARINDA ASAL SAYILAR
FİİLİMSİLER (EYLEMSİLER)
Problem Çözme Ve Problem Çözme Stratejileri Ödevi Cihan GÖÇ
OTOMATİK KONTROL SİSTEMLERİ
Formül Hazırlama ve Kullanma
Tam sayılarda bölme ve çarpma işlemi
Strateji Geliştirme Daire Başkanlığı
HABTEKUS' HABTEKUS'08 3.
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
Akış Kontrol Mekanizmaları
Yrd. Doç. Dr. Emre SÜMER Aralık-2011
Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi
EĞİTİM OYUNLARI TASARLAMA
VERİ İŞLEME VERİ İŞLEME-4.
Ders Sorumlusu: Yrd. Doç. Dr. Mustafa TURAN
İSMİN HALLERİ.
Toplama Yapalım Hikmet Sırma 1-A sınıfı.
MDK ALT YAPI KIYASLAMA ÇALIŞMA GRUBU
EYOKA Mezun Takip Sistemi
© 2002 by Prentice Hall 1 David M. Kroenke Database Processing Eighth Edition Chapter 1 Introduction to Database Processing.
Hacettepe Üniversiteli | Bote 1 QUEST ATLANTİS NETWORK DÜNYASI (Net1) ( FOCUS = İŞİN ÖZÜ )
İNTERNET TARAYICI (WEB BROWSER) PROGRAMLARI
Yard. Doç. Dr. Mustafa Akkol
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
ÖĞR. GRV. Ş.ENGIN ŞAHİN BİLGİ VE İLETİŞİM TEKNOLOJİSİ.
M.Fatih AMASYALI Uzman Sistemler Ders Notları
KONGRE YÖNETİM SİSTEMİ MEHMET TURAN M. SERTAÇ KELEŞ.
Bilgisayar Mühendisliği Bölümü
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
Bölüm 4 : VERİ MADENCİLİĞİ
Bilgisayar Mühendisliği Bölümü
Asp.Net Veritabanı İşlemleri
Bilgisayar Mühendisliği Bölümü
Amazon Web Servisleri ve Javascript Dilinin Birlikte Kullanımı
Mehmet Fatih KARACA Yrd. Doç. Dr. Salih GÖRGÜNOĞLU
Sunum transkripti:

Hayat Bilgisi Veritabanı Kullanarak Otomatik Cümle Üretimi Automatic Sentence Generation Using Common Sense Databases Canberk Berkin ÖZDEMİR Danışman : Yrd.Doç.Dr. M. Fatih AMASYALI YTÜ Bilgisayar Mühendisliği Bölümü

Sunum İçeriği Neden Otomatik Cümle Üretimi? Hayat Bilgisi Veritabanı Neden Kullanıldı? Projeyi Kapsayan Disiplin ve Alanlar Sistemin Etkileşimli Olduğu Sistemler Çalışma Mantığı Değerlendirme Sonuç ve Öneriler YTÜ Bilgisayar Mühendisliği Bölümü

Neden Otomatik Cümle Üretimi? Elimizdeki cümleden yeni bilgi çıkarımı yapabilmek… Bir bilgiden yola çıkarak bu bilgi ile bağlantılı bilgileri elde etmek ve makinelerin bu bilgileri işleyebilmesine olanak sağlayabilmek… İnternet üzerinde yapılan aramalardaki girilen cümle ya da cümlelerin türetilip kullanıcılara aramalarla ilgili istenildiğinde daha detaylı sonuçları döndürebilmek… …için “Otomatik Cümle Üretimi”ne ihtiyaç duyabiliriz. YTÜ Bilgisayar Mühendisliği Bölümü

Hayat Bilgisi Veritabanı Neden Kullanıldı? Cümle üretimi gerçekleyebilmek için cümlenin barındırdığı kelime ya da kelime öbeklerinin sahip olduğu çeşitli ilişkili kelime ya da kelime öbeklerini bulmak gerekir. Elimizde bize bunu sağlayabilen bir “Hayat Bilgisi Veritabanı” (CSdb) bulunduğundan, bu veritabanının kullanımı projenin iş akışının gerçeklenmesinde büyük rol oynamıştır. Not: Sunumun devamında Hayat Bilgisi Veritabanı ayrıntılı olarak açıklanacaktır. YTÜ Bilgisayar Mühendisliği Bölümü

Projeyi Kapsayan Disiplin ve Alanlar Doğal Dil İşleme Semantik Makine Öğrenmesi YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler Zemberek Zemberek, açık kaynak kodlu Türkçe doğal dil işleme kütüphanesi Yazım denetimi, hatalı kelimeler için öneri, heceleme, deascifier gibi sentaktik işlevlere sahip CSdb(Common Sense Database) Hayat bilgisi veri tabanları, kelimeler arasında yaşamdaki gerçeklikleri basit ilişki yapıları ile birbirlerine bağlar Bu sayede bilgisayarların bu gerçeklikleri yorumlayabilmesini kolaylaştırır YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-1 Zemberek Cümle üretimini sağlayabilmek için hayat bilgisi veritabanına, cümlenin kelime ve kelime öbekleri gönderilmektedir. Bu yüzden çalışmada Java programlama dili ile kodlanmış Türkçe doğal dil işleme kütüphanesi olan Zemberek uygulaması kullanılmıştır. YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-1 Zemberek Cümlenin kelime ve kelime öbeklerine ayrılması işlemi gerçeklendikten sonra da kelimenin veritabanına gönderilirken kök haline getirilmiş şekli, ekleri ve hayat bilgisi veritabanında sorguları gönderirken isim ya da fiil türünde olduğuna göre sorgu oluşturacağımızdan dolayı morfolojik bir kelime çözümleyicisine ihtiyaç duyulmuştur. YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-1 Zemberek Zemberek sisteme kelimelerin kök, ek ve türlerini sorunsuz bir şekilde döndürmektedir. Sistemde Zembereğin birden fazla çözümlemesi olan kelimeler için ürettiği sonuçlardan ilki kullanılmıştır. YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) Nesnelerin farklı ilişki kalıplarıyla bağlantılı olduğu nesnelerle ilişkilendiren bir Türkçe veritabanıdır. Veritabanı "bu nerede bulunur, bunun üst kavramı nedir, bu ne gerektirir, bu neyden yapılmıştır, bunun özellikleri nelerdir" gibi 40 adet ilişki ve bunların tersi ilişkilere sahiptir ve nesneler bu ilişkilerle birbirine bağlanmaktadır. YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) Nesneleri birbirine bağlayan bu ilişkileri ve doğruluklarını, kişiler Kemik Oyun adı verilen oyunla veritabanına gönderirler. İlk Türkçe hayat bilgisi veritabanı olan CSdb veritabanında ayrıca her ilişkinin doğruluk oranı 0-5 arasında bir değerle tutulmaktadır. YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) Nesnelerin ilişkilerini belirleyen kullanıcılar, ilişkilerin ilgili nesneler arasındaki tutarlılıklarını 0-5 puan arasında puanları seçerek göndermektedirler. Birçok kişinin verdiği puanların ortalaması alınarak nesneler arası ilişkilerin doğruluk oranları arttırılmaktadır. YTÜ Bilgisayar Mühendisliği Bölümü

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) İlk Türkçe hayat bilgisi veritabanının henüz istenilen olgunluğa erişmemiş olması buradan alacağımız sonuçların tutarlılık oranını düşürebilmektedir, bu dezavantaj çalışma sürecinde göz önünde tutulmuştur. Ancak oyun oynandıkça veritabanın içerdiği ilişkilerin doğruluğu artacağından bu tür uygulamalarda kullanımı artacak ve Türkçe semantik alanındaki çalışmalara büyük katkı sağlayacaktır. YTÜ Bilgisayar Mühendisliği Bölümü

Çalışma Mantığı Sisteme üretilecek cümle girilmesi Cümlelerimiz Zemberek’e morfolojik olarak incelenmek üzere gönderilmesi XML olarak kelime çözümlemeleri sisteme geri döndürülmesi Zemberek'ten dönen bu verileri hayat bilgisi veritabanına, sorgulanması sistem tarafında belirli olan ve en az ortalama puanın kullanıcı tarafından belirlenmiş olduğu sorgular gönderilmesi Hayat bilgisi veritabanının döndürdüğü ilişkili kelimeler, ilişki türü ve ortalama puanları kullanıcıya aktarılmak üzere sistem tarafından alınması Üretilen cümlelerin tekrar üretilebilmesini sağlayacak şekilde çıktıların verilmesi YTÜ Bilgisayar Mühendisliği Bölümü

Çalışma Mantığı YTÜ Bilgisayar Mühendisliği Bölümü

Çalışma Mantığı Sistem kelime öbeklerindeki her bir kelime için verilen kelimenin ilişkili olduğu kelime sayısının bir fazlasının çarpımları sonucu kadar cümle üretmektedir. Bu cümlelerin hiçbiri bir diğeriyle aynı olmayacak şekilde arayüzde kullanıcıya aktarılmıştır. Bu ifadeyi şu şekilde formüle edebiliriz: n : cümledeki toplam kelime (öbeği) sayısı isk : k. kelime (öbeği)nin ilişki sayısı ücs : üretilen cümle sayısı YTÜ Bilgisayar Mühendisliği Bölümü

Çalışma Mantığı Kullanıcıya döndürülen sonuçlarda oluşturulan her bir cümle için tutarlılık yüzdesi hesaplanmaktadır. Bu üretilen bir cümlenin, kullanıcı tarafından girilen cümleye göre ne kadar tutarlı olabildiğini hesaplayıp bilgilendirme amacıyla yapılmıştır. Bu tutarlılık hesaplanırken bir cümlenin içindeki hayat bilgisi veritabanından gelen her bir ilişkili kelimenin ortalama puanı ve o kelimenin ilişkisinin ilişki yüzdesi çarpılarak kullanılmaktadır. n : cümledeki toplam kelime(öbeği) sayısı cyt : cümlenin yüzde tutarlılığı iopk : k. kelime (öbeği)nin sahip olduğu ilişkinin doğruluk puanı ityk : k. kelime (öbeği)nin sahip olduğu ilişki türünün tutarlılık yüzdesi YTÜ Bilgisayar Mühendisliği Bölümü

Cehalet tanrının laneti olduğuna göre, bilgi göklere uçabileceğimiz kanatlardır. William Shakespeare YTÜ Bilgisayar Mühendisliği Bölümü

Çalışma Mantığı - Örnek Giriş Cümlesi Üretilen Cümle Üretimde Kullanılan ilişkiler Ali odada uyur. Ali binada yatar. 1.ilişki: Oda - Bütünün Bölümü - bina 2.ilişki: uyumak - Bu hangi olayın parçasıdır? –yatmak “Ali odada uyur” cümlesini sisteme girdiğimizde neler olacağını inceleyelim: YTÜ Bilgisayar Mühendisliği Bölümü

Çalışma Mantığı - Örnek Ürettiğimiz cümle sayısını hesaplayacak olursak : ücs = (1+1)*(1+1) = 4 olacaktır. Bu üretilen cümlelerin ayrı ayrı tutarlılık yüzdeleri hesaplanırsa : cyt1 = (1*5/5)*(1*5/5) = 1 cyt2 = (0,8*5/5)*(1*5/5) = 0,8 cyt3 = (0,8*5/5)*(0,7*5/5) = 0,56 cyt4 = (1*5/5)*(0,7*5/5) = 0,7 YTÜ Bilgisayar Mühendisliği Bölümü

Değerlendirme Sunulan çalışmada, ilk Türkçe hayat bilgisi veritabanı (CSdb) kullanılarak bir bilgisayar sisteminin girilen bir cümleden çıkarım yaparak girilenle benzer/aynı anlamda yeni cümleler ve doğruluk oranları üretmesi sağlanmıştır. Çalışmanın olası uygulama alanları olarak, otomatik hikâye/metin üretimi sistemleri, anlamsal metin özetleme uygulamaları, anlamsal metin sınıflandırma / kümeleme çalışmaları ve anlamsal bilgiye erişim sistemleri sayılabilir. YTÜ Bilgisayar Mühendisliği Bölümü

Değerlendirme Bu çalışmada, Hayat bilgisi veritabanlarının ve doğal dil işleme kütüphane ve uygulamalarının; gelecekteki akıllı bilgisayar sistemlerini ve interneti yönlendireceği, Bilgisayarların gündelik hayatımızı semantik çalışmalar sayesinde daha fazla kolaylaştıracağı, aşikârdır. YTÜ Bilgisayar Mühendisliği Bölümü

Sonuç ve Öneriler Sistemin performansı kullandığı CSdb'ye çok bağımlıdır. Bu nedenle CSdb’nin içeriğinin zenginleştirilmesi ve kalitesinin arttırılması otomatik olarak uygulamamıza yansıyacaktır. Zemberek çözümlemelerinden sadece ilkinin kullanımından doğan hatalar, bir kelime anlamı durulaştırma işlemiyle çözümlenebilir. YTÜ Bilgisayar Mühendisliği Bölümü

Sonuç ve Öneriler Kök ek ayrımından sonra üretilen yeni kelime köklerini tekrar eklerle birleştirecek bir sınıfın yazılması sistemin daha kullanıcı dostu olmasını sağlayacaktır. CSdb’de bir şeyin nerelerde bulunduğu, nerelerde yapıldığı gibi ilişkiler mevcut olduğundan kullanıcının girdiği cümlede yer almasa bile üretilen cümlelerde bu bilgiler yer alabilir. Örneğin “Ali futbol oynadı.” cümlesinden “Ali stadyumda topla futbol oynadı.” cümlesi üretilebilir. YTÜ Bilgisayar Mühendisliği Bölümü

Sonuç ve Öneriler Yeni cümle üretilirken, değişim yapılan öğe türüne göre bu işlem gerçekleştirilebilir. Örneğin yüklemi sonuç ile bağlı olduğu bir kavramla değiştirirken üretilen yeni cümlenin yükleminin kipine olasılık eklenebilir. Bu sayede “Ali top oynayacak.” cümlesinden “Ali yorulacak.” cümlesi yerine “Ali yorulabilir.” cümlesini üretmek mümkün olabilecektir. Üretilen cümlelerin tutarlılığını kullanıcıdan geri besleme alarak arttırabilmesi mümkündür. YTÜ Bilgisayar Mühendisliği Bölümü

Son olarak… Projenin çatısını oluşturan CSdb Hayat Bilgisi Veritabanına katkıda bulunmak isterseniz Kemik Oyun’u oynayabilirsiniz. Veritabanı oynandıkça gelişmekte ve güvenilirlik kazanmaktadır. Oyunun bağlantısı : http://www.kemikoyun.yildiz.edu.tr/commonsense Not: Türkçe Hayat Bilgisi Veritabanı CSdb; yapay zeka, makine öğrenmesi projelerinde kullanılabilmesi için 6 ay içerisinde herkese açık hale getirilecektir. Bu yüzden Kemik Doğal Dil İşleme Grubu veritabanını çok önemsemektedir. YTÜ Bilgisayar Mühendisliği Bölümü

Teşekkürler… YTÜ Bilgisayar Mühendisliği Bölümü