Otomatik Bilgi Çıkarımı

Slides:



Advertisements
Benzer bir sunumlar
HTML.
Advertisements

E-posta Forum Sohbet Sesli Görüntülü Konferans
HTML e GİRİŞ Temel HTML etiketleri.
MS OFFICE Access 2013.
M.Fatih Amasyalı, Yıldız Teknik Üniversitesi, 2003
Hazırlayan Ebru SIRMACI
HTML’e Devam Uygulama.
360Core Kütüphane Kullanıcıları için Kütüphaneciler için
wiki Wiki Nedir? Wikilerle Neler Yapabiliriz?
Bilgisayar Dosya Uzantıları
İNTERNET VE İLETİŞİM.
04/02/10 Django Web Uygulamaları Geliştirmede Çağdaş bir Yaklaşım.
VERİTABANLARININ ETKİN KULLANIM TEKNİKLERİ
BU DERSTE ÖĞRENECEKLERİMİZ Web sayfası oluşturma teknikleri Bir siteyi yönetmek Tablolarla çalışmak Stil sayfaları oluşturmak Katmanlarla çalışmak Form.
BTEP 203 – İnternet ProgramcIlIğI - I
Ankara Üniversitesi Açık Arşiv Uygulaması
1 DİNAMİK WEB SAYFASI. 2 Personel ve Öğrenciler ile tüm internet kullanıcılarına hizmet verebilecek, Ziyaretçilerin kolay anlaşılabilir bir ara yüz ile.
E-İçerik Arama, Bulma ve Seçme
Görsel Okur-Yazarlık *
EVRE 1 BLOK 1 Uygulamalı Bilgisayar Eğitimi Öğr. Gör. A. Murat ERGİN E.Ü.T.F. Biyoistatistik ve Tıbbi Bilişim A.D.
Veritabanı Kopyalama/Taşıma
Temel HTML Eğitimi Erman Yükseltürk.
EasyChair KULLANIM KILAVUZU Ulusal Meslek Yüksekokulları Çalıştayı ve Öğrenci Sempozyumu Haziran 2012.
Copyright © The OWASP Foundation Permission is granted to copy, distribute and/or modify this document under the terms of the OWASP License. The OWASP.
IT 504 İnternet ve Web Programlama Tanıtım Yrd. Doç. Yuriy Mishchenko.
HTML (HYPER TEXT MARKUP LANGUAGE) TEMEL ETİKETLERİ
WEB TASARIMININ TEMELLERİ
CONTENT MANAGEMENT SYSTEM (İÇERİK YÖNETİM SİSTEMLERİ)
ADRES DEFTERİMDE NELER VAR?. Arkadaşlarınızın, akrabalarınızın ve tanıdığınız diğer kişilerin adresleri, telefon numaraları, e-posta adresleri vb. bilgilerini.
Yrd. Doç. Dr. Emre SÜMER Aralık-2011
ADRES DEFTERİM.
Görsel Programlama II Ders 5 Öğr.Gör. Mustafa KARABULUT.
Microsoft Office Access
Veri Tabanı Yönetim Sistemleri I
Quest Atlantis Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel Bir Bilgisayar Oyununun Teknik Yapısı.
EĞİTİMDE BİLİŞİM TEKNOLOJİLERİ
RSS Rss nedir? Rss özellikleri nelerdir? Rss Nasıl kullanılır?
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
İNTERNET VE İLETİŞİM.
M.Fatih AMASYALI Uzman Sistemler Ders Notları
Makine Öğrenmesinde Yeni Problemler
İKMAP İnternet 1 Ders Notu
Web Tarayıcıları ve Arama Motorları
VERİ KAYNAKLARI YÖNETİMİ 5. ÜNİTE. GİRİŞ Bilgi sisteminin öğelerinden biride “veri yönetimidir”. Geleneksel yada çağdaş, birinci yada ikinci elden derlenen.
Dersi Özeti Kursun içeriğini özeti Alt başlıkları Proje Kurs esnasında kullanmayı planladığımı editörler HTMLe giriş Temel etiketler Notepad+’da.
HUKUKTA BİLGİ YÖNETİMİ BBY Veri Tabanları (Uluslararası) Nazan Özenç Uçak Güz.
İnternet Nedir Bilgisayar Ağları Ağ Çeşitleri
Adım Adım Algoritma.
BİL3112 Makine Öğrenimi (Machine Learning)
METİNLERİ Matrislerle ŞİFRELEME
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
Hafta 1: Dizinleme ve Özler BBY 264 Dizinleme ve Sınıflama.
İÇERİK YÖNETİM SİSTEMİ Öğr. Gör. Emine TUNÇEL Kırklareli Üniversitesi Pınarhisar Meslek Yüksekokulu.
İnternet Nedir Bilgisayar Ağları Ağ Çeşitleri Çağlar Gülcek.
HTML HTML Nedir? HTML Ne İşe Yarar?. HTML (HyperText Markup Language / Hareketli-Metin İşaretleme Dili) basitçe, tarayıcılarla görebileceğimiz, internet.
XML ve XML WEB SERVİSLERİ Volkan ALTINTAŞ. XML Bağımsız bir kuruluş olan W3C tarafından tasarlanmıştır. Herhangi bir kurumun tekelinde değildir. Kişilerin.
Hafta 2: Dizinleme ve Öz Hazırlamaya Giriş BBY 306 Dizinleme ve Öz Hazırlama
DNS SERVER (DOMAİN NAME SYSTEM) HAZIRLAYAN:KÜBRA SİNEM ALBAY
İleri Excel 1 Fuat Tosun.
BİLİŞİM TEKNOLOJİLERİ
Web Tarayıcıları ve Arama Motorları
Web Tarayıcıları ve Arama Motorları
Mehmet Fatih KARACA Yrd. Doç. Dr. Salih GÖRGÜNOĞLU
Tasarım: Ali Topal.
Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
(Information Extraction-IE)
Necmettin Erbakan Üniversitesi Mühendislik ve Mimarlık Fakültesi Makine Mühendisliği Bölümü MAKİNE MÜHENDİSLİĞİ UYGULAMALARI PROJE, POSTER VE SUNUM HAZIRLAMA.
Kelime Anlamları (Word Semantics) Doç.Dr.Banu Diri
Sunum transkripti:

Otomatik Bilgi Çıkarımı M.Fatih AMASYALI Uzman Sistemler Ders Notları

Sunumun içeriği Bilgi Çıkarımı Nedir? Kullanılan Metotlar Yazım Dilindeki Şablonlar Öğelerine ayrılmış metinlerden Open domain yaklaşımı Dinamik Web Sayfalarından Bilgi Çıkarımı Alışveriş Robotları Şablonlar metodu için bir deneme Sonuçlar

Bilgi Çıkarımı Nedir? Doğal Dil İşleme Uygulamalarının Neresinde Yer Alır? Sayfa Arama: Sorguya karşılık gelen Web sayfalarını bulma Paragraf Arama: Sorguya karşılık gelen paragrafları bulma Bilgi Çıkarımı: Önceden tanımlanmış şablonlara uygun bilgileri bulma Soru Cevaplama: Kullanıcı sorusunun cevabını bulma Metin Anlama: Metinleri insanların anlayabildiği gibi anlama

örnek 21 yaşındaki inşaat işçisi Kazım Yaprak, evine dönerken para meselesi yüzünden tartıştığı arkadaşı Hilmi Baker tarafından bıçaklanarak öldürüldü. Katil: Hilmi Baker Kurban: Kazım Yaprak Sebep: Para Suç Aleti: Bıçak

Bilgi Çıkarım Sistemi Bulunan bilgiler

Kullanım Alanları Temel Fikir: Internet dünyadaki en büyük veritabanıdır. İçinden istediğimiz yapıdaki bilgileri çekebiliriz. Büyük metin verilerinden ilişkisel veritabanları oluşturma. ÖR: biyomedikal makaleleri Birçok web sayfasından verilerin çekilerek özet bilginin oluşturulması. ÖR: shopbots

Temel Metotlar Düzenli ifadeleri (Regex) kullanmak Yazım dilindeki şablonları kullanmak Morfolojik çözümlemelerdeki şablonları kullanmak Öğelerine ayrılmış metinleri kullanmak Dinamik web sayfalarındaki tekrarlanan HTML tag’lerini kullanmak

Düzenli ifadeleri (Regex) kullanmak Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü

Yazım Dilindeki Şablonlar İstenen ilişki türü için şablonlar bulup büyük metinlerde bu şablonlara uyan çiftleri çıkarmak

Öğelerine ayrılmış metinler “ye” fiilinin nesneleri yiyecek olarak sınıflandırılabilir.

“iç” fiilinin nesneleri içecek olarak sınıflandırılabilir.

Fiil Şablonları Belirli fiillerin en çok görülen şablonları çıkarılmış ve bu şablonlarla bilgi çıkarımı yapılmaktadır. Bu şablonlar rastgele metinlerden değil, konuya özel metinlerden elde edilmektedirler. { Company | Person } controls Company { Company | Person } earns Money { for | from } Goods-or-Services { Company | Country } exports Goods to Country Coperorg invests Money in { Financial-Instrument | Market | Country | Company } noun BE INDUCED BY noun activation of these PROTEIN was induced by PROTEIN noun INDUCE noun PROTEIN induced the tyrosine phosphorylation noun BIND TO noun the drugs bind to two different PROTEIN noun BIND noun motifs previously found to bind the cellular factors noun BINDING noun the TATA-box binding protein the BINDING of noun the binding of PROTEIN

Şablonlar Üretken: ürettiği bilgi miktarı Güvenilir: ürettiği bilgilerin doğruluk oranı İkisi birbiriyle çelişir

Amazon Kitap Sayfası HTML kodu Dinamik Web Sayfalarından Bilgi Çıkarımı Amazon Kitap Sayfası HTML kodu Elde edilen bilgi …. </td></tr> </table> <b class="sans">The Age of Spiritual Machines : When Computers Exceed Human Intelligence</b><br> <font face=verdana,arial,helvetica size=-1> by <a href="/exec/obidos/search-handle-url/index=books&field-author= Kurzweil%2C%20Ray/002-6235079-4593641"> Ray Kurzweil</a><br> </font> <br> <a href="http://images.amazon.com/images/P/0140282025.01.LZZZZZZZ.jpg"> <img src="http://images.amazon.com/images/P/0140282025.01.MZZZZZZZ.gif" width=90 height=140 align=left border=0></a> <span class="small"> <b>List Price:</b> <span class=listprice>$14.95</span><br> <b>Our Price: <font color=#990000>$11.96</font></b><br> <b>You Save:</b> <font color=#990000><b>$2.99 </b> (20%)</font><br> </span> <p> <br>… Title: The Age of Spiritual Machines : When Computers Exceed Human Intelligence Author: Ray Kurzweil List-Price: $14.95 Price: $11.96 :

Temel Fikir Birçok web sayfası veritabanlarından dinamik olarak oluşturuluyor. Dinamik web sayfalarında html tag’leri tekrar eder. Tekrar eden kalıplar arasında aynı tür bilgiler yer alır.

Tablomuzun Satırlarını Belirlemek Satırlar başlayıp biten HTML tag’lerinden oluşur. Hangi tag’le satırın başlayıp bittiğini bulmak önemli. Kural 1:Her satırdaki HTML tag sayısı birbirine yakındır. Kural 2:En fazla tag içeren tekrarlı çevrim satırı gösterir.

Yanda olası tüm satırlar gözükmekte. Her satırda yakın sayıda tag olması şartından dolayı T’lerin satırları oluşturmadığı görülür. En fazla sayıda tag içeren satır seçileceğinden kırmızı ile gösterilen kısımlar satırlar olarak belirlenecektir.

Alışveriş Robotları Tekrarlı HTML taglerinin kullanılarak bilgi çıkarılan sistemlere örnek olarak çeşitli web sitelerinde satılan ürünlerin bilgilerini tek bir sayfada toplayan sistemler verilebilir. Ticari Siteler: MySimon Cnet BookFinder

Alışveriş/Haber Toplama Robotlarının Çalışma Adımları 1- Her satıcı site bilgi çıkarım mekanizmasını kur. 2- Kullanıcıdan sorgusunu al. (tür, fiyat vs.) 3- Her site için: Kullanıcı sorgusunu siteye gönder Sonuç sayfasını al. Sonuç sayfasını o sayfanın bilgi çıkarım mekanizmasıyla işle. Sonuçlarını kendi veritabanına kaydet. 4- Sonuçları fiyatlara göre sırala. 5- Sonuçları HTML formatına çevir. Kullanıcıya döndür.

Türkçe için bir Şablon Eşleme Denemesi “Bütün X’ler Y’dir” İlişkisine uyan ikililerin otomatik olarak bulunması ADIMLAR Şablonların bulunması Şablonlara uygun ikililerin bulunması İkililerin eklerine ayrılması Verilerden örnekler Sınıflandırma Metodu Sınıflandırma Sonuçları

Şablonların bulunması Keşfetmek istediğimiz ikililerin aralarındaki ilişki türü belirlenir. Ör: “Tüm X’ler Y’dir”. Bilinen X,Y ikilileri Google’da aratılır. X ve Y arasındaki şablonlar ve frekansları belirlenir. En yüksek frekanslı olan şablonlar bu ilişki türünün şablonları olurlar.

Bulunan Şablonlardan Örnekler Tüm X’ler Y’dir için ve her türlü lerden biri olan leri ve diğer larından biri olan lerinden biri olan lardan biri olan adı olan ve her tür ve diğer ler ve diğer ve benzeri veya diğer türü olan ları ve diğer lar ve diğer

Bulunan Şablonlardan Örnekler X’in yeri Y’dir için x, y ye zz km x (y ye zz km x, y x - y x bulunduğu yer:y y-x x(y x(y) y deki x y de bulunan x y de x x y de x y ili sınırları içerisindedir y ili sınırlarında kalan x y ili sınırları içinde bulunan x y ilçesi sınırları içinde bulunan x x y nin sınırları içerisindedir x/y x / y x-y x y ye zz km

Şablonlara uygun ikililerin bulunması Google’da bulunan şablonlar aratılır. Sonuç sayfalarındaki şablonların sağ ve sollarındaki kelimeler alınır ve bir dosyaya kaydedilir.

Şablonlara uygun ikililerden örnekler kontrolör personel teçhizat malzeme kemer teçhizat protein gıda Azerbaycan bölge Ceyda yardımcı komünizm ideoloji delta Gediz kurum Kocaelispor fotoğrafçı Robert tür flamingo ünite aksesuar bedel masraf din azınlık çelik yapı yem araç kız sıfat yapı sorun ölçü şart

İkililerin elle sınıflandırılması Bulunan ikililerden hangilerinin “Tüm X’ler Y’dir” ilişkisine sahip olup olmadığı elle işaretlenir.

İkililerin eklerine ayrılması Bulunan ikililer geçtikleri cümledeki halleriyle http://fens.sabanciuniv.edu/TL/cgi-bin/mymorp_keyb.cgi adresindeki araç kullanılarak eklerine ayrılır. Araç birden fazla sonuç ürettiği durumlarda ilk çözüm kabul edilir.

Eklerine Ayrılmış Kelimelerden Örnekler adamlarından biri olan OZAN Noun+ A3pl+ P3sg+ Abl Noun+ A3sg+ Pnon+ Nom dualar ve her türlü ibadet Noun+ A3pl+ Pnon+ Nom

Verilerin Modellenmesi Farklı ek türü sayısı 53 Farklı şablon türü sayısı 16 2 kelime (53*2)+ şablon türü = 107 özellik Artık, her bir örnek 107 boyutlu bir uzayda bir noktadır.

Eğitim ve Test verileri Eğiticili sınıflandırma metotlarında eğitim ve test verilerine ihtiyaç var. 365 eğitim, 365 test verisi oluşturuldu. Her iki veri setinde de 103’er tane istediğimiz, 262’şer tane istemediğimiz türden veri var.

Farklı sınıflandırıcılar için sonuçlar

Frekansların Kullanımı Çok daha fazla Internet sayfasından binlerce ikili elde edilir. Bulunan ikililerin tekrar sayıları (frekansları) bulunur. En çok tekrar eden ikililer veritabanına kaydedilir.

Metot Hakkında Sınıflandırma başarısı %100 olmadığından frekans kullanımı zorunlu. Dolayısıyla çok fazla sayfa işlemek gerekli. Birden fazla kelimeden oluşan kelime grupları arasındaki ilişkiler bulunamıyor. Her tür ilişkiye uygulanabilir değil. Ör: eşanlamlı, zıt anlamlı vs. ~%85’lik bir başarı ile sınıflandırma yapılabildiği görülmüştür.

Kaynaklar [1] www.ccs.neu.edu/home/futrelle/ bionlp/psb2001/Hawaii-Tutorial-Tsujii.ppt [2] www.cs.utexas.edu/users/mooney/ ir-course/slides/InformationExtraction.ppt [3] www.cs.columbia.edu/~eugene/talks/icde2003.ppt [4] www.isi.edu/natural-language/ teaching/cs544/cs544-9-apr04.ppt [5] www.cs.sfu.ca/~zshi1/personal/ projects/Presentation_thesis.ppt