Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri Sever Hacettepe Üniversitesi Bilgisayar Mühendisliği Bölümü DPT KMBGS Araştırma Birimi http://www.cs.hun.edu.tr/~km
Genel Bakış DPT tarafından desteklenen 97K121330 nolu KMBGS Projesi, Türkçe belgeleri saklayan, dizinleyen ve sorgulamaya olanak veren bir Boolean bilgi erişim sisteminin, UNIX ortamında MOTIF ile gerçekleştirimine dayanmaktadır. KMBGS Araştırma Birimi, Internet kaynaklarının gösterimini ve taranmasını süreç içinde projenin amacına dahil etmiştir.
Problem ve Çözüm Yolları Web üzerinde üç yüz milyon adreslenebilir nesne vardır (Part I of WWW-7 Tutorial Track, 1998, http://www.w3.org). Cyberspace’de kaybolma: Internet kaynaklarının insanca anlaşılabilir ve makinaca okunabilir olmasından dolayı erişim araçların yetersiz kalması. Ad-hoc Çözüm: meta TAKILARIN (TAGS) Gömülmesi HTML 4.0 (http://www.w3.org/TR/REC- html40/strict.dtd) Terim Sözlüğü Oluşturma (ontology): SHOE (http://www.cs.umd.edu/projects/plus/SHOE ) KIF (http://logic.stanford.edu/) RDF (http://www.w3.org)
Ad-hoc Çözüm: Meta Takılar
Ad-hoc Çözüm: Meta Takılar Dizinde kullanılan HTML takıları <P><B>ACADEMY OF THE SACRED HEART, New Orleans <BR></B> Sacred Heart restores shutters and cupola. <BR> <I> Preservation in Print</I> v23 n6 p28, Aug, 1996<BR> HTML Üstveri Referans Dizinine Eklenmesi <Subject><B> ACADEMY OF THE SACRED HEART, New Orleans </B> </Subject> <Title> Sacred Heart restores shutters and cupola. </Title> <Periodical><I>Preservation in Print </Periodical> <Volume>p28,</Page> <Date>Aug. 1996</Date>
HTML 4.0: Üstveri Elemanları <HEAD profile=“http://www.w3.org/RDF”> <!ELEMENT META - O EMPTY> <!ATTLIST META lang %LanguageCode #IMPLIED http-equiv NAME #IMPLIED name NAME #IMPLIED content CDATA #REQUIRED scheme CDATA #IMPLIED > <LİNK rel=“…” href=“…”> PICS etiketleri <META name=”DC.Author" content=“Hayri Sever"> <META scheme=“ISO 8601" name=“DC.Date” content=”13/03/62"> <META name=”DC.Description" lang=”tr" content=”veri madenleme ve bilgi erişim sistemleri araşt&iwhdot;rma ..."> <META http-equiv="Content-Type" content="text/html; charset=ISO-8859-5">
SHOE ve KIF SHOE (Simple HTML Ontology Extensions) iki kısımdan oluşmaktadır: Ontoloji. Veri Sözlüğü ve Şemanın tanımlandığı belirli bir üstveri modeli Üye. İlgili üstveri kullanılarak yapılan iddalar. SHOE modeli tür, ilişki ve çıkarsama tanımlama olanağı sağlamaktadır. SHOE ile tanımlı Web kaynakları, Expose ile yerel diske yüklenir ve SHOE kütüphanesi aracılığı ile çözümlenir ve PARKA Ontolojisine yerleştirilir. KIF (Knowledge Interchange Format), “First-Order Predicate Calculus” tabanlı bir üstveri gösterim dilidir. İfade etme gücü yüksek olan KIF, heterojen Web kaynaklarını bütünleştirmede kolaylık sağlar ve arabulucu mimaride paketleyici dil olan KQML birlikte kullanılır.
RDF Tanımının Çizge ile Gösterimi Creator www.cs.hun.edu.tr webadmin RDF Tanımının XML ile Gösterimi <?xml version="1.0" ?> <rdf:RDF xmlns:rdf="http://www.w3.org/RDF" xmlns:dc="http://purl.org/DublinCore"> <rdf:Description about="http://www.cs.hun.edu.tr"> <dc:Creator> webadmin </dc:Creator> </rdf:Dexcription> </rdf:RDF>
RDF/DC Editörü: H-DCEdit RDF modeli ve DC Üstveri elemanları kullanılarak, elektronik kaynakların içeriklerinin tanımlanmasını sağlayan bir yazılım gerçekleştirilmiştir. H-DCEdit ile katalog bilgileri modellenmiştir. Katalog yapısı, RDF/DC sözdizimi temel alınarak SGML tarafından tanımlanmıştır. SGML belgelerinin özelliği, Türkçe içerik desteği olması ve XML belgesine dönüşmesi kolay bir tanımı olmasıdır.
Sistem işlev çizgesi SGML Bildirimi RDF/DC Belge Tür Tanımı DSSSL Bildirimi Biçem Bildirimi RDF/DC Ayrıştırıcı SGML Ayrıştırıcı (SP) SGML Belgesi Ayrıştı-rım Çıktısı DC Elemanları Editörü SG-ML DSSSL Motoru (Jade) Yeniden biçimlenmiş belge çıktısı (html, rtf, TeX) Yerel yardımcı programlar (vi, netscape, xview,…) RDF/DC Biçem Tanımı
Yazılım Mühendisliği Notları Yazılım Alt Kesimi Programlama Dili Satır Sayısı SP-1.2 (SGML Ayrıştırıcı) C++ 70000 RDF/DC Ayrıştırıcı C++ 800 H-DCEdit 1.0 C (MOTIF) 5000 JADE1.0.1 (DSSSL Motoru) C++ 52000
SGML Bildirimi <!SGML "ISO 8879:1986" CHARSET BASESET "ISO 646-1983//CHARSET International Reference Version (IRV)//ESC 2/5 4/0" DESCSET 0 9 UNUSED 9 2 9 11 2 UNUSED 13 1 13 14 18 UNUSED 32 95 32 127 1 UNUSED BASESET "ISO Registration Number 148//CHARSET ECMA-128 Right Part of Latin Alphabet Nr. 5//ESC 2/13 4/13" DESCSET 128 32 UNUSED 160 95 32 255 1 UNUSED NAMING LCNMSTRT "" UCNMSTRT "" LCNMCHAR "-.:" UCNMCHAR "-.:" …>
RDF/DC Belge Tür Tanımı <!-- Entities For Turkish Support --> <!ENTITY Ccedil CDATA "Ç"> <!ENTITY ccedil CDATA "ç"> <!ENTITY Ouml CDATA "Ö"> <!ENTITY ouml CDATA "ö"> <!ENTITY Scedil CDATA "Þ"> <!ENTITY scedil CDATA "þ"> <!ENTITY Idot CDATA "Ý"> <!ENTITY iwhdot CDATA "ý"> <!ENTITY Uuml CDATA "Ü"> <!ENTITY uuml CDATA "ü"> <!ENTITY Gbrewe CDATA "Ð"> <!ENTITY gbrewe CDATA "ð">
RDF/DC Belge Tür Tanımı <!-- RDF and DC elements in the same DTD In addition, XML like output is supported RDF Elements --> <!ELEMENT rdf:RDF - - ( rdf:Description )* > <!ATTLIST rdf:RDF xmlns:rdf CDATA "http://www.w3.org/RDF/” xmlns:dc CDATA "http://purl.org/DC/” <!ENTITY % property "ANY"> <!ELEMENT rdf:Description - - %property;> <!ATTLIST rdf:Description ID NMTOKEN #IMPLIED about CDATA #IMPLIED aboutEach CDATA #IMPLIED bagID NMTOKEN #IMPLIED>
RDF/DC Belge Tür Tanımı <!ENTITY % dccontent "(#PCDATA)"> <!ELEMENT DC:TITLE - - %dccontent; > <!ELEMENT DC:CREATOR - - %dccontent; > <!ELEMENT DC:SUBJECT - - %dccontent; > <!ELEMENT DC:DESCRIPTION - - %dccontent; > <!ELEMENT DC:PUBLISHER - - %dccontent; > <!ELEMENT DC:CONTRIBUTOR - - %dccontent; > <!ELEMENT DC:DATE - - %dccontent; > <!ELEMENT DC:TYPE - - %dccontent; > <!ELEMENT DC:FORMAT - - %dccontent; > <!ELEMENT DC:IDENTIFIER - - %dccontent; > <!ELEMENT DC:SOURCE - - %dccontent; > <!ELEMENT DC:LANGUAGE - - %dccontent; > <!ELEMENT DC:RELATION - 0 %dccontent; > <!ELEMENT DC:COVERAGE - - %dccontent; > <!ELEMENT DC:RIGHTS - - %dccontent; >
RDF/DC Belge Tür Tanımı <!ATTLIST DC:DATE year CDATA #IMPLIED month CDATA #IMPLIED day CDATA #IMPLIED> <!ATTLIST DC:RELATION type CDATA #IMPLIED resource CDATA #IMPLIED > <!-- Added Element for Robots --> <!ELEMENT BODY - - %dccontent; > <!ATTLIST BODY location CDATA #IMPLIED >
Oluşturulan SGML Belgeleri sgml.cs.hun.edu.tr Baha Olgun SGML Türkiye Hacettepe Üni. Hayri Sever text/sgml Creator Title Publisher Contributor Type
SGML İle Serileştirme
H-DCEdit Arayüz
DC Elemanları Girişi
Yardımcı Uygulamaları İlişkilendirme
DSSSL Standardında Biçimleme
Süzgeçleme: HTML belgesi
HTML Belgesini Biçimleme
Özet DPT KM-BGS Projesi çerçevesinde gerçekleştirilen bir RDF/DC editörü tanıtılmıştır. Bu editör, takı dizinleme ve sorgulama yapabilen Isite/Isearch arama makinası ile çıktı bazında bütünleştirilmiştir.