Bilgi Erişim İlkeleri: Tarihçe Yaşar Tonta Hacettepe Ünivrsitesi Bilgi ve Belge Yönetimi Bölümü DOK 324 / BBY 220: Bilgi Erişim İlkeleri
Plan Bilgi Erişimin tarihi
Dersin Amacı Bilgi Erişim modelleri hakkında temel kuramsal bir anlayış geliştirmek Boole Vektor uzayı Probabilistik Bilgi Erişimin belli başlı uygulama alanlarını incelemek: Metin kategorizasyonu ve kümeleme Çoklu dilde erişim Metin özetleme Bilgi Erişim performansının nasıl ölçüldüğünü anlama Anma/Duyarlık İstatistiksel önem Bilgi Erişim sistemleriyle ilgili pratik bilgi edinme
Giriş Bilgi Erişimin (BE) amacı belli bir bilgi İhtiyacı Olan belli bir kullanıcı için bir dermedeki tüm “ilgili” belgelere ve sadece “ilgili” belgelere erişmektir. İigililik BE kuramında is a central concept in IR theory Web’deki bütün belgeler “derme”yi oluşturduğunda bir BE sistemi nasıl çalışır? Web arama motorları geleneksel BE modelleri üzerinde stres testi uygulanmasını sağlıyor
Bilgi Erişim Amaç büyük belge dermelerini (milyonlarca belge) arayarak kullanıcının bilgi ihtiyacını karşılayan az sayıda belgeye erişmek Örnekler: Internet arama motorları Dijital kütüphane katalogları BE’de bazı uygulama alanları Çok dilde erişim Konuşma/yayın erişimi Metin kategorizasyonu Metin özetleme BE kalitesi nesnel test ve değerlendirmeye tabi Yüzlerce sorgu Milyonlarca belge
BE’nin Kökenleri İletişim kuramı Anlamın iletilmesiyle ilgili sorunlar Kaynak Kod çözme Kodlama Hedef Mesaj Kanal Gürültü Depolama Kaynak Kod çözme (Erişim/Okuma) Kodlama (yazma/dizinleme) Hedef Mesaj
Bilgi Erişim Sisteminin Bileşenleri Belgeler Dizin kayıtları ve Belgeyi temsil eden kayıtlar Dizinleme süreci Yetkili dizinleme kuralları ciddi bilgi kaybı Kullanıcının Bilgi ihtiyacı Sorgu Tanımlama süreci Erişim Kuralları Erişim süreci Sorgu Kullanıcının bilgi ihtiyacıyla ilgili Belge listesi UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 9
BE Sisteminin yapısı Arama hattı Interest profiles & Queries Belgeler ve veriler Oyunun kuralları = Konu kataloglaması kuralları + Gömü (Yeğlenen Sözdağarı Ve dizinleme dilini içerir Arama hattı Potansiyel ilgili belgeler Karşılaştırma/ Eşleştirme Depo 1: Profiller/ Arama sorguları Depo 2: Belge temsilleri Dizinleme (Tanımlayıcı ve konu) Tanımlayıcı terimlerle Sorgu oluşturma Profillerin depolanması Belge deposu Bilgi depolama ve erişim sistemi Adapted from Soergel, p. 19
Yönlendirme Erişimin Kavramsal Görünümü Yakalama motoru Belge Akışı UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 11
“Ad-hoc” erişimin kavramsal görünümü Q1 Q2 Q3 Qn Q. Q4 Derme Q. Q5 Q. Q6 Q. Q7 Q9 Q8 ‘Sabit’ derme büyüklüğü, ayarlanabilir UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 12
Bilgi Erişim Tarihi BE tarihi Erken BE 2. Dünya Savaşı ertesi “bilgi patlaması”nın rolü “Bilgi Erişim” teriminin ilk kullanımı, 1952 C. Mooers. Bilgisayarsız BE (1950’lerin ortası) 1950’lerden başlayarak bilgisayara dayalı BE’ye ilginin artması H.P. Luhn, IBM (1958) Probabilistik modeller (Maron & Kuhns, 1960) Lockheed’de Boole sisteminin geliştirilmesi (1960’lar) Vektor Uzayı Modeli (Salton, Cornell Üniv. 1965) İstatistiksel ağırlıklandırma yöntemleri (‘70s) Uygulamalardaki gelişmeler ve inceltmeler (’80’ler) Büyük ölçekli test ve uygulamalar (’90’lar)
Kökenleri İçerik temsilinin erken dönem tarihi Sümerlerdeki jetonlar ve “zarflar” Alexandria - pinakes İndisler
Kökenleri İncil dizinleri ve konkordanslar Dergi dizinleri 1247 – Hugo de St. Caro – İncil’e anahtar sözcük konkordansı hazırlatmak için 500 din adamı çalıştırdı Dergi dizinleri 2. Dünya Savaşı ertesi “Bilgi Patlaması” Cranfield Dizin dilleri ve BE araştırmaları
BE Sistemleri vizyonları Paul Otlet, 1930’lar Emanuel Goldberg, 1920’ler - 1940’lar H.G. Wells, “World Brain: The idea of a permanent World Encyclopedia.” 1937 (Introduction to the Encyclopedie Francaise) Vannevar Bush, 1945 “As we may think” Atlantic Monthly
Karta dayalı BE sistemleri Uniterm (Casey, Perry, Berry, Kent: 1958 –1940’ların ortalarından itibaren geliştirildi ve kullanıldı) EXCURSION 43821 90 241 52 63 34 25 66 17 58 49 130 281 92 83 44 75 86 57 88 119 640 122 93 104 115 146 97 158 139 870 342 157 178 199 207 248 269 298 LUNAR 12457 110 181 12 73 44 15 46 7 28 39 430 241 42 113 74 85 76 17 78 79 820 761 602 233 134 95 136 37 118 109 901 982 194 165 127 198 179 377 288 407
Kart sistemleri Batten Optik Rastlantı kartları (“Peek-a-Boo Cards”), 1948 Excursion Lunar
Kart sistemleri Zatocode (delikli kartlar) Mooers, 1951 Document 34 Title: lksd ksdj sjd Lunar Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Document 1 Title: lksd ksdj sjd sjsjfkl Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Document 200 Title: Xksd Lunar sjd sjsjfkl Author: Jones, R. Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe
Bilgisayara dayalı sistemler Bagley’nin master tezinde (MIT, 1951) her biri 30 dizin terimi içeren 50 milyon kayıt dermesinde yapılacak bir aramanın 41.700 saat alacağı öngörüldü Karşılaştırmaları yaparken ana bellekte metni hareket ettirmekten dolayı 1957 – Desk Set, Katharine Hepburn ve Spencer Tracy – EMERAC
BE Araştırmalarındaki önemli tarihler 1958 Dilin istatistik özellikleri (Luhn) 1960 Probabilistik dizinleme (Maron & Kuhns) 1961 Term ilişkilendirme ve kümeleme (Doyle) 1965 Vektör Uzayı modeli (Salton) 1968 Sorgu genişletme (Roccio, Salton) 1972 İstatistiksel ağırlıklandırma (Sparck-Jones) 1975 2-Poisson Modeli (Harter, Bookstein, Swanson) 1976 İlgililik ağırlıklandırma (Robertson, Sparck-Jones) 1980 Bulanık setler (Bookstein) 1981 Eğitimsiz olasılık (Croft) UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey Fredric C. Gey 01.01.2019 2
BE Araştırmalarındaki önemli tarihler (devamla) 1983 Doğrusal regresyon (Fox) 1983 Probabilistik Bağımlılık (Salton, Yu) 1985 Genel Vektör Uzayı Modeli (Wong, Rhagavan) 1987 Bulanık Mantık ve RUBRIC/TOPIC (Tong, et al) 1990 Gizli Anlam Dizinleme (Dumais, Deerwester) 1991 Polinom ve Logistik Regresyon (Cooper, Gey, Fuhr) 1992 TREC (Harman) 1992 Çıkarım ağları (Turtle, Croft) 1994 Sinir ağları (Kwok) UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 01.01.2019 3
Bibliyografik Veri Tabanlarının Gelişmesi Chemical Abstracts Service “Chemical Titles” adlı yayını ilk defa bilgisayarla üretti (1961) Aynı yıl Amerikan Ulusal Tıp Kütüphanesi (NLM) Index Medicus’un MEDLARS veri tabanını üretti 1970’e gelindiğinde çoğu ikincil yayınlar (dizin ve öz dergileri) makineyle üretilmeye başlandı
Boolean BE Sistemleri SDC’de Synthex, 1960 MI’te MAC projesi, 1963 (etkileşimli) SDC’de BOLD, 1964 (Harold Borko) 1964 New York Dünya Fuarı – Becker ve Hayes soru yanıtlayan sistem geliştirdiler (havayolu rezervasyon) SDC 1967’de ticari bir hizmet başlattı – ORBIT NASA-RECON (1966) DIALOG adını aldı 1972 Data Central/Mead LEXIS – tam metin veri tabanını üretti Çevrimiçi kataloglar – 1970’ler ve 1980’ler
Deneysel BE Sistemleri Probabilistik dizinleme – Maron ve Kuhns, 1960 SMART – Gerard Salton (Cornell Üniv.) – Vektör uzayı modeli, 1970’ler SIRE (Syracuse Üniv.) I3R – Croft TREC -- 1992
Internet ve WWW Gopher, Archie, Veronica, WAIS Tim Berners-Lee, 1991’de CERN’de WWW’yi yarattı– Orijinali sadece hipermetindi Web-örümcekleri Lycos Alta Vista Inktomi Google
BE – Tarihsel Bakış Araştırma Endüstri Boole modeli, dilin istatistiği (1950’ler) Vektör uzayı modeli, probablistik dizinleme, ilgililik geribildirimi (1960’lar) Probabilistik sorgulama (1970’ler) Bulanık mantık, kanıta dayalı muhakeme (1980’ler) Regresyon, sinir ağları, çıkarım ağları, gizli anlam dizinleme, TREC (1990’lar) DIALOG, Lexus-Nexus, STAIRS (Boole mantığına dayalı) Bilgi endüstrisi Verity TOPIC (bulanık mantık) Internet arama motorları (Vektör uzayı, probabilistik) 01.01.2019
BE Araştırma Kaynakları ACM Transactions on Information Systems Am. Society for Information Science & Technology Journal Document Analysis and IR Proceedings (Las Vegas) Information Processing and Management (Pergammon) Journal of Documentation SIGIR Conference Proceedings TREC Conference Proceedings UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 7
Araştırma Sistemleri Yazılımı INQUERY (Croft) OKAPI (Robertson) PRISE (Harman) -http://potomac.ncsl.nist.gov/prise SMART (Buckley) CHESHIRE (Larson) http://cheshire.lib.berkeley.edu UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey 04/07/98 8