Sunuyu indir
Sunum yükleniyor. Lütfen bekleyiniz
1
BBY 220 - Bilgi Erişim İlkeleri
Güven KÖSE Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~gkose/
2
Ders Planı Giriş, Bilgi Erişimin Tarihçesi
Bilgi Erişim Sorunu ve Kavramları Bilgi Erişim Sistemlerinin Bileşenleri:İçerik Belirteçleri, Belgeler, Sorgular Erişim Fonksiyonları: Boolean Model, Vektör Uzayı Modeli, Dil Modeli Bilgi Erişim Sistemlerinde Etkinlik ve Performans Değerlendirme Arama Motorları ve Bilgiye Erişim Arama Motorlarında Web Tarama ve Dizinleme İşlemleri Link Analizi İlgililik Geri Bildirimi Sorgu Genişletme Teknikleri Gizli Anlam Dizinleme ve Ontolojiler
3
Ders Kitabı ve Yardımcı Kaynaklar
Salton, G. and McGill, M.J. Introduction to Modern Information Retrieval. New York: McGraw-Hill, 1983. Baeza-Yates, R. and Ribeiro. Modern Information Retrieval, Baeza-Yates and Ribeiro, Addison Wesley, 1999. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press (Tam Metin) Tonta, Y., Bitirim, Y. ve Sever, H. Türkçe Arama Motorlarında Performans Değerlendirme. (Performance Evaluation of Turkish Search Engines). Ankara: Total Bilişim Ltd. Şti., xvi, 152 s. (ISBN ). (Tam Metin) Konuyla ilgili makaleler
4
Değerlendirme Ara Sınav (%40) Final (%60)
5
Bilgi Toplumuna Giden Yol
Pulluk ve kimyasal gübre 100 kat Tarım Devrimi Buharlı makine 1000 kat Sanayi Devrimi Bilgi ve iletişim teknolojileri Trilyonlarca kat Bilgi Devrimi Transistörün bulunuşu “Belki atalarımız da bir enformasyon çağında yaşadılar – farkında olmadan (Headrick, 2002) Pulluk insan yeteneklerini 10 kat artırıyor Kimyasal gübre tarımda üretimi 10 kat artırıyor Pulluk * Kimyasal gübre (100 kat artış) Tarım devrimi Buharlı makine 1000 kat artırıyor Sanayi devrimi Bilgi ve iletişim teknolojileri bilgi toplama-işleme-iletimde milyonlarca kat artış sağladı Yani BİT’ler insan yeteneklerini trilyonlarca kat artırdı Bilgi devrimi? Buharlı motorun (1708) bulunuşuyla jet motorunun üretimi (1937) arasında 229 yıl var İlk bilgisayar (ENIAC) 1946, transistörlü 1956, bütünleşik devreli 1965, mikroişlemci ve bütünleşik devre aynı yonga üzerinde Çok büyük ölçekli bütünleşik devreler (6.4 kat daha hızlı) ABD’nin demiryollarıyla donatılması 41 yıl, bilgi ağıyla donatılması 7 yıl sürmüş. 3-6 kat daha hızlı (hangi ölçüyü alırsanız alın) Ürün Fiyat Tarım sınai bitkiler 1 dolar/kg Sanayi otomobil 25 dolar/kg Savaş uçağı dolar/kg Bilgi Bilgisayar dolar / kg Yazılım dolar / kg Hizmet sonsuz Tekman, s.275 Toffler (1981)
6
Bilginin Değişen Rolü Tarım Toplumunda bilgi sorun çözmede yardımcı olan kritik bir “girdi” idi Sanayi Toplumunda ticari bir ürün, en temel ekonomik kaynak, “kalkınmanın can damarı” haline gelen bilgi “çözümün” kendisi oldu. Bilgi Toplumunda ise yaratılabilecek, iletilebilecek, depolanabilecek sınırsız bilgi giderek bir “sorun” haline gelmeye başladı. (
7
Bilgi Teknolojisi Dünyayı Nasıl Değiştiriyor?
Eşli, aygıttan aygıta ağ bağlantısı Her aygıt ve uygulamada kesin yerel mekan bilgisi de gömülü Mobil cihazlarla bilgiye zaman ve makandan bağımsız erişim sağlanabiliyor Source: Gage, 2002
8
Bilgi . . . Bilgi depolama ortamları Bilgi iletim ortamı
beyin, kültürel birikim, “dış” ortamlar Bilgi iletim ortamı dağıtık ağlar: 14 saniyede Kongre Kütüphanesi’nin içeriğini bir yerden bir yere iletmek mümkün Bilgi işleme ortamları beyin, bilgisayarlar, insanlardan daha “akıllı” makineler, “yapay beyin” Plato’nun Phaedrus’unda Mısır Kralı Theus ile yazıyı bulan bilim adamı arasında geçen konuşma hatırlatılabilir. 'İnsanlar yazıyı öğrenirlerse akıllarına unutkanlık aşılanır; bellek alıştırması yapmayı bırakırlar. Çünkü yazılı olana güvenirler; şeyleri ezbere değil, dışsal işaretler aracılığıyla hatırlamaya çalışırlar. Keşfettiğiniz şey bellek içindeğil, hatırlama için bir reçetedir. Ve size inananlara sunduğunuz şey gerçek bir hikmet değil, sadece onun görüntüsüdür. Çünkü size inananlara birçok şey söyleyerek, ama öğretmeden, onları çok biliyorlarmış gibi gösterebilirsiniz. Oysa çoğunlukla hiçbir şey bilmezler. Ve insanlar gerçek hikmetle donatılmazlarsa diğer insanlara yük olurlar.' Popper ‘Dünya uygarlığı bir savaşla yok olup, geriye kütüphanelerde saklanan nesnel bilgi içeriği kalırsa, uygarlığı yeniden kurmak mümkündür. Halbuki bu nesnel bilgi içeriği, yani kütüphaneler yok olup, yalnızca öznelerin öğrenme yeteneği kalsa, çağdaş uygarlığı yeniden inşa etmek hemen hemen imkânsızdır.’ “...tüm insanlığın belleği herkes tarafından erişilebilir hale getirilebilir, ve muhtemelen yakın bir gelecekte getirilecektir.... Bu beyin insan kafası ya da kalbi gibi kolayca tahrip edilemez. Kesin ve tam olarak Peru’da, Çin’de, İzlanda’da, Merkezi Afrika’da ya da tehlikeye ve engellemeye karşı garanti altına alınabilecek herhangi bir yerde bu beynin röprodüksiyonu yapılabilir. Bu beyin aynı zamanda hem kafataslı bir hayvanınki gibi tek bir yerde toplanabilir hem de bir amipinki gibi dağıtık ama canlı olabilir” (Dyson, 1997, s. 10). İnsan beyni Kültürel birikim “Dış” ortamlar Manyetik ve optik depolama aygıtları Dağıtık depolama kolaylıkları 2025 yılına dek makinelerin depolama gücü insan belleğininkine yaklaşacak 2030 yılına dek makineler insanlar sinirsel ağın bilgi işleme gücüne erişecek Kurzweil, “The Age of Spiritual Machines”) Beyin nakli de diğer organ nakilleri kadar popüler olacak mı? Meme büyütme operasyonları gibi beyin büyütme operasyonları yapılabilir mi?
9
Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf
Depolama Maliyetleri Kaynak:
10
Depolama Maliyetleri Fiyatlar her yıl %45 düşüyor 421 USD 0,42 USD
Kaynak:
11
İletim Maliyetleri 2010 8 Mbps = $19 1 Mbps = $2,4
Kaynak: ULAKBİM Faaliyet Raporu, 2003 (
12
Bilgi Patlaması - 2002 5 Exabyte (5 x 1018 byte)
2002’de dünyada üretilen yeni bilgi miktarı (5 x 1018 byte) 5 Exabyte’lık bilgi = 37,000 yeni Kongre Kütüphanesi! “Yüzey web”de yaklaşık 100 milyar belge var (1670 Terabyte) var “Derin web”de 550 milyar belge var(dı) (91857 Terabyte) (“Web Growth, Web Dangers” (Editorial) NUA Internet Surveys, 31 July 2000, < Kaynak: BrightPlanet & Lyman and Varian
13
Bir Exabyte (EB) ne kadar büyük?
Kilobyte (KB) 1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph. Megabyte (MB) 1,000,000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM. Gigabyte (GB) 1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals. Terabyte (TB) 1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database. Petabyte (PB) 1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. Exabyte (EB) 1,000,000,000,000,000,000 bytes OR 1018 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings. Kaynak: How much information 2003, Tablo 1.1
14
Bilgi Artışı Tablo ’de dünyada üretilen özgün dijital bilgi üretimi. İyimser tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital içeriğin sıkıştırıldığı varsayıldı. Depolama ortamı 2002 Üst tahmin (Terabyte olarak) Alt tahmin (Terabyte olarak) Üst tahmin Alt tahmin % Değişim Üst tahminler Kâğıt 1,634 327 1,200 240 %36 Film 420,254 76,69 431,690 58,209 %-3 Manyetik 3,416,230 2,779,760 2,073,760 %87 Optik 103 51 81 29 %28 TOPLAM 5,609,121 3,416,281 3,212,731 2,132,238 %74.5 Kaynak: Lyman ve Varian
15
Bilgi Miktarı 5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit) ABD’de her yıl 80 milyar fotoğraf çekiliyor 2 milyar röntgen filmi çekiliyor Günde 610 milyar e-posta mesajı gönderiliyor Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor Peter Lyman ve Hal Varian’ın araştırması (The Economist, 26 Mart 2001 sayısı)
16
5 Exabayt 161 Exabayt 161 Exabayt ne kadar eder?
Dünyadan Güneşe kadar uzanan 12 raf kitap Kişi başına 6 ton kitap Dörtte biri orijinal bilgi, gerisi ikileme. Dörtte biri 40 Exabayt eder. Oysa ’de toplam yeni bilgi miktarı 40 Exabayt hesaplanmıştı. THE UNSTRUCTURED DATA PROBLEM Over 95% of the digital universe is "unstructured data" – meaning its content can't be truly represented by its location in a computer record, such as name, address, or date of last transaction. Digital images, voice packets, and the musical notes in an MP3 file would be considered unstructured data. In organizations, unstructured data accounts for more than 80% of all information. There may be information about the content, such as when it was captured – e.g., the time stamp on a camcorder clip – or its compression scheme, address from which it was sent or received if indeed it was, or file size. But that information, or "metadata," is generally not enough to determine what is
17
Depolama Kapasitesi IDC estimates that in 2006, just the traffic from one person to another – i.e., excluding spam – accounted for 6 exabytes (or 3%) of the digital universe. … The cost of not responding to the avalanche of information can add up, yet not be immediately visible to CEOs and CFOs. In surveys of U.S. companies, we have found that information workers spend 14.5 hours per week reading and answering , 13.3 hours creating documents, 9.6 hours searching for information, and 9.5 hours analyzing information. We estimate that an organization employing 1,000 knowledge workers loses $5.7 million annually just in time wasted having to reformat information as they move among applications. Not finding information costs that same organization an additional $5.3 million a year. Adopting a comprehensive and disciplined approach to managing information and understanding its value is a key to reducing the hidden – and not so hidden – costs associated with the information explosion.
18
Web 2.0 Nedir? Source:
19
Kaynak: http://en.wikipedia.org/wiki/Web_2.0
Web 2.0 Tanımı Yaratıcılığı artırmayı, bilgi paylaşımını ve en önemlisi kullanıcılar arasındaki işbirliğini amaçlayan Web teknolojisi ve web tasarımı. Sosyal ağ siteleri, wiki’ler, günlükler (blogs) ve folksonomiler gibi Web tabanlı toplulukların ve barındırılan hizmetlerin gelişmesi ve evrimleşmesi Kaynak:
20
Kaynak: O’Reilly (2005); http://en.wikipedia.org/wiki/Web_2.0
Web 2.0 Özellikleri Platform olarak Web Kullanıcı katılımı yoluyla ortak akıl Dinamik içerik Paketlenmiş yazılım yerine hizmetler Hafif programlama modelleri Web standartları ve ölçeklenebilirlik Zengin kullanıcı deneyimi açıklık özgürlük Kaynak: O’Reilly (2005);
21
Dijital Vatandaşlık Testi
Bunu okuyabilir misiniz? “kdz n colleG? ms em? U2 cn lrn txtN” Ipod’unuz (çocuklarınız ya da torunlarınızın değil) var mı? Wii’ı denediniz mi? En çok hangi oyunu beğendiniz? Akıllı telefon kullanıyor musunuz (yani, e-posta, video, fotoğraf özellikleri olan …)? Anında mesaj (IM) kullanıyor musunuz? Blog kullanıyor musunuz? Blog’dan ne öğreniyorsunuz? “Lonely Girl 15”in kim olduğunu biliyor musunuz? TV olmadan TV programlarını izlemek için üç popüler yol önerebilir misiniz? Hiç Starbucks’ta WiFi kullandınız mı? “Mashup” sitelerinin önemini biliyor musunuz? Mash Up yarışmasına katıldınız mı? MID ne demektir? Sharepoint mi yoksa Wiki mi daha fazla işbirliği olanağı sağlar? Aralarındaki fark nedir? 0-1 2-7 11-12 Fosiller Göçmenler Yerliler 8-10 Sonradan vatandaşlığa kabul edilenler Do you IM? Do you Blog? What do you learn from it? Virtual Water cooler and Social book marking Do you know the importance of “mashup” sites? Have you competed in a Mash Up competition? What is more collaborative Sharepoint or Wiki and what is the difference? Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 21 21
22
Dijital Yerliler Bilgiye hızlı erişim Paralel işleme
Metin yerine grafik Rastgele erişim (hipermetin) Sürekli ağ üzerinde Oyunlar
23
Dijital Göçmenler
24
Dijital Göçmenler – Dijital Yerliler Örneği
Dijital göçmen-dijital yerli spektrumunda neredesiniz? Bilgiyi kişiselleştirmek için Mashup’ları kullanıyor; Uygulamalar için “Pipes “ı kullanıyor Web’i kişiselleştirmek için RSS kullanıyor Web’e bağlı taşınabilir MP3 çalar E-posta/adi posta kavramıyla mücadele halinde; Wiki veya blog’lar hakkında hiçbir fikri yok “Bağlantılı olma”yı varsayar ve gerektirir İsteklere cevap verirler Gezgin sosyal yazılım kullanırlar Kablosuz resim ve TV telefonları Anında bağlantılılık DY’ler niçin Sosyal Ağlardan hoşlanırlar? DY’ler niçin Sosyal Bookmark’ları kullanırlar? The real question is not can the DI be taught to understand, appreciate and use the new capabilities but rather will he ever understand the motivation. The story of the trip to a restaurant is used here to explain that DI would never “write a review’ they do not see the internet and world wide web as a place to contribute to but rather draw from. The two groups see the process in very different lights. Good question SO WHAT Kablosuz telefon bilgisayar oluyor (Eposta, Web IM . Video vs) Kablosuz haritalı el bilgisayarları Tamamen bağlı….. …tamamen dijital …birden çok görevi yapabilir … …tamamen gezgin (veri, görüntü, ses) ...”Uzunçalar”/“plak” nedir bilmezler Dijital Yerli 24 Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 24
25
Bilgi kaynakları + İnsanların bilgi kaynaklarıyla ve birbirleriyle ilişkileri
Google’ın misyonu “dünyanın içeriğini düzenlemek”, sosyal ağlarınki ise “dünyanın insanlarını” Bilgi erişim artık sadece bilgi kaynakları merkezli olmamalı, insanlar arasındaki ilişkilere de odaklanmalı (kaynak merkezli –ilişki merkezli yaklaşım) (Lagoze, 2000) Kişiselleştirme Tavsiye sistemleri Standart içerikle kullanıcının yarattığı içeriğin birleştirilmesi Web 3.0: Social semantic Web Resource-centric vs. relationship centric approach to information management (Lagoze, 2000) Current information management practices are resource-centric Web 2.0 requires relationship-centric approach to resources and users Personalization Offering personalized content to recognized users based on their individual characteristics, preferences and privileges, access methods, and so on Keeping user-created content with the standard content Recommendation systems “Circulation systems typically break the link between a patron and a book that has been borrowed when that book is returned.” Lynch (2001) Merging user-created content with the standard content Tags, comments, reviews, ratings, personalized copies of e-books … Infrastructure Maintenance Social semantic Web (Web 3.0
26
Bilgi Erişim Tanımı “bilgi toplama, sınıflama, kataloglama, depolama, büyük miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi kısa sürede üretme (veya gösterme) tekniği ve süreci”
27
Bilgi Erişim Sorunu Wells, “World Encyclopedia” (1936)
Bush, “As we may think,” Atlantic Monthly, (1945) Memex (memory expansion) “bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952) Otomatik dizinleme – KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960’lar) Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, ) Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektör uzayı modeli (Gerard Salton, 1961) İstatistiksel ağırlıklandırma (tf*idf, 1970’ler) Dil modelleri (Ponte-Croft, 1998) Performans ölçümleri Cranfield, Medlars, SMART, STAIRS, TREC, (Cleverdon, Lancaster, Salton, Blair-Maron, Harman) Bilginin giderek artan fragmantasyonu Bütüncül ya da “büyük resim” düşüncesinin ifadesi 1. Sistem felsefesi Genel Sistem Kuramı Ludwig von Bertalanffy, 19. Yüzyıl ortaları Sistem analizi C.A. Cutter, 1876, Kataloğun amaçları 2. Bilim felsefesi Mantıksal pozitivizm Doğrulanabilirlik Değişkenlerin işletimselleştirilmesi Farklı değişkenler arasında ilişki kurma Anma-duyarlık ilişkisi (Cyril Cleverdon, 1950’ler) Dizin spesifisitesi, dizin derinliği, sözdağarı büyüklüğü gibi etmenlerin erişim performansına etkileri 3. Dil felsefesi Doğrulanabilirlik dilbilimsel bir ilke Dilbilimsel çözümleme felsefesi (Wittgenstein) Bir sözcüğün anlamını belirleyen onun kullanım biçimidir
28
Bilgi Erişimin Entellektüel Temelleri
Sistem felsefesi Bilim felsefesi Dil felsefesi Bilginin giderek artan fragmantasyonu Bütüncül ya da “büyük resim” düşüncesinin ifadesi 1. Sistem felsefesi Genel Sistem Kuramı Ludwig von Bertalanffy, 19. Yüzyıl ortaları Sistem analizi C.A. Cutter, 1876, Kataloğun amaçları 2. Bilim felsefesi Mantıksal pozitivizm Doğrulanabilirlik Değişkenlerin işletimselleştirilmesi Farklı değişkenler arasında ilişki kurma Anma-duyarlık ilişkisi (Cyril Cleverdon, 1950’ler) Dizin spesifisitesi, dizin derinliği, sözdağarı büyüklüğü gibi etmenlerin erişim performansına etkileri 3. Dil felsefesi Doğrulanabilirlik dilbilimsel bir ilke Dilbilimsel çözümleme felsefesi (Wittgenstein) Bir sözcüğün anlamını belirleyen onun kullanım biçimidir
29
Dil Felsefesi ve Bilgi Erişim
Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü Sistematik dizinleme (J. Otto Kaiser) Dilbilimsel yapılar Sözdağarı Anlambilim Sözdizimi Kataloglama, sınıflama, dizinleme Basit terimler anlamsal kategorilere ayrıldı. Bu kategorilere göre tanımlanmış sözdizim kuralları kullanılarak birleşik terimler inşa edildi
30
Sınıflama Kuramı Sınıflama dile dayanıyor Dil belirsizlikler içeriyor
Kavramlar üzerinde anlaşma sağlamak zor Domates “meyve” mi “sebze” mi? “Alternatif tıp” hangi konuya girer? Felsefe? Din? Sağlık ve tıp? Webster’da “domates” şöyle tanımlanıyor: “kırmızı ya da sarımtırak sulu bir meyve, sebze olarak kullanılır, bitki olarak yumuşak, kabuksuz meyvedir” Aslında teknik olarak domates bir meyve (berrey), ama 1893’de ABD Anayasa Mahkemesi domatesin sebze olduğuna karar veriyor. West Indies’ten domates ithal eden John Nix, sebze ithaline konulan %10’luk gümrük vergisini ödememek için dava açıyor. Nix domatesin meyve olduğunu savunuyor. Mahkeme ise domatesin meyve gibi tatlı olarak değil de sebze olarak tüketildiğini göz önünde bulundurarak domatesin sebze olduğuna hükmediyor. Kaynak: Denise Grady, “Best Bite of Summer”, Self 19(7): , July 1997’den aktaran: Louis Rosenfeld and Peter Norville, Information architecture for the World Wide Web. Sebastopol, CA: O’Reilly, 1998. (Aslında ABD Anayasa Mahkemesi daha Wittgenstein doğmadan Wittgensteincı bir yorum yapmış burada: bir sözcüğün anlamını kullanım belirler. Belgeleri tanımlamak mekanik bir süreç değil Entellektüel – otomatik dizinleme (“bağıntılı dizinleme”) Belli sözcüklerin varlığı/yokluğu İstatistiksel dizinleme Dildeki belirsizlik Tanımlar üzerinde anlaşma Terimlerin sınıflandırılması
31
Bilgi Erişimin Temel İkilemi
“Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği” (Hjerrpe) Durum “sözlük” kelimesinin anlamını bilmeyen bir kişinin içinde bulunduğu çıkmaza benzetilebilir. Sözlük kelimesinin anlamını bilmiyorsa bilmediğini öğrenmek için sözlüğe bakmayı nasıl akıl edecek?
32
İdeal Bilgi Erişim Sistemi
Kullanıcı açısından bakıldığında ideal bir bilgi erişim sisteminin: Derlem üzerindeki bütün bilgi ya da belgeye erişim sağlaması, Arama sonuçlarının çok hızlı bir biçimde sunması, Erişilen bütün sonuçların güncel olması, Arama sonucu erişilen bütün belgelerin sorgu ile ilgili olması, Derlem üzerinde sorgu ile ilgili bütün ilgili belgelere erişilebilmesi, Sorgu ile en ilgili belgelerin erişim çıktısında en üstte daha az ilgililerin ise daha alt sıralarda yer alması gereksinimlerini yerine getirmesi beklenir. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
33
İdeal Bilgi Erişim Sistemi
Ancak pratikte, kullanıcıların bilgi ihtiyaçlarını ifade etmek için seçtikleri terimlerle belgelerdeki terimlerin eşleştirilmesi mantığı üzerinde çalışan günümüz popüler bilgi erişim sistemlerinin bu gereksinimlerin tamamını ya da pek çoğunu aynı anda yerine getirmesinin imkansız olduğu söylenebilir. Başka bir deyişle, bir ya da iki arama kelimesi ile kullanıcılar bilgi erişim sistemlerinin mucize yaratmasını beklemektedirler. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
34
İdeal Bilgi Erişim Sistemi
Pratikte ideal bilgi erişim sistemini gerçekleştirmek olanaksız gibi görünse de, kullanıcı gereksinimlerini mümkün olduğunca fazla karşılayacak sistemlerin geliştirilmesi için yoğun çalışmalar yapılıyor. Bunlardan bazıları: Farklı bilgi erişim sistemlerinin birleştirilmesi (meta search), Kişiselleştirilmiş arama (personalized search), Anlamsal arama (semantic search), Web 3.0, Doğal dil işleme araçlarının kullanılması (Natural Language Processing) ve farklı diller için yerelleştirmeler Soru yanıtlama sistemleri (question answering) what is the capital of turkey? Çoklu ortam bilgi erişim sistemleri (multimedia retrieval) Konu tespit ve takip sistemleri (topic detection and tracking)
35
Bilgiye Erişim ve Veriye Erişim Arasındaki Fark
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval Veriye Erişim
36
Bilgi Erişim Sistemleri İşlevsel Mimarisi
Bir bilgi erişim sisteminin temel bileşenleri: 1. Bir belge derlemi (ya da bu belgeleri temsil eden içerik belirteçlerini içeren tutanaklar), 2. Kullanıcıların sorgu cümleleri, 3. Kullanıcıların sorgu cümlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karşılaştırarak ilgili belgeleri belirlemek için kullanılan bir erişim kuralı ön yüz organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval arka yüz (Tonta, Bitirim, ve Sever, 2002) ön yüz
37
Bilgi Erişim Sistemleri İşlevsel Mimarisi
Bilgi ihtiyacı (veya kullanıcı sorgusu): Bilgi ihtiyacı bir düz metinle (doğal dille) ifade edilebileceği gibi dizin terimleri ve aralarındaki ilişkiler ("ve", "veya", "ve-değil", "ise/eğer", vb.) çerçevesinde de tanımlanabilir. Erişim çıktısı: Eldeki sorgu ifadesinin belgeler ile eşleştirilmesiyle oluşturulur. Yani sistemin, belge derlemi (koleksiyonu) içinde sunulan sorgu ifadesi ile ilgili olduğunu "düşündüğü" belgeleri topladığı havuza (ya da “küme”ye) erişim çıktısı adını vermekteyiz. Erişim çıktısındaki belgeler kullanıcı bilgi ihtiyacına yakınlık derecesine göre azalan sırada sıralanırlar. Geri Bildirim: Sistem tarafından döndürülen belge çıktısının kullanıcının bilgi ihtiyacını karşılamaktan uzak olduğu durumlarda, kullanıcı geribildirim sürecini başlatarak daha kaliteli bir belge çıktısı elde etmek isteyebilir. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
38
(Baeza-Yates ve Ribiero-Neto, 1999)
Bilgiye Erişim Süreci organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval (Baeza-Yates ve Ribiero-Neto, 1999)
39
Belge Erişim Sisteminin Mantıksal Düzenlemesi
Belgeler Kullanıcılar Gömü - Sözlük Sorgu formülasyonu Dizinleme Dizin tutanakları Erişim kuralı Formel sorgu cümlesi Kaynak: Maron, 1984
40
Web İçin Örnek Bilgi Erişim Mimarisi
41
İçerik Terimleri ve Belge Gösterimi
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval (Dinçer, 2004)
42
İçerik Terimleri ve Belge Gösterimi
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval (Baeza-Yates ve Ribiero-Neto, 1999)
43
Düze Metin Olmayan Belgelerde Durum Nedir?
Düz Metin (Plain Text): Dosya içerisinde karakterler yazıldıkları biçimde (ASCII) olarak saklanırlar (*.txt). Diğer Metin Biçimleri: Karakterler dosya içerisinde özel bir biçimde (format) tutulur. Bu tür verileri okumak için özel uygulamalar gerekir. doc Word pdf Acrobat Reader xls Microsoft Excel ppt Microsoft Powerpoint Düz metin olmayan belgelerin dizinlenebilmesi için düz metne çevrilmesi gerekir (pars). organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
44
Düze Metin Olmayan Belgelerde Durum Nedir?
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
45
Metin Ön İşleme Nedir? Belge düz metne çevrilir,
Metin içerisindeki tüm noktalama ve özel işaretler çıkarılır, Metin içerisindeki bütün harfler küçük harfe çevrilir, Birden fazla olan boşluklar atılır ve kelimeler ayıklanır organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
46
Türkçe Durma Kelimeleri (Stop Words) Listesi
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
47
İngilizce Durma Kelimeleri Listesi
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
48
Durma Kelimeleri Listesi Nasıl Oluşturulur?
Elimizde bulunan 1000 adet belgeden kelimelerin kullanılma sıklıkları ile ilgili bir istatistik çıkarılmış. Buna göre bazı kelimelerin sıklıkları şu şekildedir: Ve 2542 adet Veya 2030 adet Başkent 1200 adet Ankara 950 adet Bilgisayar 12 adet Algoritma 3 adet Durma kelimeleri neler olabilir? organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
49
Durma Kelimeleri Listesi Nasıl Oluşturulur?
Sınırlı alanlarda çalışılıyor ise alana özel durma kelimelerinin belirlenmesi gerekir. Örneğin, derlem bilgisayar grafiği ile ilgili makalelerden oluşuyorsa bilgisayar ve grafik gibi kelimelerin ayırt edici özelliği yoktur. Eğer derlem çok büyük ise (İnternet gibi) dil için durma kelimeleri listesi elde edilmelidir. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
50
Durma Kelimeleri Listesi Nasıl Oluşturulur?
organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval X ekseni: tekil kelimeler Y ekseni: kelimenin geçtiği doküman sayısı Hangi kelimeler durma kelimeleridir? (%80 kuralı)
51
Gövdeleme (stemming) Kök: Kelimenin her türlü ek (yapım ve çekim) çıkarıldıktan sonra kalan anlamlı bölümüdür. Kelime: yaptırmak Kök: yap Gövde: İsim ve fiil köklerinden yapım ekleriyle türetilmiş kelime. Kelime: Evli (ev-li), sevdirmek (sev-dir-mek). organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
52
Gövdeleme (stemming) Gövdeleme: Belge içerisindeki içerik belirteçlerinde (ya da kelimelerde) yapım eklerinin tutulup, çekim eklerinin çıkarılması anlamına gelir. İçerik belirteçlerinde gövdeleme yapılması sorgular ve belgeler arasındaki kesişme olasılığını artırdığı için bilgi erişimde başarıma olumlu etkisi olduğu düşünülmektedir. Örneğin, 3 farklı belgede geçen 3 kelime: D1 numarama, D2 numarası, D3 numaram olsun. Eğer sorgu olarak “numara” kelimesi yollanırsa BES 3 dokümanı da eşleştiremez Gövdeleme yapılması durumunda: D1 numara D2 numara D3 numara Sorgu numara organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
53
Gövdeleme (stemming) nasıl yapılır?
Sözlük tabanlı yöntemler Ek atma tabanlı yöntemler organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval
Benzer bir sunumlar
© 2024 SlidePlayer.biz.tr Inc.
All rights reserved.