Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

1 BBY 220 - Bilgi Erişim İlkeleri Güven KÖSE Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~gkose/

Benzer bir sunumlar


... konulu sunumlar: "1 BBY 220 - Bilgi Erişim İlkeleri Güven KÖSE Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~gkose/"— Sunum transkripti:

1 1 BBY Bilgi Erişim İlkeleri Güven KÖSE Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~gkose/

2 2 Ders Planı Giriş, Bilgi Erişimin Tarihçesi Bilgi Erişim Sorunu ve Kavramları Bilgi Erişim Sistemlerinin Bileşenleri:İçerik Belirteçleri, Belgeler, Sorgular Erişim Fonksiyonları: Boolean Model, Vektör Uzayı Modeli, Dil Modeli Bilgi Erişim Sistemlerinde Etkinlik ve Performans Değerlendirme Arama Motorları ve Bilgiye Erişim Arama Motorlarında Web Tarama ve Dizinleme İşlemleri Link Analizi İlgililik Geri Bildirimi Sorgu Genişletme Teknikleri Gizli Anlam Dizinleme ve Ontolojiler

3 3 Ders Kitabı ve Yardımcı Kaynaklar Salton, G. and McGill, M.J. Introduction to Modern Information Retrieval. New York: McGraw-Hill, Baeza-Yates, R. and Ribeiro. Modern Information Retrieval, Baeza- Yates and Ribeiro, Addison Wesley, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press (Tam Metin) Tonta, Y., Bitirim, Y. ve Sever, H. Türkçe Arama Motorlarında Performans Değerlendirme. (Performance Evaluation of Turkish Search Engines). Ankara: Total Bilişim Ltd. Şti., xvi, 152 s. (ISBN ). (Tam Metin) Konuyla ilgili makaleler

4 4 Değerlendirme Ara Sınav (%40) Final (%60)

5 5 Bilgi Toplumuna Giden Yol Toffler (1981)

6 6 Bilginin Değişen Rolü Tarım Toplumunda bilgi sorun çözmede yardımcı olan kritik bir “girdi” idi Sanayi Toplumunda ticari bir ürün, en temel ekonomik kaynak, “kalkınmanın can damarı” haline gelen bilgi “çözümün” kendisi oldu. Bilgi Toplumunda ise yaratılabilecek, iletilebilecek, depolanabilecek sınırsız bilgi giderek bir “sorun” haline gelmeye başladı. (http://discovery.cofc.edu/about.html).

7 7 Bilgi Teknolojisi Dünyayı Nasıl Değiştiriyor? Eşli, aygıttan aygıta ağ bağlantısı Her aygıt ve uygulamada kesin yerel mekan bilgisi de gömülü Mobil cihazlarla bilgiye zaman ve makandan bağımsız erişim sağlanabiliyor Source: Gage, 2002

8 8 Bilgi... Bilgi depolama ortamları –beyin, kültürel birikim, “dış” ortamlar Bilgi iletim ortamı –dağıtık ağlar: 14 saniyede Kongre Kütüphanesi’nin içeriğini bir yerden bir yere iletmek mümkün Bilgi işleme ortamları –beyin, bilgisayarlar, insanlardan daha “akıllı” makineler, “yapay beyin”

9 9 Depolama Maliyetleri Kaynak:

10 10 Depolama Maliyetleri 0,42 USD Fiyatlar her yıl %45 düşüyor 421 USD Kaynak:

11 11 İletim Maliyetleri Kaynak: ULAKBİM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml) Mbps = $19 1 Mbps = $2,4

12 12 Bilgi Patlaması Exabyte (5 x byte) 2002’de dünyada üretilen yeni bilgi miktarı (5 x byte) 5 Exabyte’lık bilgi = 37,000 yeni Kongre Kütüphanesi! “Yüzey web”de yaklaşık 100 milyar belge var (1670 Terabyte) var “Derin web”de 550 milyar belge var(dı) (91857 Terabyte)  Kaynak: BrightPlanet & Lyman and Varian

13 13 Bir Exabyte (EB) ne kadar büyük? Kilobyte (KB) 1,000 bytes OR 10 3 bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph. Megabyte (MB) 1,000,000 bytes OR 10 6 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM. Gigabyte (GB) 1,000,000,000 bytes OR 10 9 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals. Terabyte (TB) 1,000,000,000,000 bytes OR bytes 1 Terabyte: trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database. Petabyte (PB) 1,000,000,000,000,000 bytes OR bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in Petabytes: All printed material. Exabyte (EB) 1,000,000,000,000,000,000 bytes OR bytes 2 Exabytes: Total volume of information generated in Exabytes: All words ever spoken by human beings. Kaynak: How much information 2003, Tablo 1.1

14 14 Tablo ’de dünyada üretilen özgün dijital bilgi üretimi. İyimser tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital içeriğin sıkıştırıldığı varsayıldı. Depolama ortamı2002 Üst tahmin (Terabyte olarak) 2002 Alt tahmin (Terabyte olarak) Üst tahmin Alt tahmin % Değişim Üst tahminler Kâğıt1, ,200240%36 Film420,25476,69431,69058,209%-3 Manyetik ,416,2302,779,7602,073,760%87 Optik %28 TOPLAM5,609,1213,416,2813,212,7312,132,238%74.5 Kaynak: Lyman ve Varian Bilgi Artışı

15 15 Bilgi Miktarı 5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit) ABD’de her yıl 80 milyar fotoğraf çekiliyor 2 milyar röntgen filmi çekiliyor Günde 610 milyar e-posta mesajı gönderiliyor Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor

16 16 5 Exabayt  161 Exabayt

17 17 Depolama Kapasitesi

18 18 Web 2.0 Nedir? Source:

19 19 Web 2.0 Tanımı Yaratıcılığı artırmayı, bilgi paylaşımını ve en önemlisi kullanıcılar arasındaki işbirliğini amaçlayan Web teknolojisi ve web tasarımı. Sosyal ağ siteleri, wiki’ler, günlükler (blogs) ve folksonomiler gibi Web tabanlı toplulukların ve barındırılan hizmetlerin gelişmesi ve evrimleşmesi Kaynak:

20 20 Web 2.0 Özellikleri Platform olarak Web Kullanıcı katılımı yoluyla ortak akıl Dinamik içerik Paketlenmiş yazılım yerine hizmetler Hafif programlama modelleri Web standartları ve ölçeklenebilirlik Zengin kullanıcı deneyimi açıklık özgürlük Kaynak: O’Reilly (2005);

21 21 Dijital Vatandaşlık Testi 1.Bunu okuyabilir misiniz? “kdz n colleG? ms em? U2 cn lrn txtN” 2.Ipod’unuz (çocuklarınız ya da torunlarınızın değil) var mı? 3.Wii’ı denediniz mi? En çok hangi oyunu beğendiniz? 4.Akıllı telefon kullanıyor musunuz (yani, e-posta, video, fotoğraf özellikleri olan …)? 5.Anında mesaj (IM) kullanıyor musunuz? Blog kullanıyor musunuz? Blog’dan ne öğreniyorsunuz? 6.“Lonely Girl 15”in kim olduğunu biliyor musunuz? 7.TV olmadan TV programlarını izlemek için üç popüler yol önerebilir misiniz? 8.Hiç Starbucks’ta WiFi kullandınız mı? 9.“Mashup” sitelerinin önemini biliyor musunuz? Mash Up yarışmasına katıldınız mı? 10.MID ne demektir? 11.Sharepoint mi yoksa Wiki mi daha fazla işbirliği olanağı sağlar? Aralarındaki fark nedir? Fosiller Göçmenler Yerliler 8-10 Sonradan vatandaşlığa kabul edilenler Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age

22 22 Dijital Yerliler Bilgiye hızlı erişim Paralel işleme Metin yerine grafik Rastgele erişim (hipermetin) Sürekli ağ üzerinde Oyunlar

23 23 Dijital Göçmenler

24 24 Di j ital Göçmenler Dijital Göçmenler – Dijital Yerliler Örneği Tamamen bağlı….. …tamamen dijital …birden çok görevi yapabilir … …tamamen gezgin (veri, görüntü, ses)...”Uzunçalar”/“plak” nedir bilmezler Kablosuz haritalı el bilgisayarları Web’e bağlı taşınabilir MP3 çalar E-posta/adi posta kavramıyla mücadele halinde; Wiki veya blog’lar hakkında hiçbir fikri yok Kablosuz resim ve TV telefonları Anında bağlantılılık Dijital göçmen-dijital yerli spektrumunda neredesiniz? DY’ler niçin Sosyal Ağlardan hoşlanırlar? DY’ler niçin Sosyal Bookmark’ları kullanırlar? Bilgiyi kişiselleştirm ek için Mashup’ları kullanıyor;Bilgiyi kişiselleştirm ek için Mashup’ları kullanıyor; Uygulamalar için “Pipes “ı kullanıyorUygulamalar için “Pipes “ı kullanıyor Web’i kişiselleştirm ek için RSS kullanıyorWeb’i kişiselleştirm ek için RSS kullanıyor Kablosuz telefon bilgisayar oluyor (Eposta, Web IM. Video vs) Dijital Yerli “Bağlantılı olma”yı varsayar ve gerektirir İsteklere cevap verirler Gezgin sosyal yazılım kullanırlar Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age

25 25 Bilgi kaynakları + İnsanların bilgi kaynaklarıyla ve birbirleriyle ilişkileri Google’ın misyonu “dünyanın içeriğini düzenlemek”, sosyal ağlarınki ise “dünyanın insanlarını” Bilgi erişim artık sadece bilgi kaynakları merkezli olmamalı, insanlar arasındaki ilişkilere de odaklanmalı (kaynak merkezli –ilişki merkezli yaklaşım) (Lagoze, 2000) Kişiselleştirme Tavsiye sistemleri Standart içerikle kullanıcının yarattığı içeriğin birleştirilmesi Web 3.0: Social semantic Web

26 26 Bilgi Erişim Tanımı “bilgi toplama, sınıflama, kataloglama, depolama, büyük miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi kısa sürede üretme (veya gösterme) tekniği ve süreci”

27 27 Bilgi Erişim Sorunu Wells, “World Encyclopedia” (1936) Bush, “As we may think,” Atlantic Monthly, (1945) –Memex (memory expansion) “bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952) Otomatik dizinleme – KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960’lar) Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, ) Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektör uzayı modeli (Gerard Salton, 1961) İstatistiksel ağırlıklandırma (tf*idf, 1970’ler) Dil modelleri (Ponte-Croft, 1998) Performans ölçümleri –Cranfield, Medlars, SMART, STAIRS, TREC, (Cleverdon, Lancaster, Salton, Blair-Maron, Harman)

28 28 Bilgi Erişimin Entellektüel Temelleri Sistem felsefesi Bilim felsefesi Dil felsefesi

29 29 Dil Felsefesi ve Bilgi Erişim Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü Sistematik dizinleme (J. Otto Kaiser) Dilbilimsel yapılar –Sözdağarı –Anlambilim –Sözdizimi Kataloglama, sınıflama, dizinleme

30 30 Sınıflama Kuramı Sınıflama dile dayanıyor Dil belirsizlikler içeriyor Kavramlar üzerinde anlaşma sağlamak zor Domates “meyve” mi “sebze” mi? “Alternatif tıp” hangi konuya girer? –Felsefe? –Din? –Sağlık ve tıp?

31 31 Bilgi Erişimin Temel İkilemi “Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği” (Hjerrpe)

32 32 İdeal Bilgi Erişim Sistemi Kullanıcı açısından bakıldığında ideal bir bilgi erişim sisteminin: 1)Derlem üzerindeki bütün bilgi ya da belgeye erişim sağlaması, 2)Arama sonuçlarının çok hızlı bir biçimde sunması, 3)Erişilen bütün sonuçların güncel olması, 4)Arama sonucu erişilen bütün belgelerin sorgu ile ilgili olması, 5)Derlem üzerinde sorgu ile ilgili bütün ilgili belgelere erişilebilmesi, 6)Sorgu ile en ilgili belgelerin erişim çıktısında en üstte daha az ilgililerin ise daha alt sıralarda yer alması gereksinimlerini yerine getirmesi beklenir.

33 33 İdeal Bilgi Erişim Sistemi Ancak pratikte, kullanıcıların bilgi ihtiyaçlarını ifade etmek için seçtikleri terimlerle belgelerdeki terimlerin eşleştirilmesi mantığı üzerinde çalışan günümüz popüler bilgi erişim sistemlerinin bu gereksinimlerin tamamını ya da pek çoğunu aynı anda yerine getirmesinin imkansız olduğu söylenebilir. Başka bir deyişle, bir ya da iki arama kelimesi ile kullanıcılar bilgi erişim sistemlerinin mucize yaratmasını beklemektedirler.

34 34 İdeal Bilgi Erişim Sistemi Pratikte ideal bilgi erişim sistemini gerçekleştirmek olanaksız gibi görünse de, kullanıcı gereksinimlerini mümkün olduğunca fazla karşılayacak sistemlerin geliştirilmesi için yoğun çalışmalar yapılıyor. Bunlardan bazıları: Farklı bilgi erişim sistemlerinin birleştirilmesi (meta search), Kişiselleştirilmiş arama (personalized search), Anlamsal arama (semantic search), Web 3.0, Doğal dil işleme araçlarının kullanılması (Natural Language Processing) ve farklı diller için yerelleştirmeler Soru yanıtlama sistemleri (question answering)  what is the capital of turkey? Çoklu ortam bilgi erişim sistemleri (multimedia retrieval) Konu tespit ve takip sistemleri (topic detection and tracking)

35 35 Bilgiye Erişim ve Veriye Erişim Arasındaki Fark Bilgiye Erişim Veriye Erişim

36 36 Bilgi Erişim Sistemleri İşlevsel Mimarisi Bir bilgi erişim sisteminin temel bileşenleri: 1. Bir belge derlemi (ya da bu belgeleri temsil eden içerik belirteçlerini içeren tutanaklar), 2. Kullanıcıların sorgu cümleleri, 3. Kullanıcıların sorgu cümlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karşılaştırarak ilgili belgeleri belirlemek için kullanılan bir erişim kuralı ön yüz arka yüz (Tonta, Bitirim, ve Sever, 2002)

37 37 Bilgi Erişim Sistemleri İşlevsel Mimarisi Bilgi ihtiyacı (veya kullanıcı sorgusu): Bilgi ihtiyacı bir düz metinle (doğal dille) ifade edilebileceği gibi dizin terimleri ve aralarındaki ilişkiler ("ve", "veya", "ve-değil", "ise/eğer", vb.) çerçevesinde de tanımlanabilir. Erişim çıktısı: Eldeki sorgu ifadesinin belgeler ile eşleştirilmesiyle oluşturulur. Yani sistemin, belge derlemi (koleksiyonu) içinde sunulan sorgu ifadesi ile ilgili olduğunu "düşündüğü" belgeleri topladığı havuza (ya da “küme”ye) erişim çıktısı adını vermekteyiz. Erişim çıktısındaki belgeler kullanıcı bilgi ihtiyacına yakınlık derecesine göre azalan sırada sıralanırlar. Geri Bildirim: Sistem tarafından döndürülen belge çıktısının kullanıcının bilgi ihtiyacını karşılamaktan uzak olduğu durumlarda, kullanıcı geribildirim sürecini başlatarak daha kaliteli bir belge çıktısı elde etmek isteyebilir.

38 38 Bilgiye Erişim Süreci (Baeza-Yates ve Ribiero-Neto, 1999)

39 39 Belge Erişim Sisteminin Mantıksal Düzenlemesi Dizin tutanakları Gömü - Sözlük Dizinleme Belgeler Kullanıcılar Sorgu formülasyonu Formel sorgu cümlesi Erişim kuralı Kaynak: Maron, 1984

40 40 Web İçin Örnek Bilgi Erişim Mimarisi

41 41 İçerik Terimleri ve Belge Gösterimi (Dinçer, 2004)

42 42 İçerik Terimleri ve Belge Gösterimi (Baeza-Yates ve Ribiero-Neto, 1999)

43 43 Düze Metin Olmayan Belgelerde Durum Nedir? Düz Metin (Plain Text): Dosya içerisinde karakterler yazıldıkları biçimde (ASCII) olarak saklanırlar (*.txt). Diğer Metin Biçimleri: Karakterler dosya içerisinde özel bir biçimde (format) tutulur. Bu tür verileri okumak için özel uygulamalar gerekir. doc  Word pdf  Acrobat Reader xls  Microsoft Excel ppt  Microsoft Powerpoint Düz metin olmayan belgelerin dizinlenebilmesi için düz metne çevrilmesi gerekir (pars).

44 44 Düze Metin Olmayan Belgelerde Durum Nedir?

45 45 Metin Ön İşleme Nedir? Belge düz metne çevrilir, Metin içerisindeki tüm noktalama ve özel işaretler çıkarılır, Metin içerisindeki bütün harfler küçük harfe çevrilir, Birden fazla olan boşluklar atılır ve kelimeler ayıklanır

46 46 Türkçe Durma Kelimeleri (Stop Words) Listesi

47 47 İngilizce Durma Kelimeleri Listesi

48 48 Durma Kelimeleri Listesi Nasıl Oluşturulur? Elimizde bulunan 1000 adet belgeden kelimelerin kullanılma sıklıkları ile ilgili bir istatistik çıkarılmış. Buna göre bazı kelimelerin sıklıkları şu şekildedir: Ve  2542 adet Veya  2030 adet Başkent  1200 adet Ankara  950 adet Bilgisayar  12 adet Algoritma  3 adet Durma kelimeleri neler olabilir?

49 49 Durma Kelimeleri Listesi Nasıl Oluşturulur? Sınırlı alanlarda çalışılıyor ise alana özel durma kelimelerinin belirlenmesi gerekir. Örneğin, derlem bilgisayar grafiği ile ilgili makalelerden oluşuyorsa bilgisayar ve grafik gibi kelimelerin ayırt edici özelliği yoktur. Eğer derlem çok büyük ise (İnternet gibi) dil için durma kelimeleri listesi elde edilmelidir.

50 50 Durma Kelimeleri Listesi Nasıl Oluşturulur? X ekseni: tekil kelimeler Y ekseni: kelimenin geçtiği doküman sayısı Hangi kelimeler durma kelimeleridir? (%80 kuralı)

51 51 Gövdeleme (stemming) Kök: Kelimenin her türlü ek (yapım ve çekim) çıkarıldıktan sonra kalan anlamlı bölümüdür. Kelime: yaptırmak Kök: yap Gövde: İsim ve fiil köklerinden yapım ekleriyle türetilmiş kelime. Kelime: Evli (ev-li), sevdirmek (sev-dir-mek).

52 52 Gövdeleme (stemming) Gövdeleme: Belge içerisindeki içerik belirteçlerinde (ya da kelimelerde) yapım eklerinin tutulup, çekim eklerinin çıkarılması anlamına gelir. İçerik belirteçlerinde gövdeleme yapılması sorgular ve belgeler arasındaki kesişme olasılığını artırdığı için bilgi erişimde başarıma olumlu etkisi olduğu düşünülmektedir. Örneğin, 3 farklı belgede geçen 3 kelime: D1  numarama, D2  numarası, D3  numaram olsun. Eğer sorgu olarak “numara” kelimesi yollanırsa BES 3 dokümanı da eşleştiremez Gövdeleme yapılması durumunda: D1  numara D2  numara D3  numara Sorgu  numara

53 53 Gövdeleme (stemming) nasıl yapılır? Sözlük tabanlı yöntemler Ek atma tabanlı yöntemler


"1 BBY 220 - Bilgi Erişim İlkeleri Güven KÖSE Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~gkose/" indir ppt

Benzer bir sunumlar


Google Reklamları