Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

1 BBY 220 - Bilgi Erişim İlkeleri Erişim Fonksiyonları: Ters Dizin Kütükleri ve Boolean Model.

Benzer bir sunumlar


... konulu sunumlar: "1 BBY 220 - Bilgi Erişim İlkeleri Erişim Fonksiyonları: Ters Dizin Kütükleri ve Boolean Model."— Sunum transkripti:

1 1 BBY Bilgi Erişim İlkeleri Erişim Fonksiyonları: Ters Dizin Kütükleri ve Boolean Model

2 2 Erişim Fonksiyonu Erişim fonksiyonu, derlemde bulunan belgelerle kullanıcı sorgularının hangi oranda eşleştiğini bulan ve bu eşleşmeyi derecelendiren (skor değeri) yöntemdir. Erişim fonksiyonu, kullanıcı sorgusunu derlemde bulunan her bir belge ile teker teker karşılaştırarak her bir belge – sorgu çifti için bir benzerlik değeri üretir. Erişim fonksiyonu tarafından verilen her bir belge –sorgu skoru büyükten küçüğe doğru sıralanarak kullanıcıya sorgu ile ilgili olan belgelerin yer aldığı erişim çıktısı listesi sunulur. BES’de erişim fonksiyonu olarak: Boole Modeli, Vektör Uzayı Modeli, Dil Modeli, Olasılıksal Yöntemler, Gizli Anlam Dizinleme v.b. Yöntemler kullanılmaktadır.

3 3 Derlemdeki Belgeler Nasıl Saklanıyor? Bir Bilgi Erişim Sisteminde derlemdeki belgeler gerektiğinde hızlı bir biçimde erişilebilmesi için dizinlenerek (indeksleme) saklanır. Bilgi Erişim Sisteminde belgelerin tutulduğu sistematik yapıya dizin ya da indeks adı verilir. Bir dizin, derlemde bulunan her bir belgeye en hızlı biçimde erişimi sağlayan ve özel veri yapıları kullanılarak oluşturulan bir yapıdır. Dizinleme, verilere yavaş olan disk (Hard Disk) yerine çok daha hızlı olan ana hafızadan (RAM) erişimi mümkün kılar. BES’de derlemlerin boyutları düşünüldüğünde dizinleme olmadan arama sonuçlarına hızlı erişimin mümkün olmadığı açıktır.

4 4 Dizinleme ve Ters Dizin (Inverted Index) Kütüğü Derlemdeki Belgelerimiz: D 1 : bilgi erişim ve bilgi dizinleme D 2 : sanal dünya ve bilgi D 3 : kütüphane ve veri saklama D 4 : dünyada ekonomik durum D 5 : günlük ekonomik veriler D 6 : haftalık ve günlük mali veriler

5 5 Doküman – Terim Matrisi (Sözlük) TerimlerDokümanlar D1D1 D2D2 D3D3 D4D4 D5D5 D6D6 bilgi erişim dizinleme sanal dünyada kütüphane ve veri saklama ekonomik durum veriler haftalık veya günlük mali000001

6 6 Doküman – Terim Matrisi (Sözlük) Derlemin Özellikleri 6 farklı dokümandan oluşuyor Dokümanlarda toplam 23 kelime var Durma kelimeleri çıkarılmadı Gövdeleme yapılmadı Ters Dizin Kütüğünde Durum Ne? Sütun sayısı= 6 (Derlemdeki toplam doküman sayısı) Satır sayısı = 18 (Derlemdeki dokümanlarda bulunan farklı kelime sayısı) Ters dizin kütüğünün satırlarında bir sözlük yaratılıyor, bu sözlük derlemde geçen tüm kelimeleri içeriyor. Ters dizin kütüğündeki tüm dokümanlar için gerçek boyutuna bakılmadan sözlükteki kelime sayısı kadar yer ayrılıyor. Terim – doküman kesişmesinde ağırlıklandırma var/yok biçiminde yapılmış. Bir kelimenin bir doküman içerisinde birden fazla geçmesi önem taşımıyor. Pek çok belgede geçen kelimeler, diğerleri ile aynı ağırlığa sahip (örneğin, ve). Peki milyonlarca belge ve milyonlarca tekil kelimenin geçtiği derlemlerde (örneğin web arama motorları) ters dizin kütüğü nasıl olacak?

7 7 Ters Dizin Kütükleri Nasıl Oluşturuluyor? 1. Dokümanlar içerisinde geçen kelimelere ayrıştırılır (parsing) ve her bir kelime ilgili dokümanın numarası ile işaretlenir. DOC #1 Now is the time for all good men to come to the aid of their country DOC #2 It was a dark and stormy night in the country manor. The time was past midnight

8 8 Ters Dizin Kütükleri Nasıl Oluşturuluyor? 2. Tüm dokümanlar ayrıştırılıp tabloya eklendikten sonra tablo kelimelere göre alfabetik olarak sıralanır.

9 9 Ters Dizin Kütükleri Nasıl Oluşturuluyor? 3. Tek bir dokümanda geçen birden fazla kelime birleştirilir ve kelimenin belge içerisinde geçme sıklığı da tabloya eklenir.

10 10 Ters Dizin Kütükleri Nasıl Oluşturuluyor? 4. Tablo sözlük (dictionary) ve kayıtlar (postings) olmak üzere ikiye ayrılır.

11 11 Dizinleme ve Arama Derlemdeki Belgelerimiz: D 1 : bilgi erişim ve bilgi dizinleme D 2 : sanal dünyada bilgi D 3 : kütüphane ve veri saklama D 4 : dünyada ekonomik durum D 5 : günlük ekonomik veriler D 6 : haftalık veya günlük mali veriler Kullanıcı sorguları: Q 1 : bilgi Q 2 : bilgi erişim Q 3 : veri Q 1, Q 2 ve Q 3 sorguları için hangi belgelere erişim sağlanır? Q 1 için: D 1 ve D 2 (neden?) Q 2 için: ? Q 3 için: ? Peki Q 1 için D 1 ve D 2 hangi sırada gösterilir?

12 12 Boolean Erişim Fonksiyonu Kullanıcı tanımlı sorgu kelimelerinin hangi dokümanlarda geçtiğini ikili bir sınıflandırma tekniğine göre (1/0) belirler. Küme teorisi üzerine kuruludur. Sorgu kelimeleri ile doküman terimlerinin kesişmesi mantığı üzerinde çalışır. Eski kütüphane sistemleri üzerinde yoğun olarak kullanılmıştır. Günümüzde veritabanı sorgulama işlemlerine çok benzer bir biçimde çalışır. Örnek sorgu: “bilgi” AND “erişim” Yanıt: D 1

13 13 Küme Teorisi A NOT A A AND B A OR B NOT (A AND B) NOT (A OR B) (A OR B OR C)

14 14 Boolean Sorgu Cümleleri Boolean sorgular genellikle bool işleçleri (AND, OR, NOT) kullanılarak oluşturulur. Sorgu Formları: terim | NOT terim | terim AND terim | terim OR terim Sorgular işlenirken: Önce parantezler işlenir Soldan sağa doğru işletilir İşleme sırası NOT  AND  OR Örnek Sorgular: S1  bilgi S2  NOT bilgi S3  bilgi AND erişim S4  bilgi OR erişim Sorgu Değerlendirme: Eğer sorgu kelimesi dokümanda geçiyorsa sonuç=1 aksi takdirde sonuç=0

15 15 Boolean Sorgu Cümleleri Cat Cat OR Dog Cat AND Dog (Cat AND Dog) (Cat AND Dog) OR Collar (Cat AND Dog) OR (Collar AND Leash) (Cat OR Dog) AND (Collar OR Leash)

16 16 Boolean Sorgu Cümleleri Aşağıdaki matriste sütunlar dokümanları ifade etsin. X dokümanla kelimenin eşleştiğini gösterir. (Cat OR Dog) AND (Collar OR Leash) sorgusu için eşleşme durumu nedir?

17 17 Boolean Sorgu Cümleleri (Cat AND Dog) OR (Collar AND Leash) sorgusu için şimdi eşleşme durumu nedir?

18 18 Bool İşlemleri ve De Morgan’s Kuralları De Morgan’s Kuralı ¬ (a V b)  ( ¬ a) ( ¬ b) ¬ (a b)  ( ¬ a) V ( ¬ b) Bool İşleçlerinin Özellikleri

19 19 Bool İşlemleri ve De Morgan’s Kuralları Derlemdeki Belgelerimiz: D 1 : bilgi erişim ve bilgi dizinleme D 2 : sanal dünya ve bilgi D 3 : kütüphane ve veri saklama D 4 : dünyada ekonomik durum D 5 : günlük ekonomik veriler D 6 : haftalık ve günlük mali veriler Sorgular Q1  bilgi VEYA (bilgi VE erişim) = bilgi Q2  bilgi VE (sanal VEYA erişim) = (bilgi VE sanal) VEYA (bilgi VE erişim) Q3  bilgi VEYA NOT bilgi = 1 Q4  bilgi VE NOT bilgi = 0 Q5  NOT (bilgi VEYA veri) = (NOT bilgi) VE (NOT veri) Q6  NOT (bilgi VE veri) = (NOT bilgi) VEYA (NOT veri)

20 20 Ters Dizin Kütüğü ve Sorgular(Haftaya Devam….) TerimlerDokümanlarSorgu D1D1 D2D2 D3D3 D4D4 D5D5 D6D6 Q1Q1 bilgi erişim dizinleme sanal dünyada kütüphane ve veri saklama dünyada ekonomik durum günlük veriler haftalık veya günlük mal Sorgu: bilgi AND erişim Sorgu İşleme 1.Sorgu cümlesi sözlüğe göre bir vektör olarak ifade edilir 2.Sorgu cümlesi ile dizinde yer alan her bir doküman AND işlemine tabi tutulur. 3.Sonucun sıfırdan farklı olduğu dokümanlara erişim sağlanır

21 21 Ters Dizin Kütüğü ve Sorgular TerimlerDokümanlarSorgu D1D1 D2D2 D3D3 D4D4 D5D5 D6D6 Q1Q1 bilgi erişim dizinleme sanal dünyada kütüphane ve veri saklama dünyada ekonomik durum günlük veriler haftalık veya günlük mal Sorgu: bilgi AND erişim Sorgu İşleme 1.Sorgu cümlesi sözlüğe göre bir vektör olarak ifade edilir 2.Sorgu cümlesi ile dizinde yer alan her bir doküman AND işlemine tabi tutulur. 3.Sonucun sıfırdan farklı olduğu dokümanlara erişim sağlanır Ya da 1.Bilgi kelimesinin geçtiği doküman numaraları listelenir 2.Erişim kelimesinin geçtiği doküman numaraları listelenir 3.İki liste doküman numaralarına göre AND işlemine sokulur.

22 22 AND, OR ve NOT için doğruluk tabloları p¬p TF FT pq p ∧ qp ∧ q TTT TFF FTF FFF pq p ∨ qp ∨ q TTT TFT FTT FFF AND NOT OR

23 23 Ters Dizin Kütüğü ve Sorgular TerimlerDokümanlarSorgu D1D1 D2D2 D3D3 D4D4 D5D5 D6D6 Q1Q1 1.bilgi erişim dizinleme sanal dünyada kütüphane ve veri saklama dünyada ekonomik durum günlük veriler haftalık veya günlük mal bilgi D1 D2 erişim D1 AND D 1 : bilgi erişim ve bilgi dizinleme

24 24 Ters Dizin Kütüğü ve Sorgular TerimlerDokümanlarSorgu D1D1 D2D2 D3D3 D4D4 D5D5 D6D6 Q1Q1 1.bilgi erişim dizinleme sanal dünyada kütüphane ve veri saklama dünyada ekonomik durum günlük veriler haftalık veya günlük mal bilgi D1 D2 erişim D1 OR D 1 : bilgi erişim ve bilgi dizinleme D 2 : sanal dünya ve bilgi

25 25 Ters Dizin Kütüğü ve Sorgular TerimlerDokümanlarSorgu D1D1 D2D2 D3D3 D4D4 D5D5 D6D6 Q1Q1 1.bilgi erişim dizinleme sanal dünyada kütüphane ve veri saklama dünyada ekonomik durum günlük veriler haftalık veya günlük mal bilgi D1 D2 erişim D1 AND NOT D 2 : sanal dünya ve bilgi

26 26 Boolean Modelde Sorunlar Benzerlik derecelendirme yok : sorgu ile belgenin ne kadar ilgili olduğunu gösteren bir skor değeri üretilmiyor bunun yerine ilgili / ilgisiz (1/0) yargısı var. Eşleştirmelerde terim ağırlıllandırma yok: bir belge içerisinde 1 kez geçen terimle 100 kez geçen terim aynı ağırlıkta, bu belge içeriğini ifade eden değerli terimleri seçmemizi engelliyor. Sorgu oluşturmak zor: kullanıcıların bilgi ihtiyaçlarını ifade edebilmek için karmaşık sorgular kurabilmesi gerekiyor. Hata toleransı yok : bilgi ihtiyacı tam ifade edilmek zorunda, yaklaşık sonuç alma olasılığı yok.


"1 BBY 220 - Bilgi Erişim İlkeleri Erişim Fonksiyonları: Ters Dizin Kütükleri ve Boolean Model." indir ppt

Benzer bir sunumlar


Google Reklamları