Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

 Bilgi erişim sistemlerinde kullanılan erişim kuralları (fonksiyonları/modelleri) kabaca üç başlık altında sınıflandırılabilir: ◦ Boole (kesin çakışma.

Benzer bir sunumlar


... konulu sunumlar: " Bilgi erişim sistemlerinde kullanılan erişim kuralları (fonksiyonları/modelleri) kabaca üç başlık altında sınıflandırılabilir: ◦ Boole (kesin çakışma."— Sunum transkripti:

1

2  Bilgi erişim sistemlerinde kullanılan erişim kuralları (fonksiyonları/modelleri) kabaca üç başlık altında sınıflandırılabilir: ◦ Boole (kesin çakışma - exact match)  Sorgu ve dizin terimleri arasında kesin eşleşme (exact match) gerektiren erişim fonksiyonları ◦ Vektör uzayı  Sorgu ve dizin terimlerinin n-boyutlu bir uzaydaki vektörler olarak işlem gördüğü ve ağırlıklandırıldığı erişim fonksiyonu ◦ Olasılık kuramı  Sorgu ve dizin terimlerinin olasılık kuramına göre ağırlıklandırılmasına dayalı erişim fonksiyonları

3  Boole modelinin temel avantajı tasarımındaki basitlik.  En önemli dezavantajı ise tam çakışma (exact match) erişim kuralının çok az ya da çok fazla sonuç getirebilecek olması.  Benzerlik derecelendirmesi yok: sorgu ile belgenin ne kadar ilgili olduğunu gösteren bir skor değeri üretilmiyor bunun yerine ilgili / ilgisiz (1/0) yargısı var.  Eşleştirmelerde terim ağırlıklandırma yok: bir belge içerisinde 1 kez geçen terimle 100 kez geçen terim aynı ağırlıkta, bu belge içeriğini ifade eden değerli terimleri seçmemizi engelliyor.  Sorgu oluşturmak zor: kullanıcıların bilgi ihtiyaçlarını ifade edebilmek için karmaşık sorgular kurabilmesi gerekiyor.  Hata toleransı yok: bilgi ihtiyacı tam ifade edilmek zorunda, yaklaşık sonuç alma olasılığı yok.

4  Sorgu sonucu derecelendirilebiliyor  Cosinüs ölçümüne göre her belgeye bir sorgu ile ilgili benzerlik değeri verilebiliyor  Terim ağırlıklandırma ile sorgu sonucu elde edilen belgelerin kalitesini artırmak mümkün oluyor (yani daha başarılı bilgi erişim süreci)  Hızlı ve etkin bir model, hala popüler olarak kullanılıyor  Terimleri birbirlerinden bağımsız görmesi dezavantajı (belgedeki kelimeler arası ilişkiler göz ardı ediliyor)

5  Olasılık modellerinde sorgu terimleri, kullanıcı geribildirimi aracılığı ile ilgili belgelerde bulunabilme olasılıkları temel alınarak ağırlıklandırılır; belge terimleri ise genellikle ikili ağırlıklandırılır (ilgili/ilgisiz – 1/0).  Bir belgenin bir sorgu sonucunda ilgili olarak değerlendirilip değerlendirilemeyeceği konusunda bir çok model oluşturma teşebbüsü olmuştur.  Bu modeller erişilen belgeleri ilgililik olasılığına göre sıralamayı amaçlar. Buna olasılık sıralama prensibi (probability ranking principle) adı verilir.  Temeli, olasılığın doğru tahmin edilmesi ile ilgili bazı matematiksel formüllere dayanır.

6  «Eğer bir erişim sisteminin her soruya verdiği yanıtlar koleksiyondaki belgelerin işe yararlık olasılığının azalan sırada dizilmesi şeklinde ise (ki burada sistemde tutulan belgelerin yapılan aramanın amacına ne kadar uygun olduğu ile ilgili olasılıklar mümkün olan en doğru şekilde tahmin edilmelidir), o zaman sistemde yer alan belgeler çerçevesinde sistemin kullanıcılarının gözündeki etkinliği en üst düzeyde olacaktır.» Stephen E. Robertson, J. Documentation 1977 «To make a probabilistic retrieval strategy precise, we need to estimate how terms in documents contribute to relevance, specifically, we wish to know how term frequency, document frequency, document length, and other statistics that we can compute influence judgements about document relevance, and how they can be reasonably combined to estimate the probability of document relevance. We then order documents by decreasing estimated probability of relevance.» (Manning, et. al., 2009: 223)  «Eğer bir erişim sisteminin her soruya verdiği yanıtlar koleksiyondaki belgelerin işe yararlık olasılığının azalan sırada dizilmesi şeklinde ise (ki burada sistemde tutulan belgelerin yapılan aramanın amacına ne kadar uygun olduğu ile ilgili olasılıklar mümkün olan en doğru şekilde tahmin edilmelidir), o zaman sistemde yer alan belgeler çerçevesinde sistemin kullanıcılarının gözündeki etkinliği en üst düzeyde olacaktır.» Stephen E. Robertson, J. Documentation 1977

7  «Bir kullanıcı kendi bilgi ihtiyacını kapsayan bazı özellikleri taşıyan Q sorgusunu sisteme yöneltti diyelim. Farklı kullanıcıların aynı ifadeyi kullanarak sorgu yöneltmesi onların başka kullanıcılarla aynı belgeyi ilgili olarak değerlendirecekleri anlamına gelmez. Bilgi erişim sisteminin görevi Q sorgusunu yönelten kullanıcıların sorguya karşılık gelecek olan her bir belgeyi ilgili olarak değerlendirip değerlendirmeyecekleri olasılığını hesaplamaktır.» Robertson, Maron & Cooper, 1982

8  «Belgelerin çok farklı özellikleri olabilir. Bazı belgeler kullanıcıların aradığı her özelliği karşılıyor olabilirken, bazı belgeler ise kısmen karşılıyor ya da hiç karşılamıyor olabilir. Sisteme sorgu yönelten kullanıcılar koleksiyonda yer alan tüm belgeleri değerlendirse bazıları, (aynı özellikleri taşıyan) belgeleri ilgili bazıları ise ilgisiz olarak değerlendirebilir. Bunun tam tersi de geçerlidir. Bir bilgi erişim sisteminin işlevi belgelerin aranılan belirli bir veya bir grup niteliğe göre ilgili olup olmama olasılığını hesaplamaktır.» Robertson, Maron & Cooper, 1982

9  Olasılıklar öncelikli kullanım ya da ilgililik tahmini temel alınarak tahmin edilebilir ◦ D = Sistemde var olan ve gelecekte var olacak olan tüm belgeler ◦ Q = Halihazırda sisteme yöneltilmiş ve gelecekte yöneltilecek olan sorgular ◦ x = benzer belgeler sınıfı ◦ y = benzer sorgular sınıfı ◦ (D i,Q j ) = Bir belge-sorgu çifti ◦ İlgililik (R) şöyle bir matematiksel ilişki ile temsil edilebilir: Buna göre D i belgesi Q j sorgusunu yönelten kullanıcı tarafından ilgili olarak değerlendirilir.

10

11  Avantaj ◦ Güçlü teorik temellere dayanır. ◦ Prensipte, var olan bilgi ile ilgili en iyi ilgililik tahminlerini sunacağı var sayılır. ◦ Tıpkı vektör uzayı modeli gibi uygulanabilir.  Dezavantaj ◦ İlgili bilgilerin ne olduğunun bilinmesi gerekir – ya da net olarak tahmin edilmeli. ◦ İlgililiğin en temel göstergeleri terimler olmayabilir. Yine de çoğu zaman ilgililiğe yalnızca terimlere bakılarak karar verilebilir. ◦ Eklenen yeni belgelerin ilgililik değerlendirmesinin de sürekli olarak yapılmasını gerektirir.

12  Doğal dille yapılan sorguları destekler  Belgelere ve sorgulara aynı şekilde davranır  İlgililik geri bildirimi ile arama yapmayı destekler  Sıralanmış sorgu sonuçları getirir  Teorik temeller ile sıralamanın nasıl hesaplanacağı konusunda birbirinden farklılık gösterir. ◦ Vektör modeli ilgililiği “varsayar” ◦ Olasılık modeli ilgililik değerlendirmeleri ya da tahminlerine dayanır.

13 (Relevance feedback)

14

15

16  Kullanıcılar mutlaka kendileri ile ilgili olmayan belgeleri de sonuç listesinde görüyor  Ya da her ilgili belgeyi sonuç listesinde görebilmesi mümkün değil  Bilgi erişim sistemlerinin “mekanik” yapısının dezavantajı bu.  Yapılan çalışmalar gösteriyor ki tek bir sorguya dayalı olarak sonuç listesi getirilmesindense sorguların birkaç aşamalı olarak modifiye edilmesi bilgi erişim sisteminin etkinliğini ve kullanıcı memnuniyetini artırıyor.

17  Neden sorgu modifikasyonu? ◦ Kullanıcılar genellikle sorguları sonucunda bazı ilgili belgelere ulaşırlar ama sistemdeki “tüm” ilgili belgelere neredeyse asla ulaşamazlar. ◦ Bu durum çoğu kullanıcı için önemli değildir, ancak sistemdeki tüm ilgili belgelere erişmenin kritik önem taşıdığı durumlarda kullanıcılar için daha fazla ilgili belgeye erişme imkanı nadiren vardır.

18 ◦ İlk seçenek olarak aramalarını “genişletirler” (expanding the search).  Örnek?  Bu iş için genelde ya aradıkları terimin kavramsal olarak daha geniş olanını (broader term) kullanarak yeniden bir Boole sorgusu oluştururlar ya da ilk sorguları sonucunda elde ettikleri sıralanmış sonuç listesinde daha aşağılara bakarlar.  Bu çoğu zaman boşuna bir çabadır. Çünkü genişletilmiş terimleri kullanarak yapılan Boole sorgusu çok fazla ilgisiz sonucu da beraberinde getirecektir. ◦ Kullanıcılar için ikinci seçenek orijinal sorgularını modifiye etmektir.  Örnek?  Bu da genellikle rastgele bir işlemdir çünkü kullanıcı muhtemelen bilgi ihtiyacı ile ilgili orijinal sorguyu ilk tasarlarken zaten en iyi performanslarını sergilemiştir ve dolayısı ile hangi modifikasyonu yapsalar daha iyi sonuç elde edecekleri belirsizdir.

19  Sorgu modifikasyon türleri ◦ Thesaurus açılımı:  Sorgu terimlerine benzer terimler önerilir. ◦ İlgililik geri bildirimi:  Sorgu sonucunda elde edilen ve ilgili olarak değerlendirilen belgelere benzer terim (ve belgeler) önerilir.

20  Temel amaç: ◦ Var olan sorguyu ilgililik değerlendirmelerine göre yeniden düzenlemek:  ilgili belgelerdeki terimleri çıkar ve sorguya ekle ve/veya  sorguda olan terimleri yeniden ağırlıklandır.  İki temel yaklaşım: ◦ Otomatik (“uydurma” (psuedo) ilgililik geribildirimi) ◦ Kullanıcıların seçtiği ilgili belgeler

21  Genelde şu ikisi yapılır: ◦ Sorguyu yeni terimlerle genişlet ◦ Sorgudaki terimleri yeniden ağırlıklandır  Farklı çeşitleri de var: ◦ İlgili belgeler için genelde pozitif ağırlık verilir ◦ İlgisiz belgeler için bazen negatif ağırlık verilir ◦ Yalnızca ilgisiz bulunan belgeler için dizin terimleri çıkarılır.  Kullanıcılardan talep edilen ilgililik geri bildirimi kullanıcıların çok tercih ettiği bir yöntem değil, arama sürecini uzatıyor.

22

23

24  Alternatif kullanımları: ◦ Kullanıcılar arasında tercihleri sizinkine benzer olanları bulma. Örneğin: “Onların beğendiğini siz de beğenecek misiniz?” ◦ Sistemin arka planında kullanıcı hareketlerini izleme. Örneğin: “Sistemde gerçekleştirdiği son işlemler, kullanıcıların gelecekte ne talep edeceğini tahmin etmek için kullanılabilir mi?” ◦ Bir çok insanın ne yapmakta olduğunu tahmin etme. Örneğin, “Sistemde gerçekleştirilen işlemler, tam anlamıyla insanlara göre neyin iyi neyin kötü olduğunu gösterir mi?”

25  Alternatif kullanım alanlarında çok fazla dikkate alınması gereken nokta var: ◦ Örtük / açık (implicit / explicit) değerlendirmeler.  Örtük: «Implicit feedback is inferred from user behavior, such as noting which documents they do and do not select for viewing, the duration of time spent viewing a document, or page browsing or scrolling actions.»  Açık: «Explicit feedback is obtained from assessors of relevance indicating the relevance of a document retrieved for a query. This type of feedback is defined as explicit only when the assessors (or other users of a system) know that the feedback provided is interpreted as relevance judgments. Users may indicate relevance explicitly using a binary or graded relevance system.» ◦ Bireysel / grup değerlendirmeleri ◦ Durağan /dinamik konu başlıkları ◦ Değerlendirilen belgelerin benzerliği / değerlendirenlerin benzerliği

26  «Discovering discovery» rf-canyon-wins-best-search-engine/

27  “Ahmet bu makaleyi beğendiyse ben de beğenirim”  “Eğer Yıldız Savaşları’nı sevdiysen, Kurtuluş Günü’nü de seversin”  Bu örneklerde derecelendirme (rating) benzer insanlar tarafından yapılan sıralamalara dayanmaktadır. ◦ Sistemi halihazırda kullanan kullanıcılar gelecekteki kullanıcıların görüşlerini etkileyebilir. ?

28  Bu yapı içeriği bir tarafa bırakıp yalnızca değerlendiricilerin benzer düşüncelerine bakar.  Beğenilere dayalı veriler söz konusu olduğunda sosyal filtreleme daha çok işe yarar.

29  Kullanıcıların aktörler için beğenmeden beğenmemeye doğru giden puanlama sistemi ile sıralama yaptıklarını düşünelim. Buna göre puanlama; ◦ 1= nefret ederim.. 4 = kararsızım.. 7= onsuz yaşayamam olsun. ◦ 4 puan civarında normal bir dağılım söz konusu olacaktır.  Ancak bu durumda uç noktalar daha önemlidir.  «En Yakın Komşu» Stratejisi (Nearest Neighbors Strategy): Benzer puan vermiş kullanıcıları ve tahmini (ağırlıklandırılmış) ortalama kullanıcı puanlarını bul ◦ Pearson r algoritması: kullanıcı U ve kullanıcı J arasındaki korelasyon derecesi ile ağırlıklandırma ◦ 1 iki kullanıcının görüşlerinin çok benzer olduğunu, 0 korelasyon olmadığını, -1 görüşler arasında benzeşme olmadığını gösterir

30  Kullanıcı arayüzüne eklenen bazı uygulamalara (agents), bazı görevler atanır.  Makine öğrenme (machine learning) teknikleri kullanılarak bilgi erişim performansının artırılması amaçlanır ◦ Kullanıcı davranışları ve tercihleri takip edilir. Öneri sistemleri (recommendation systems) geliştirilir.  Şu durumlarda işe yarar: 1) Geçmiş davranışlar gelecekteki davranışların tahmin edilmesine yarar. 2) Çok farklı kullanıcı davranışı biçimlerini ortaya koyar.  Örnekler: ◦ Posta düzenleyici: gelen postaları doğru klasörlere ya da posta kutularına gönderir ◦ Takvim yöneticisi: toplantı zamanlarını otomatik olarak ayarlar

31  İlgililik geribildirimi kullanıcı-güdümlü (user- directed) sorgu modifikasyonlarında etkilidir.  Modifikasyon doğrudan ya da dolaylı kullanıcı girdisi ile yapılabilir.  Modifikasyon birey ya da grupların geçmiş girdileri temel alınarak yapılabilir.

32 Tonta, Y. (1995). Bilgi erişim sistemleri. (http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf)http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf Buckland, M. (1991). Information as thing. (http://people.ischool.berkeley.edu/~buckland/thing.html)http://people.ischool.berkeley.edu/~buckland/thing.html Tonta, Y., Bitirim, Y. ve Sever, H. (2002). Türkçe Arama Motorlarında Performans Değerlendirme. (Tam metin)Tam metin Manning, C.D., Raghavan, P. & Schütze, H. (2008). Principles of Information Retrieval. * Relevance feedback and query expansion: book/html/htmledition/relevance-feedback-and-query-expansion-1.htmlhttp://nlp.stanford.edu/IR- book/html/htmledition/relevance-feedback-and-query-expansion-1.html * Probabilistic information retrieval: book/html/htmledition/probabilistic-information-retrieval-1.htmlhttp://nlp.stanford.edu/IR- book/html/htmledition/probabilistic-information-retrieval-1.html Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. (Tam metin)Tam metin Bu derste kullanılan slaytların çoğunluğu Information organization and retrieval (R. Larson & W. Sack, 2001) Bilgi erişim ilkeleri (Y. Tonta, 2002) Bilgi erişim (G. Köse, 2012) derslerine ait slaytlardan derlenmiştir.


" Bilgi erişim sistemlerinde kullanılan erişim kuralları (fonksiyonları/modelleri) kabaca üç başlık altında sınıflandırılabilir: ◦ Boole (kesin çakışma." indir ppt

Benzer bir sunumlar


Google Reklamları