Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

BBY 156 Bilgi Erişim blogspot

Benzer bir sunumlar


... konulu sunumlar: "BBY 156 Bilgi Erişim blogspot"— Sunum transkripti:

1 BBY 156 Bilgi Erişim 2014-2015 http://bby156. blogspot
BBY 156 Bilgi Erişim  Bilgi erişim kuralları (erişim fonksiyonları)- II  Sorgu modifikasyonları ve ilgililik geri bildirimi

2 Erişim fonksiyonları (hatırlatma)
Bilgi erişim sistemlerinde kullanılan erişim kuralları (fonksiyonları/modelleri) kabaca üç başlık altında sınıflandırılabilir: Boole (kesin çakışma - exact match) Sorgu ve dizin terimleri arasında kesin eşleşme (exact match) gerektiren erişim fonksiyonları Vektör uzayı Sorgu ve dizin terimlerinin n-boyutlu bir uzaydaki vektörler olarak işlem gördüğü ve ağırlıklandırıldığı erişim fonksiyonu Olasılık kuramı Sorgu ve dizin terimlerinin olasılık kuramına göre ağırlıklandırılmasına dayalı erişim fonksiyonları

3 Boole modeli (avantaj-dezavantaj)
Boole modelinin temel avantajı tasarımındaki basitlik. En önemli dezavantajı ise tam çakışma (exact match) erişim kuralının çok az ya da çok fazla sonuç getirebilecek olması. Benzerlik derecelendirmesi yok: sorgu ile belgenin ne kadar ilgili olduğunu gösteren bir skor değeri üretilmiyor bunun yerine ilgili / ilgisiz (1/0) yargısı var. Eşleştirmelerde terim ağırlıklandırma yok: bir belge içerisinde 1 kez geçen terimle 100 kez geçen terim aynı ağırlıkta, bu belge içeriğini ifade eden değerli terimleri seçmemizi engelliyor. Sorgu oluşturmak zor: kullanıcıların bilgi ihtiyaçlarını ifade edebilmek için karmaşık sorgular kurabilmesi gerekiyor. Hata toleransı yok: bilgi ihtiyacı tam ifade edilmek zorunda, yaklaşık sonuç alma olasılığı yok.

4 Vektör uzayı modeli (avantaj-dezavantaj)
Sorgu sonucu derecelendirilebiliyor Cosinüs ölçümüne göre her belgeye bir sorgu ile ilgili benzerlik değeri verilebiliyor Terim ağırlıklandırma ile sorgu sonucu elde edilen belgelerin kalitesini artırmak mümkün oluyor (yani daha başarılı bilgi erişim süreci) Hızlı ve etkin bir model, hala popüler olarak kullanılıyor Terimleri birbirlerinden bağımsız görmesi dezavantajı (belgedeki kelimeler arası ilişkiler göz ardı ediliyor)

5 Olasılık modelleri Olasılık modellerinde sorgu terimleri, kullanıcı geribildirimi aracılığı ile ilgili belgelerde bulunabilme olasılıkları temel alınarak ağırlıklandırılır; belge terimleri ise genellikle ikili ağırlıklandırılır (ilgili/ilgisiz – 1/0). Bir belgenin bir sorgu sonucunda ilgili olarak değerlendirilip değerlendirilemeyeceği konusunda bir çok model oluşturma teşebbüsü olmuştur. Bu modeller erişilen belgeleri ilgililik olasılığına göre sıralamayı amaçlar. Buna olasılık sıralama prensibi (probability ranking principle) adı verilir. Temeli, olasılığın doğru tahmin edilmesi ile ilgili bazı matematiksel formüllere dayanır. Concerned with estimating probabilities of relevance at the point of indexing: * If a patron came with a request using term ti, what is the probability that she/he would be satisfied with document Dj ? «To make a probabilistic retrieval strategy precise, we need to estimate how terms in documents contribute to relevance, specifically, we wish to know how term frequency, document frequency, document length, and other statistics that we can compute influence judgements about document relevance, and how they can be reasonably combined to estimate the probability of document relevance. We then order documents by decreasing estimated probability of relevance.» (Manning, et. al., 2009: 223)

6 Olasılık sıralama prensibi (probability ranking principle)
«Eğer bir erişim sisteminin her soruya verdiği yanıtlar koleksiyondaki belgelerin işe yararlık olasılığının azalan sırada dizilmesi şeklinde ise (ki burada sistemde tutulan belgelerin yapılan aramanın amacına ne kadar uygun olduğu ile ilgili olasılıklar mümkün olan en doğru şekilde tahmin edilmelidir), o zaman sistemde yer alan belgeler çerçevesinde sistemin kullanıcılarının gözündeki etkinliği en üst düzeyde olacaktır.» Stephen E. Robertson, J. Documentation 1977 «Eğer bir erişim sisteminin her soruya verdiği yanıtlar koleksiyondaki belgelerin işe yararlık olasılığının azalan sırada dizilmesi şeklinde ise (ki burada sistemde tutulan belgelerin yapılan aramanın amacına ne kadar uygun olduğu ile ilgili olasılıklar mümkün olan en doğru şekilde tahmin edilmelidir), o zaman sistemde yer alan belgeler çerçevesinde sistemin kullanıcılarının gözündeki etkinliği en üst düzeyde olacaktır.» Stephen E. Robertson, J. Documentation 1977 «To make a probabilistic retrieval strategy precise, we need to estimate how terms in documents contribute to relevance, specifically, we wish to know how term frequency, document frequency, document length, and other statistics that we can compute influence judgements about document relevance, and how they can be reasonably combined to estimate the probability of document relevance. We then order documents by decreasing estimated probability of relevance.» (Manning, et. al., 2009: 223) If a reference retrieval system’s response to each request is a ranking of the documents in the collections in the order of decreasing probability of usefulness to the user who submitted the request, where the probabilities are estimated as accurately as possible on the basis of whatever data has been made available to the system for this purpose, then the overall effectiveness of the system to its users will be the best that is obtainable on the basis of that data.

7 Olasılık modelleri.. «Bir kullanıcı kendi bilgi ihtiyacını kapsayan bazı özellikleri taşıyan Q sorgusunu sisteme yöneltti diyelim. Farklı kullanıcıların aynı ifadeyi kullanarak sorgu yöneltmesi onların başka kullanıcılarla aynı belgeyi ilgili olarak değerlendirecekleri anlamına gelmez. Bilgi erişim sisteminin görevi Q sorgusunu yönelten kullanıcıların sorguya karşılık gelecek olan her bir belgeyi ilgili olarak değerlendirip değerlendirmeyecekleri olasılığını hesaplamaktır.» Robertson, Maron & Cooper, 1982 A patron submits a query (call it Q) consisting of some specification of her/his information need. Different patrons submitting the same stated query may differ as to whether or not they judge a specific document to be relevant. The function of the retrieval system is to compute for each individual document the probability that it will be judged relevant by a patron who has submitted query Q.

8 ..Olasılık modelleri «Belgelerin çok farklı özellikleri olabilir. Bazı belgeler kullanıcıların aradığı her özelliği karşılıyor olabilirken, bazı belgeler ise kısmen karşılıyor ya da hiç karşılamıyor olabilir. Sisteme sorgu yönelten kullanıcılar koleksiyonda yer alan tüm belgeleri değerlendirse bazıları, (aynı özellikleri taşıyan) belgeleri ilgili bazıları ise ilgisiz olarak değerlendirebilir. Bunun tam tersi de geçerlidir. Bir bilgi erişim sisteminin işlevi belgelerin aranılan belirli bir veya bir grup niteliğe göre ilgili olup olmama olasılığını hesaplamaktır.» Robertson, Maron & Cooper, 1982 Documents have many different properties; some documents have all the properties that the patron asked for, and other documents have only some or none of the properties. If the inquiring patron were to examine all of the documents in the collection she/he might find that some having all the sought after properties were relevant, but others (with the same properties) were not relevant. And conversely, he/she might find that some of the documents having none (or only a few) of the sought after properties were relevant, others not. The function of a document retrieval system is to compute the probability that a document is relevant, given that it has one (or a set) of specified properties.

9 ..Olasılık modelleri - notasyon
Olasılıklar öncelikli kullanım ya da ilgililik tahmini temel alınarak tahmin edilebilir D = Sistemde var olan ve gelecekte var olacak olan tüm belgeler Q = Halihazırda sisteme yöneltilmiş ve gelecekte yöneltilecek olan sorgular x = benzer belgeler sınıfı y = benzer sorgular sınıfı (Di,Qj) = Bir belge-sorgu çifti İlgililik (R) şöyle bir matematiksel ilişki ile temsil edilebilir: Buna göre Di belgesi Qj sorgusunu yönelten kullanıcı tarafından ilgili olarak değerlendirilir.

10 Olasılık modeli D = Sistemde var olan ve gelecekte var olacak olan tüm belgeler Q = Halihazırda sisteme yöneltilmiş ve gelecekte yöneltilecek olan sorgular x = benzer belgeler sınıfı y = benzer sorgular sınıf (Di,Qj) = Bir belge-sorgu çifti

11 ..Olasılık modelleri (avantaj-dezavantaj)
Güçlü teorik temellere dayanır. Prensipte, var olan bilgi ile ilgili en iyi ilgililik tahminlerini sunacağı var sayılır. Tıpkı vektör uzayı modeli gibi uygulanabilir. Dezavantaj İlgili bilgilerin ne olduğunun bilinmesi gerekir – ya da net olarak tahmin edilmeli. İlgililiğin en temel göstergeleri terimler olmayabilir. Yine de çoğu zaman ilgililiğe yalnızca terimlere bakılarak karar verilebilir. Eklenen yeni belgelerin ilgililik değerlendirmesinin de sürekli olarak yapılmasını gerektirir. ** Users start with information needs, which they translate into query representations. Similarly, there are documents, which are converted into document representations (the latter differing at least by how text is tokenized, but perhaps containing fundamentally less information, as when a non-positional index is used). Based on these two representations, a system tries to determine how well documents satisfy information needs. ** In the Boolean or vector space models of IR, matching is done in a formally defined but semantically imprecise calculus of index terms. !! Given only a query, an IR system has an uncertain understanding of the information need. !! Given the query and document representations, a system has an uncertain guess of whether a document has content relevant to the information need. ** Probability theory provides a principled foundation for such reasoning under uncertainty. (http://nlp.stanford.edu/IR-book/html/htmledition/probabilistic-information-retrieval-1.html)

12 Vektör ve olasılık modelleri
Doğal dille yapılan sorguları destekler Belgelere ve sorgulara aynı şekilde davranır İlgililik geri bildirimi ile arama yapmayı destekler Sıralanmış sorgu sonuçları getirir Teorik temeller ile sıralamanın nasıl hesaplanacağı konusunda birbirinden farklılık gösterir. Vektör modeli ilgililiği “varsayar” Olasılık modeli ilgililik değerlendirmeleri ya da tahminlerine dayanır.

13 İlgililik geribildirimi
(Relevance feedback)

14 Bilgi erişim sistemlerinde sorgulama

15 Bilgi erişim sistemlerinde ilgililik geribildirimi

16 Sorun: Kullanıcılar mutlaka kendileri ile ilgili olmayan belgeleri de sonuç listesinde görüyor Ya da her ilgili belgeyi sonuç listesinde görebilmesi mümkün değil Bilgi erişim sistemlerinin “mekanik” yapısının dezavantajı bu. Yapılan çalışmalar gösteriyor ki tek bir sorguya dayalı olarak sonuç listesi getirilmesindense sorguların birkaç aşamalı olarak modifiye edilmesi bilgi erişim sisteminin etkinliğini ve kullanıcı memnuniyetini artırıyor. “Users often input queries containing terms that do not match the terms used to index the majority of the relevant documents (either controlled or full text indexing) and almost always some of the unretrieved relevant documents are indexed by a different set of terms than those in the query or in most of the other relevant documents. This problem has long been recognized as a major difficulty in information retrieval systems (Lancaster 1969). ..Van Rijsbergen (1986) spoke of the limits of providing increasingly better ranked results based solely on the initial query, and indicated a need to modify that query to further increase performance.”

17 Sorgu modifikasyonu (query modification)
Neden sorgu modifikasyonu? Kullanıcılar genellikle sorguları sonucunda bazı ilgili belgelere ulaşırlar ama sistemdeki “tüm” ilgili belgelere neredeyse asla ulaşamazlar. Bu durum çoğu kullanıcı için önemli değildir, ancak sistemdeki tüm ilgili belgelere erişmenin kritik önem taşıdığı durumlarda kullanıcılar için daha fazla ilgili belgeye erişme imkanı nadiren vardır. Soru: Sistemdeki tüm ilgili belgelere ulaşmak örneğin nasıl bir senaryoda kritik öneme sahip olabilir?

18 Sorgu modifikasyonu (query modification)
İlk seçenek olarak aramalarını “genişletirler” (expanding the search). Örnek? Bu iş için genelde ya aradıkları terimin kavramsal olarak daha geniş olanını (broader term) kullanarak yeniden bir Boole sorgusu oluştururlar ya da ilk sorguları sonucunda elde ettikleri sıralanmış sonuç listesinde daha aşağılara bakarlar. Bu çoğu zaman boşuna bir çabadır. Çünkü genişletilmiş terimleri kullanarak yapılan Boole sorgusu çok fazla ilgisiz sonucu da beraberinde getirecektir. Kullanıcılar için ikinci seçenek orijinal sorgularını modifiye etmektir. Bu da genellikle rastgele bir işlemdir çünkü kullanıcı muhtemelen bilgi ihtiyacı ile ilgili orijinal sorguyu ilk tasarlarken zaten en iyi performanslarını sergilemiştir ve dolayısı ile hangi modifikasyonu yapsalar daha iyi sonuç elde edecekleri belirsizdir. * Bu iş için genelde ya aradıkları terimin kavramsal olarak daha geniş olanını (broader term) kullanarak yeniden bir Boole sorgusu oluştururlar ya da ilk sorguları sonucunda elde ettikleri sıralanmış sonuç listesinde daha aşağılara bakarlar. -- Bu çoğu zaman boşuna bir çabadır. Çünkü genişletilmiş terimleri kullanarak yapılan Boole sorgusu çok fazla ilgisiz sonucu da beraberinde getirecektir. * Kullanıcılar için ikinci seçenek orijinal sorgularını modifiye etmektir. -- Bu da genellikle rastgele bir işlemdir çünkü kullanıcı zaten muhtemelen bilgi ihtiyaçları ile ilgili orijinal sorguyu ilk tasarlarken zaten en iyi performanslarını sergilemişlerdir ve dolayısı ile hangi modifikasyonu yapsalar daha iyi sonuç elde edecekleri belirsizdir.

19 Sorgu modifikasyonu (query modification)
Sorgu modifikasyon türleri Thesaurus açılımı: Sorgu terimlerine benzer terimler önerilir. İlgililik geri bildirimi: Sorgu sonucunda elde edilen ve ilgili olarak değerlendirilen belgelere benzer terim (ve belgeler) önerilir.

20 İlgililik geri bildirimi (relevance feedback)
Temel amaç: Var olan sorguyu ilgililik değerlendirmelerine göre yeniden düzenlemek: ilgili belgelerdeki terimleri çıkar ve sorguya ekle ve/veya sorguda olan terimleri yeniden ağırlıklandır. İki temel yaklaşım: Otomatik (“uydurma” (psuedo) ilgililik geribildirimi) Kullanıcıların seçtiği ilgili belgeler «User queries are usually too short to describe the information need accurately. Many important terms can be absent from the query, leading to a poor coverage of the relevant documents. To solve this problem, query expansion has been widely used. Among all the approaches, pseudo-relevance feedback (PRF) exploiting the retrieval result has been the most effective. The basic assumption of PRF is that the top-ranked documents in the first retrieval result contain many useful terms that can help discriminate relevant documents from irrelevant ones. In general, the expansion terms are extracted either according to the term distributions in the feedback documents (i.e. one tries to extract the most frequent terms); or according to the comparison between the term distributions in the feedback documents and in the whole document collection (i.e. to extract the most specific terms in the feedback documents).» (Cao, Nie, Gao & Robertson, 2008, p. 243)

21 İlgililik geri bildirimi (relevance feedback)
Genelde şu ikisi yapılır: Sorguyu yeni terimlerle genişlet Sorgudaki terimleri yeniden ağırlıklandır Farklı çeşitleri de var: İlgili belgeler için genelde pozitif ağırlık verilir İlgisiz belgeler için bazen negatif ağırlık verilir Yalnızca ilgisiz bulunan belgeler için dizin terimleri çıkarılır. Kullanıcılardan talep edilen ilgililik geri bildirimi kullanıcıların çok tercih ettiği bir yöntem değil, arama sürecini uzatıyor.

22 An example of query expansion (Manning, Raghavan & Schütze, 2009, p

23 a: «Bike» sorugusu için kullanıcının seçtiği sonuçlar (yeşil ile işaretli)
b: Kullanıcının «ilgili» olarak işaretlediği sonuçların ardından gelen yeni sonuç listesi.

24 İlgililik geri bildirimi (relevance feedback)
Alternatif kullanımları: Kullanıcılar arasında tercihleri sizinkine benzer olanları bulma. Örneğin: “Onların beğendiğini siz de beğenecek misiniz?” Sistemin arka planında kullanıcı hareketlerini izleme. Örneğin: “Sistemde gerçekleştirdiği son işlemler, kullanıcıların gelecekte ne talep edeceğini tahmin etmek için kullanılabilir mi?” Bir çok insanın ne yapmakta olduğunu tahmin etme. Örneğin, “Sistemde gerçekleştirilen işlemler, tam anlamıyla insanlara göre neyin iyi neyin kötü olduğunu gösterir mi?”

25 İlgililik geri bildirimi (relevance feedback)
Alternatif kullanım alanlarında çok fazla dikkate alınması gereken nokta var: Örtük / açık (implicit / explicit) değerlendirmeler. Örtük: «Implicit feedback is inferred from user behavior, such as noting which documents they do and do not select for viewing, the duration of time spent viewing a document, or page browsing or scrolling actions.» Açık: «Explicit feedback is obtained from assessors of relevance indicating the relevance of a document retrieved for a query. This type of feedback is defined as explicit only when the assessors (or other users of a system) know that the feedback provided is interpreted as relevance judgments. Users may indicate relevance explicitly using a binary or graded relevance system.» Bireysel / grup değerlendirmeleri Durağan /dinamik konu başlıkları Değerlendirilen belgelerin benzerliği / değerlendirenlerin benzerliği - Explicit feedback is obtained from assessors of relevance indicating the relevance of a document retrieved for a query. This type of feedback is defined as explicit only when the assessors (or other users of a system) know that the feedback provided is interpreted as relevance judgments. Users may indicate relevance explicitly using a binary or graded relevance system. Binary relevance feedback indicates that a document is either relevant or irrelevant for a given query. Graded relevance feedback indicates the relevance of a document to a query on a scale using numbers, letters, or descriptions (such as "not relevant", "somewhat relevant", "relevant", or "very relevant"). - Implicit feedback is inferred from user behavior, such as noting which documents they do and do not select for viewing, the duration of time spent viewing a document, or page browsing or scrolling actions. The key differences of implicit relevance feedback from that of explicit include: ** the user is not assessing relevance for the benefit of the IR system, but only satisfying their own needs and ** the user is not necessarily informed that their behavior (selected documents) will be used as relevance feedback ** An example of this is the Surf Canyon browser extension, which advances search results from later pages of the result set based on both user interaction (clicking an icon) and time spent viewing the page linked to in a search result. (Wikipedia: Relevance feedback, 2013)

26 Örnek: Surf Canyon «Discovering discovery» rf-canyon-wins-best-search-engine/

27 Sosyal filtreleme (collaborative/social filtering)
“Ahmet bu makaleyi beğendiyse ben de beğenirim” “Eğer Yıldız Savaşları’nı sevdiysen, Kurtuluş Günü’nü de seversin” Bu örneklerde derecelendirme (rating) benzer insanlar tarafından yapılan sıralamalara dayanmaktadır. Sistemi halihazırda kullanan kullanıcılar gelecekteki kullanıcıların görüşlerini etkileyebilir. ?

28 Sosyal filtreleme (collaborative/social filtering)
Bu yapı içeriği bir tarafa bırakıp yalnızca değerlendiricilerin benzer düşüncelerine bakar. Beğenilere dayalı veriler söz konusu olduğunda sosyal filtreleme daha çok işe yarar.

29 Ringo Collaborative Filtering (Shardanand & Maes, 1995)
Kullanıcıların aktörler için beğenmeden beğenmemeye doğru giden puanlama sistemi ile sıralama yaptıklarını düşünelim. Buna göre puanlama; 1= nefret ederim .. 4 = kararsızım .. 7= onsuz yaşayamam olsun. 4 puan civarında normal bir dağılım söz konusu olacaktır. Ancak bu durumda uç noktalar daha önemlidir. «En Yakın Komşu» Stratejisi (Nearest Neighbors Strategy): Benzer puan vermiş kullanıcıları ve tahmini (ağırlıklandırılmış) ortalama kullanıcı puanlarını bul Pearson r algoritması: kullanıcı U ve kullanıcı J arasındaki korelasyon derecesi ile ağırlıklandırma 1 iki kullanıcının görüşlerinin çok benzer olduğunu, 0 korelasyon olmadığını, -1 görüşler arasında benzeşme olmadığını gösterir

30 Öğrenebilir arayüzler
Kullanıcı arayüzüne eklenen bazı uygulamalara (agents), bazı görevler atanır. Makine öğrenme (machine learning) teknikleri kullanılarak bilgi erişim performansının artırılması amaçlanır Kullanıcı davranışları ve tercihleri takip edilir. Öneri sistemleri (recommendation systems) geliştirilir. Şu durumlarda işe yarar: 1) Geçmiş davranışlar gelecekteki davranışların tahmin edilmesine yarar. 2) Çok farklı kullanıcı davranışı biçimlerini ortaya koyar. Örnekler: Posta düzenleyici: gelen postaları doğru klasörlere ya da posta kutularına gönderir Takvim yöneticisi: toplantı zamanlarını otomatik olarak ayarlar

31 Özet (sorgu modifikasyonu)
İlgililik geribildirimi kullanıcı-güdümlü (user- directed) sorgu modifikasyonlarında etkilidir. Modifikasyon doğrudan ya da dolaylı kullanıcı girdisi ile yapılabilir. Modifikasyon birey ya da grupların geçmiş girdileri temel alınarak yapılabilir.

32 Okuma listesi Tonta, Y. (1995). Bilgi erişim sistemleri. (http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf) Buckland, M. (1991). Information as thing. (http://people.ischool.berkeley.edu/~buckland/thing.html) Tonta, Y., Bitirim, Y. ve Sever, H. (2002). Türkçe Arama Motorlarında Performans Değerlendirme. (Tam metin) Manning, C.D., Raghavan, P. & Schütze, H. (2008). Principles of Information Retrieval. * Relevance feedback and query expansion: book/html/htmledition/relevance-feedback-and-query-expansion-1.html * Probabilistic information retrieval: book/html/htmledition/probabilistic-information-retrieval-1.html Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. (Tam metin) Bu derste kullanılan slaytların çoğunluğu Information organization and retrieval (R. Larson & W. Sack, 2001) Bilgi erişim ilkeleri (Y. Tonta, 2002) Bilgi erişim (G. Köse, 2012) derslerine ait slaytlardan derlenmiştir.


"BBY 156 Bilgi Erişim blogspot" indir ppt

Benzer bir sunumlar


Google Reklamları