Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

İrem Soydal ~ Yurdagül Ünal

Benzer bir sunumlar


... konulu sunumlar: "İrem Soydal ~ Yurdagül Ünal"— Sunum transkripti:

1 İrem Soydal ~ Yurdagül Ünal soydal@hacettepe.edu.trsoydal@hacettepe.edu.tr yurdagul@hacettepe.edu.tryurdagul@hacettepe.edu.tr

2  Derlemde bulunan tüm ilgili belgelere erişim sağlamayı ve erişim çıktısındaki tüm belgelerin ilgili olmasını amaçlıyor.  Bilgi erişim sistemleri üzerindeki etkinlik (başarım) ölçümleri de genellikle bu iki değere bakılarak değerlendiriliyor.

3 İLGİLİ ERİŞİLEN vux N u tipi hatalarv tipi hatalar

4  Bilgi erişim sistemine bir sorgu gönderilir  Sorgu sonucu erişim çıktısında yer alan ve almayan belgeler incelenir: ◦ İlgili belgelere hangi oranda ulaşıldı? ◦ Erişim çıktısındaki belgelerin ne kadarı ilgili? ◦ Erişim çıktısındaki belgelerin ne kadarı ilgisiz?

5  İdeal bilgi erişim sistemleri ilgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı  “Hakkındalık” kavramı: Bir belgenin X konusunda olduğuna nasıl karar veririz? ◦ Dizin terimleri/konu başlıkları bir belgenin hangi konu(lar) hakkında olduğunu belirtir  “İlgililik” kavramı: Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak ◦ Öznel ilgililik  Kullanıcı yönelttiği sorgu sonucunda elde ettiği erişim çıktısına bakarak sonuçların bilgi ihtiyacı ile ne kadar ilgili olduğuna karar verebilir. Bu öznel bir karardır. Kullanıcının bilgi ihtiyacına ya da o anki ruh haline göre ilgililik kararı değişiklik gösterebilir. ◦ Nesnel ilgililik  Sorgu sözcüklerini bir şekilde içeren belgelerin ilgili olduğuna da karar verilebilir. Bu nesnel ilgililiktir.

6  Sorgu sonucu elde edilen bu değerlere göre (ilgili ilgilisiz belgeler, toplam erişilen belge sayısı, derlemdeki toplam ilgili belge sayısı) ikili sınıflandırma tablosu doldurulur  İkili sınıflama tablosundan anma, duyarlık ve posa değerleri hesaplanarak sistemin etkinliği ortaya konulur

7 a : Sistem tarafından erişilen ve kullanıcının ilgili bulduğu belge sayısı (relevant), b : Sistem tarafından erişilen ve kullanıcının ilgisiz bulduğu belge sayısı (false drops), c : Sistem tarafından erişilemeyen ve kullanıcının ilgili bulduğu belge sayısı, d : Sistem tarafından erişilemeyen ve kullanıcının ilgisiz bulduğu belge sayısı, a+b: İlgili ya da ilgisiz erişilen toplam belge sayısı, a+c: Sorguya karşılık erişilen ya da erişilemeyen derlemdeki toplam ilgili belge sayısı. İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d Gerçekte Durum Sistem Kararı

8  Anma: Sistem tarafından erişilen ilgili belgelerin derlemdeki toplam ilgili belgelere oranıdır. ◦ Anma hedefi vurma oranı olarak da bilinir. ◦ İlgili belgelere hangi oranda erişim sağlandığını gösteren bir değerdir.  Anma = İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + ca + cb + da + b + c+ d (a)(a) (a + c) a / (a+c)

9  Duyarlık: Sistem tarafından erişilen ilgili belgelerin erişim çıktısında yer alan ilgili veya ilgisiz toplam belge sayısına oranıdır. ◦ Duyarlık erişim çıktısında hangi oranda ilgili belge bulunduğunu gösteren bir değerdir.  Duyarlık= İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d (a)(a) (a + b) a / (a+b)

10  Posa: Sistem tarafından ilgili olduğu düşünülüp erişilen fakat gerçekte ilgisiz olan belge sayısının toplam ilgisiz belge sayısına oranıdır. ◦ Posa değeri, bir sistemin ilgisiz belgeleri ne derece sağlıklı olarak reddettiğini ölçer.  Posa= İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d (b)(b) (b+d)(b+d) b / (b+d)

11  Anma ve duyarlık değerleri 0-1 arasında değerler alır.  Bir sistemin etkinliği çoğunlukla anma ve duyarlılık değerlerinin birlikte kullanılması ile ifade edilir.  Anma ve duyarlık ne kadar yüksekse bir sistemin etkinliğinin de o kadar yüksek olduğu kabul edilmektedir (Salton, 1989).

12  Bir Bilgi Erişim Sisteminde, “teknolojik yakınsama” sorgusuna karşılık olarak elde edilen erişim çıktısı değerlendirilmiş ve aşağıdaki sonuçlar elde edilmiştir. Buna göre sistemin anma, duyarlık ve posa değerlerini hesaplayınız. ◦ Toplam Erişilen Belge Sayısı: 200 ◦ Erişim Çıktısındaki İlgili Belge Sayısı: 50 ◦ Derlem Üzerindeki Toplam Belge Sayısı: 1000 ◦ Derlem Üzerinde “teknolojik yakınsama” sorgusuyla ilgili belge sayısı: 250

13  Anma = a / (a+c)  Duyarlık= a / (a+b)  Posa= b / (b+d) İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d

14 b = (a+b) – a = 200 – 50 = 150 c = (a+c) – a = 250 – 50 = 200 (b+d) = (a+b+c+d) – (a+c) = 1000 – 250 = 750 d = (b+d) – b = 750 – 150 = 600 İlgili (P)İlgisiz (¬P) Erişilen (R)50b200 Erişilemeyen (¬R)cdc + d 250b + d1000

15  Toplam erişilen belge sayısı: 200  Erişim çıktısındaki ilgili belge sayısı: 50  Derlem üzerindeki toplam belge sayısı: 1000  Derlem üzerinde “teknolojik yakınsama” sorgusuyla ilgili toplam belge sayısı: 250  Anma = a / (a+c) = 0,2  Duyarlık= a / (a+b) = 0,25  Posa= b / (b+d) = 0,2 İlgili (P)İlgisiz (¬P) Erişilen (R)a= 50b= 150a + b= 200 Erişilemeyen (¬R)c= 200d= 600c + d= 800 a + c = 250b + d= 750a + b + c+ d= 1000

16 Anma = 0,2 Duyarlık = 0,25 Posa = 0,2  Bu bilgi erişim sistemi “teknolojik yakınsama” sorgusu için: ◦ İlgili belgelerin %20’sine erişim sağlamıştır, ◦ Erişim çıktısındaki belgelerin %25’i ilgilidir, ◦ İlgisiz belgeleri %20 oranında reddetmektedir.  Bu bilgi erişim sistemi başarılı mıdır?

17  Bilgi erişim sistemlerinde anma ve duyarlık arasındaki ilişki ters orantılıdır. Yani; BES için anma değerinin artırılması duyarlık değerinin düşmesi ile sonuçlanır ya da tersi. precision recall x x x x

18  Bir sistemin etkinliği çoğunlukla anma ve duyarlık değerleri ile ifade edilir.  Bu değerler her bir sorgu bazında kesin değerler olabileceği gibi, belirli sayıdaki sorgular üzerinden mikro ya da makro ortalamalar alınarak da hesaplanabilir. ◦ Genellikler bilgi erişim sistemlerinin başarımı hesaplanırken tek sorgu değil çok sayıda sorgu sisteme gönderilerek hesaplama yapılır.  Her bir sorgu sonucu elde edilen çıktılar için bir ikili sınıflama tablosu oluşturulur.  Bu tablolara göre sistemin genel başarımı iki farklı şekilde hesaplanabilir: ◦ Mikro ortalama: sayıların aritmetik ortalaması ◦ Makro ortalama: oranların aritmetik ortalaması

19  Bir arama motoruna iki sorgu yöneltilmiştir. ◦ Birinci sorgu sonucunda erişilen 5 belgeden 2 tanesi ilgili. ◦ İkinci sorguda erişilen 10 belgeden 1 tanesi ilgili.  Sistemin genel duyarlık başarım değeri nedir? ◦ Mikro ortalama yöntemi:  Duyarlık = (2+1) / (5+10) = 0,2 ◦ Makro ortalama yöntemi:  Duyarlık1 = 2 / 5 = 0,4 Duyarlık2 = 1 / 10 = 0,1  Duyarlık = (Duyarlık1+Duyarlık2)/2 = (0,4 + 0,1) /2 = 0,25

20  3 farklı bilgi erişim sistemine aynı konuyla ilgili sorgu yollanmış ve sistemler tarafından oluşturulan erişim çıktıları tabloda verilmiştir. Duyarlık açısından hangi sistem daha başarılıdır? Sıralama123456789 EÇ1+++++---- EÇ2----+++++ EÇ3+++---++-

21  Duyarlık= ? ◦ tüm EÇ için aynı = 5/9 = 0,56  Erişim çıktısında üst sıralarda ilgili belgeleri gösteren sistemler daha başarılı olmalı! Sıralama123456789 EÇ1+++++---- EÇ2----+++++ EÇ3+++---++-

22  İlgili belgelerin erişim çıktısındaki sıralamasını da göz önünde bulunduran değerlendirme yöntemi “Normalize Sırlama” olarak adlandırılır.  Bu yöntem üst sıralarda ilgili belgelere yer veren bilgi erişim sistemlerini ödüllendirir.

23 Tonta, Y. (1995). Bilgi erişim sistemleri. (http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf)http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf Buckland, M. (1991). Information as thing. (http://people.ischool.berkeley.edu/~buckland/thing.html)http://people.ischool.berkeley.edu/~buckland/thing.html Tonta, Y., Bitirim, Y. ve Sever, H. (2002). Türkçe Arama Motorlarında Performans Değerlendirme, s.17-29. (Tam metin)Tam metin Diğer yardımcı kaynaklar: Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. (Tam metin)Tam metin Manning, C.D., Raghavan, P. and Schütze, H. (2009). Introduction to Information Retrieval. (Tam metin)Tam metin Bu derste kullanılan slaytların çoğunluğu Information organization and retrieval (R. Larson & W. Sack, 2001) Bilgi erişim ilkeleri (Y. Tonta, 2002) Bilgi erişim (G. Köse, 2012) derslerine ait slaytlardan derlenmiştir.


"İrem Soydal ~ Yurdagül Ünal" indir ppt

Benzer bir sunumlar


Google Reklamları