İrem Soydal ~ Yurdagül Ünal

Slides:



Advertisements
Benzer bir sunumlar
Bilgi Erişim Tasarım Modelleri
Advertisements

SQL de Değişken Tanımlama
Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme
Erişim Kuralları Yaşar Tonta Hacettepe Üniversitesi
ÇOKGENLERİ SINIFLANDIRALIM
FİNANSAL ANALİZ.
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yaşar Tonta Hacettepe Üniversitesi
STANDART SAPMA STANDART SAPMA.
Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi
Sıklık Tablolarından Elde Edilen Tanımlayıcı İstatistikler
Bilgi Erişim Performans Ölçüleri
 Merkezi eğilim ölçüleri: Ortalama Ortanca Mod  Ortalama: İki veya ikiden fazla sayının toplamının toplanan sayıların adedine bölünmesiyle elde edilen.
Merkezi Eğilim (Yer) Ölçüleri
Performans değerlendirme
Merkezi Eğilim Ölçüleri
ORAN ORANTI ORAN NEDİR?.
Web Ortamında Arama Yapmak R. Orçun MADRAN. Arama Motorları Arama Motorları, günümüzün popüler bilgiye erişim sistemlerinin başında yer almaktadır. Bir.
1 BBY Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme.
Bilgiye Erişimin önemi ve Bilgi kaynakları
Merkezi Eğilim (Yer) Ölçüleri
ORAN.
5 Esneklik BÖLÜM İÇERİĞİ Talebin Fiyat Esnekliği
CASE FAIR OSTER Prepared by: Fernando Quijano & Shelly Tefft.
ÇEMBERDE AÇILAR VE YAYLAR
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
2 - ÖLÇME ARAÇLARININ TAŞIMASI GEREKEN NİTELİKLER
Bilgi Erişim: Temel Kavramlar
Standart Puanlar Z puanı: T puanı: T=10*Z+50 = Bireyin puanı
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yıltan Bitirim Doğu Akdeniz Üniversitesi
BBY 156 Bilgi Erişim blogspot
BBY 156 Bilgi Erişim blogspot
 Elektronik bilgi kaynağı. Düzenli bir şekilde listelenmiş bilgilerin bilgisayardaki karşılığıdır. Genel olarak bu bilgiler ortak bir konu ya da amaca.
BBY 156 Bilgi Erişim İrem Soydal
 Bir bilgi erişim sistemi: ◦ (1) bir belge derlemi ya da bu belgeleri temsil eden dizin terimlerini içeren kayıtlar, ◦ (2) kullanıcıların sorgu cümleleri,
Sistem Belirli bir ya da daha fazla amaç (goal) için bir araya getirilmiş fiziksel ya da kavramsal bileşenlerden oluşan bir bütündür.
BBY 156 Bilgi Erişim blogspot
Sıklık Tabloları ve Tek Değişkenli Grafikler
İrem Soydal ~ Yurdagül Ünal
İrem Soydal ~ Yurdagül Ünal
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
İrem Soydal ~ Yurdagül Ünal
Sayısal Analiz Sayısal Türev
İrem Soydal ~ Yurdagül Ünal
TAGUCHİ DENEY TASARIMLARI ıı.
Tanımlayıcı Ölçütler Üzerinde durulan bir çalışmada amaç; elde edilen veri setini bir ya da birkaç ölçü ile özetlemektir. Kullanılan her ölçü dağılımın.
Sıklık Tabloları ve Sıklık Tablolarından Elde Edilen Tanımlayıcı İstatistikler.
Hesaplama Tabloları (MS For Mac Excel -2) Öğr.Gör. Mehmet Akif Barış.
Dizinlemede Tutarlılık ve Nitelik  Dizinlemede tutarlılık nedir?  Tutarlılığın ölçümü  Tutarlılığı etkileyen faktörler nelerdir? DERS İÇERİĞİ.
Arama BBY256 Bilgi Mimarisi. Bulmak için Tasarım Farklı bilgi arama modelleri İnsanların bilgi arama davranışları Bu davranışların öğrenilmesi.
İrem Soydal ~ Yurdagül Ünal
İÇERİĞİN ÖĞRETİM İÇİN DÜZENLENMESİ
Ders içeri ğ i I.Öz Hazırlama ve De ğ erlendirme Süreçleri  Öz hazırlama süreçleri  Özlerde nitelik ve tutarlılık  Öz de ğ erlendirme adımları
Kütahya Siteler Öğrenci Yurdu Talebeleri 2008 STANDART SAPMA 8.SINIF SBS Slaytlarda fare veya aşağı tuş ile ilerleyiniz.
Bilginin Düzenlenmesi ve Erişim Süreçleri
ÖLÇME VE DEĞERLENDİRME DERSİ
KIRIKKALE ÜNİVERSİTESİ
Ölçme ve Değerlendirme
DERS3 Prof.Dr. Serpil CULA
Performans değerlendirme
Medikal Tanı Testlerinin Güvenilirliği
Türkçe Arama Motorları Ne Kadar Türkçe?
Structure of an IR System
GİRİŞ Kimyasal Analiz Bir madde veya bir karışımda bulunan element veya atom gruplarının belirlenmesi veya bunların o madde veya karışım içerisinde hangi.
STANDART SAPMA.
NİŞANTAŞI ÜNİVERSİTESİ
SLAYT.
“1250 TL Gelir” ifadesini gösteren tam sayı hangisidir? A) (+1250) B) (-1250) =a (d) C) (+250) D) (-250) Soru 26.Sınıf Tam Sayılar Çözümlü Test Soruları.
ÜÇGENLER. A B C C kenarı a kenarı b kenarı A B C.
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

İrem Soydal ~ Yurdagül Ünal

 Derlemde bulunan tüm ilgili belgelere erişim sağlamayı ve erişim çıktısındaki tüm belgelerin ilgili olmasını amaçlıyor.  Bilgi erişim sistemleri üzerindeki etkinlik (başarım) ölçümleri de genellikle bu iki değere bakılarak değerlendiriliyor.

İLGİLİ ERİŞİLEN vux N u tipi hatalarv tipi hatalar

 Bilgi erişim sistemine bir sorgu gönderilir  Sorgu sonucu erişim çıktısında yer alan ve almayan belgeler incelenir: ◦ İlgili belgelere hangi oranda ulaşıldı? ◦ Erişim çıktısındaki belgelerin ne kadarı ilgili? ◦ Erişim çıktısındaki belgelerin ne kadarı ilgisiz?

 İdeal bilgi erişim sistemleri ilgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı  “Hakkındalık” kavramı: Bir belgenin X konusunda olduğuna nasıl karar veririz? ◦ Dizin terimleri/konu başlıkları bir belgenin hangi konu(lar) hakkında olduğunu belirtir  “İlgililik” kavramı: Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak ◦ Öznel ilgililik  Kullanıcı yönelttiği sorgu sonucunda elde ettiği erişim çıktısına bakarak sonuçların bilgi ihtiyacı ile ne kadar ilgili olduğuna karar verebilir. Bu öznel bir karardır. Kullanıcının bilgi ihtiyacına ya da o anki ruh haline göre ilgililik kararı değişiklik gösterebilir. ◦ Nesnel ilgililik  Sorgu sözcüklerini bir şekilde içeren belgelerin ilgili olduğuna da karar verilebilir. Bu nesnel ilgililiktir.

 Sorgu sonucu elde edilen bu değerlere göre (ilgili ilgilisiz belgeler, toplam erişilen belge sayısı, derlemdeki toplam ilgili belge sayısı) ikili sınıflandırma tablosu doldurulur  İkili sınıflama tablosundan anma, duyarlık ve posa değerleri hesaplanarak sistemin etkinliği ortaya konulur

a : Sistem tarafından erişilen ve kullanıcının ilgili bulduğu belge sayısı (relevant), b : Sistem tarafından erişilen ve kullanıcının ilgisiz bulduğu belge sayısı (false drops), c : Sistem tarafından erişilemeyen ve kullanıcının ilgili bulduğu belge sayısı, d : Sistem tarafından erişilemeyen ve kullanıcının ilgisiz bulduğu belge sayısı, a+b: İlgili ya da ilgisiz erişilen toplam belge sayısı, a+c: Sorguya karşılık erişilen ya da erişilemeyen derlemdeki toplam ilgili belge sayısı. İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d Gerçekte Durum Sistem Kararı

 Anma: Sistem tarafından erişilen ilgili belgelerin derlemdeki toplam ilgili belgelere oranıdır. ◦ Anma hedefi vurma oranı olarak da bilinir. ◦ İlgili belgelere hangi oranda erişim sağlandığını gösteren bir değerdir.  Anma = İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + ca + cb + da + b + c+ d (a)(a) (a + c) a / (a+c)

 Duyarlık: Sistem tarafından erişilen ilgili belgelerin erişim çıktısında yer alan ilgili veya ilgisiz toplam belge sayısına oranıdır. ◦ Duyarlık erişim çıktısında hangi oranda ilgili belge bulunduğunu gösteren bir değerdir.  Duyarlık= İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d (a)(a) (a + b) a / (a+b)

 Posa: Sistem tarafından ilgili olduğu düşünülüp erişilen fakat gerçekte ilgisiz olan belge sayısının toplam ilgisiz belge sayısına oranıdır. ◦ Posa değeri, bir sistemin ilgisiz belgeleri ne derece sağlıklı olarak reddettiğini ölçer.  Posa= İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d (b)(b) (b+d)(b+d) b / (b+d)

 Anma ve duyarlık değerleri 0-1 arasında değerler alır.  Bir sistemin etkinliği çoğunlukla anma ve duyarlılık değerlerinin birlikte kullanılması ile ifade edilir.  Anma ve duyarlık ne kadar yüksekse bir sistemin etkinliğinin de o kadar yüksek olduğu kabul edilmektedir (Salton, 1989).

 Bir Bilgi Erişim Sisteminde, “teknolojik yakınsama” sorgusuna karşılık olarak elde edilen erişim çıktısı değerlendirilmiş ve aşağıdaki sonuçlar elde edilmiştir. Buna göre sistemin anma, duyarlık ve posa değerlerini hesaplayınız. ◦ Toplam Erişilen Belge Sayısı: 200 ◦ Erişim Çıktısındaki İlgili Belge Sayısı: 50 ◦ Derlem Üzerindeki Toplam Belge Sayısı: 1000 ◦ Derlem Üzerinde “teknolojik yakınsama” sorgusuyla ilgili belge sayısı: 250

 Anma = a / (a+c)  Duyarlık= a / (a+b)  Posa= b / (b+d) İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d

b = (a+b) – a = 200 – 50 = 150 c = (a+c) – a = 250 – 50 = 200 (b+d) = (a+b+c+d) – (a+c) = 1000 – 250 = 750 d = (b+d) – b = 750 – 150 = 600 İlgili (P)İlgisiz (¬P) Erişilen (R)50b200 Erişilemeyen (¬R)cdc + d 250b + d1000

 Toplam erişilen belge sayısı: 200  Erişim çıktısındaki ilgili belge sayısı: 50  Derlem üzerindeki toplam belge sayısı: 1000  Derlem üzerinde “teknolojik yakınsama” sorgusuyla ilgili toplam belge sayısı: 250  Anma = a / (a+c) = 0,2  Duyarlık= a / (a+b) = 0,25  Posa= b / (b+d) = 0,2 İlgili (P)İlgisiz (¬P) Erişilen (R)a= 50b= 150a + b= 200 Erişilemeyen (¬R)c= 200d= 600c + d= 800 a + c = 250b + d= 750a + b + c+ d= 1000

Anma = 0,2 Duyarlık = 0,25 Posa = 0,2  Bu bilgi erişim sistemi “teknolojik yakınsama” sorgusu için: ◦ İlgili belgelerin %20’sine erişim sağlamıştır, ◦ Erişim çıktısındaki belgelerin %25’i ilgilidir, ◦ İlgisiz belgeleri %20 oranında reddetmektedir.  Bu bilgi erişim sistemi başarılı mıdır?

 Bilgi erişim sistemlerinde anma ve duyarlık arasındaki ilişki ters orantılıdır. Yani; BES için anma değerinin artırılması duyarlık değerinin düşmesi ile sonuçlanır ya da tersi. precision recall x x x x

 Bir sistemin etkinliği çoğunlukla anma ve duyarlık değerleri ile ifade edilir.  Bu değerler her bir sorgu bazında kesin değerler olabileceği gibi, belirli sayıdaki sorgular üzerinden mikro ya da makro ortalamalar alınarak da hesaplanabilir. ◦ Genellikler bilgi erişim sistemlerinin başarımı hesaplanırken tek sorgu değil çok sayıda sorgu sisteme gönderilerek hesaplama yapılır.  Her bir sorgu sonucu elde edilen çıktılar için bir ikili sınıflama tablosu oluşturulur.  Bu tablolara göre sistemin genel başarımı iki farklı şekilde hesaplanabilir: ◦ Mikro ortalama: sayıların aritmetik ortalaması ◦ Makro ortalama: oranların aritmetik ortalaması

 Bir arama motoruna iki sorgu yöneltilmiştir. ◦ Birinci sorgu sonucunda erişilen 5 belgeden 2 tanesi ilgili. ◦ İkinci sorguda erişilen 10 belgeden 1 tanesi ilgili.  Sistemin genel duyarlık başarım değeri nedir? ◦ Mikro ortalama yöntemi:  Duyarlık = (2+1) / (5+10) = 0,2 ◦ Makro ortalama yöntemi:  Duyarlık1 = 2 / 5 = 0,4 Duyarlık2 = 1 / 10 = 0,1  Duyarlık = (Duyarlık1+Duyarlık2)/2 = (0,4 + 0,1) /2 = 0,25

 3 farklı bilgi erişim sistemine aynı konuyla ilgili sorgu yollanmış ve sistemler tarafından oluşturulan erişim çıktıları tabloda verilmiştir. Duyarlık açısından hangi sistem daha başarılıdır? Sıralama EÇ EÇ EÇ

 Duyarlık= ? ◦ tüm EÇ için aynı = 5/9 = 0,56  Erişim çıktısında üst sıralarda ilgili belgeleri gösteren sistemler daha başarılı olmalı! Sıralama EÇ EÇ EÇ

 İlgili belgelerin erişim çıktısındaki sıralamasını da göz önünde bulunduran değerlendirme yöntemi “Normalize Sırlama” olarak adlandırılır.  Bu yöntem üst sıralarda ilgili belgelere yer veren bilgi erişim sistemlerini ödüllendirir.

Tonta, Y. (1995). Bilgi erişim sistemleri. ( Buckland, M. (1991). Information as thing. ( Tonta, Y., Bitirim, Y. ve Sever, H. (2002). Türkçe Arama Motorlarında Performans Değerlendirme, s (Tam metin)Tam metin Diğer yardımcı kaynaklar: Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. (Tam metin)Tam metin Manning, C.D., Raghavan, P. and Schütze, H. (2009). Introduction to Information Retrieval. (Tam metin)Tam metin Bu derste kullanılan slaytların çoğunluğu Information organization and retrieval (R. Larson & W. Sack, 2001) Bilgi erişim ilkeleri (Y. Tonta, 2002) Bilgi erişim (G. Köse, 2012) derslerine ait slaytlardan derlenmiştir.