1 BBY 220 - Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme.

Slides:



Advertisements
Benzer bir sunumlar
8. SINIF 3. ÜNİTE BİLGİ YARIŞMASI
Advertisements

Matematik Öğretmeni RAGIP ŞAHİN
GİRİŞ BÖLÜM:1-2 VERİ ANALİZİ YL.
Bölüm 4 Seçme Komutları Koşul İfadesi if Komutu Bileşik Komut
Selçuk Üniversitesi’nin Bilişime Gönül Veren Gençleri
İÇİNDEKİLER - ORAN ORANTI DOĞRU ORANTI TERS ORANTI ARİTMETİK ORTALAMA
MATEMATİK ORAN ORANTI.
ORAN ORANTI.
NOKTA, DOĞRU, DOĞRU PARÇASI, IŞIN, DÜZLEMDEKİ DOĞRULAR
İŞLETME - MUHASEBE Naim DENİZ.
Farklı Kültürlerde Liderlik Yapmak Prof. Dr. Yeşim Toduk Akiş
Güz Yrd. Doç.Dr. Zeynep Ocak
ÜNİTE DEĞERLENDİRMESİ 1.Sınıf Türkçe
DEĞİŞKENLER ARASI İLİŞKİ
Tanımlayıcı İstatistikler
Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri
Bellek Tabanlı Sınıflandırma
Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme
Erişim Kuralları Yaşar Tonta Hacettepe Üniversitesi
Veri Toplama, Verilerin Özetlenmesi ve Düzenlenmesi
doğal sayısındaki rakamların sayı değerleri toplamı kaçtır?
HAZIRLAYAN:SAVAŞ TURAN AKKOYUNLU İLKÖĞRETİM OKULU 2/D SINIFI
Örnek Bİr VerİtabanI TasarImI
ÖLÇME VE DEĞERLENDİRME DERSİ
ARALARINDA ASAL SAYILAR
1/22 GEOMETRİ (Üçgen-Çember-Cisimler) Üç kenarı ve üç köşesi olan kapalı şekillere ne denir? Kare Dikdörtgen Üçgen Çember A B C D.
Olasılık Dağılımları ♦ Gazın her molekülü kendi hızına ve konumuna sahiptir. ♦ Bir molekülün belli bir hıza sahip olma olasılığı hız dağılım fonksiyonu.
1/20 ÖLÇÜLER (Uzunluk) 4 metre kaç santimetredir? A B C D.
GRAFİKLER.
Kendi işimi kurma nedenlerim;
PERFORMANS BÜTÇE HAZIRLIK SÜRECİ
KONU KESİRLER BASİT KESİR GJFX BİLEŞİK KESİR.
Açık Dergi Sistemleri orçun madran. Open Journal Systems (OJS) Web 2.0 Teknolojileri ve Uygulamaları Çalıştayı, Ankara - 4 Aralık
TEST – 1.
TOPLAMA İŞLEMİNDE VERİLMEYEN TOPLANANI BULMA.
2 ve 1’in toplamı 3 eder..
TAM SAYILAR Kaan DEMİREL
OLASILIK ve OLASILIK DAĞILIMLARI
ORAN ve ORANTI DOĞRU ORANTI c a x b c . b = a . x.
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yaşar Tonta Hacettepe Üniversitesi
EĞİTİMDE ÖLÇME VE DEĞERLENDİRME
SEBZELERİN GENEL EKİM – DİKİM BİLGİLERİ
8 ? E K S İ L E N EKSİLEN _ 5 5 ÇIKAN FARK(KALAN) 8.
Ek-2 Örnekler.
Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi
VERİLERİN DERLENMESİ VE SUNUMU
SÜREKLİ ŞANS DEĞİŞKENLERİNİN OLASILIK YOĞUNLUK FONKSİYONLARI
Yıldız Teknik Üniversitesi Makina Müh. Bölümü
Bilgi Erişim Performans Ölçüleri
6, 7 ve 8 BASAMAKLI DOĞAL SAYILAR
 Merkezi eğilim ölçüleri: Ortalama Ortanca Mod  Ortalama: İki veya ikiden fazla sayının toplamının toplanan sayıların adedine bölünmesiyle elde edilen.
GOOGLE’DA ARAMA YAPMAK
Merkezi Eğilim (Yer) Ölçüleri
VERİ İŞLEME VERİ İŞLEME-4.
SON DÖNEM ENFLASYON GELİŞMELERİ
EĞİTİMDE ÖLÇME VE DEĞERLENDİRME
Tuğçe ÖZTOP İlköğretim Matematik Öğretmenliği 2. sınıf
Çocuklar,sayılar arasındaki İlişkiyi fark ettiniz mi?
KAREKÖKLÜ SAYILAR KAREKÖKLÜ SAYILAR √.
Toplama Yapalım Hikmet Sırma 1-A sınıfı.
RASYONEL SAYILARLA TOPLAMA ve ÇIKARMA İŞLEMLERİ
SAYILAR NUMBERS. SAYILAR 77 55 66 99 11 33 88.
Merkezi Eğilim Ölçüleri
Web Ortamında Arama Yapmak R. Orçun MADRAN. Arama Motorları Arama Motorları, günümüzün popüler bilgiye erişim sistemlerinin başında yer almaktadır. Bir.
Kareköklü Sayılar KAREKÖKLÜ BİR İFADE İLE ÇARPILDIĞINDA SONUCU DOĞAL SAYI YAPAN ÇARPANLAR.
USLE P FAKTÖRÜ DR. GÜNAY ERPUL.
Merkezi Eğilim (Yer) Ölçüleri
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yıltan Bitirim Doğu Akdeniz Üniversitesi
İrem Soydal ~ Yurdagül Ünal
Sunum transkripti:

1 BBY Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme

2 İdeal Bilgi Erişim Sistemleri Derlemde bulunan tüm ilgili belgelere erişim sağlamayı ve erişim çıktısındaki tüm belgelerin ilgili olmasını amaçlıyor. Bilgi erişim sistemleri üzerindeki etkinlik (başarım) ölçümleri de genellikle bu iki değere bakılarak değerlendiriliyor.

3 Etkinlik Değerlendirmesi Nasıl Yapılır? Bilgi erişim sistemine bir sorgu gönderilir, Sorgu sonucu erişim çıktısında yer alan ve almayan belgeler incelenir: - İlgili belgelere hangi oranda ulaşıldı? - Erişim çıktısındaki belgelerin ne kadarı ilgili? - Erişim çıktısındaki belgelerin ne kadarı ilgisiz? Sorgu sonucu elde edilen bu değerlere göre ikili sınıflandırma tablosu doldurulur, İkili sınıflama tablosundan anma, duyarlık ve posa değerleri hesaplanarak sistemin etkinliği ortaya konulur.

4 İkili Sınıflama Tablosu İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d Gerçekte Durum Sistem Kararı a : Sistem tarafından erişilen ve kullanıcının ilgili bulduğu belge sayısı (relevant), b : Sistem tarafından erişilen ve kullanıcının ilgisiz bulduğu belge sayısı (false drops), c : Sistem tarafından erişilemeyen ve kullanıcının ilgili bulduğu belge sayısı, d : Sistem tarafından erişilemeyen ve kullanıcının ilgisiz bulduğu belge sayısı, a+b: İlgili ya da ilgisiz erişilen toplam belge sayısı, a+c: Sorguya karşılık erişilen ya da erişilemeyen derlemdeki toplam ilgili belge sayısı.

5 Anma (Recall) Değeri Anma: Sistem tarafından erişilen ilgili belgelerin (a) derlemdeki toplam ilgili belgelere (a+c) oranıdır. Anma hedefi vurma oranı olarak da bilinir. İlgili belgelere hangi oranda erişim sağlandığını gösteren bir değerdir. Anma = a / (a+c) İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d

6 Duyarlık (Precision) Değeri Duyarlık: Sistem tarafından erişilen ilgili belgelerin (a) erişim çıktısında yer alan ilgili veya ilgisiz toplam belge sayısına (a+b) oranıdır. Duyarlık erişim çıktısında hangi oranda ilgili belge bulunduğunu gösteren bir değerdir. Duyarlık= a / (a+b) İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d

7 Posa Değeri Posa: Sistem tarafından ilgili olduğu düşünülüp erişilen fakat gerçekte ilgisiz olan belge sayısının (b) toplam ilgisiz belge sayısına (b+d) oranıdır. Posa değeri, bir sistemin ilgisiz belgeleri ne derece sağlıklı olarak reddettiğini ölçer. Posa= b / (b+d) İlgili (P)İlgisiz (¬P) Erişilen (R)aba + b Erişilemeyen (¬R)cdc + d a + cb + da + b + c+ d

8 Değerlendirme Nasıl Yapılıyor? Anma ve duyarlık değerleri 0-1 arasında değerler alır. Bir sistemin etkinliği çoğunluklar anma ve duyarlılık değerlerinin birlikte kullanılması ile ifade edilir. Anma ve duyarlık ne kadar yüksekse bir sistemin etkinliğinin de o kadar yüksek olduğu kabul edilmektedir (Salton, 1989).

9 Etkinlik Hesaplama Örneği Bir Bilgi Erişim Sisteminde, “vektör uzayı modeli” sorgusuna karşılık olarak elde edilen erişim çıktısı değerlendirilmiş ve aşağıdaki sonuçlar elde edilmiştir. Buna göre sistemin anma, duyarlık ve posa değerlerini hesaplayınız. Toplam Erişilen Belge Sayısı: 200 Erişim Çıktısındaki İlgili Belge Sayısı: 50 Derlem Üzerindeki Toplam Belge Sayısı: 1000 Derlem Üzerinde “vektör uzayı modeli” sorgusuyla ilgili belge sayısı: 250

10 Etkinlik Hesaplama Örneği İkili sınıflama tablosu. İlgili (P)İlgisiz (¬P) Erişilen (R)50b200 Erişilemeyen (¬R)cdc + d 250b + d1000 b = (a+b) – b = 200 – 50 = 150 c = (a+c) – a = 250 – 50 = 200 (b+d) = (a+b+c+d) – (a+c) = 1000 – 250 = 750 d = (b+d) – b = 750 – 150 = 600

11 Etkinlik Hesaplama Örneği İkili sınıflama tablosu. İlgili (P)İlgisiz (¬P) Erişilen (R)a=50b=150a+b=200 Erişilemeyen (¬R)c=200d=600c+d=800 a+c=250b+d=750a+b+c+d=1000 anma = a / (a+c) = 50 / 250 = 0,2 duyarlık = a / (a+b) = 50 / 200 = 0,25 posa = b / (b+d) = 150 / 750 = 0,2

12 Etkinlik Hesaplama Örneği Anma = 0,2 Duyarlık = 0,25 Posa = 0,2 Bu bilgi erişim sistemi “vektör uzayı modeli” sorgusu için: -İlgili belgelerin %20’sine erişim sağlamıştır, -Erişim çıktısındaki belgelerin %25’i ilgilidir, -İlgisiz belgelerin %20 oranında reddetmektedir. Bu bilgi erişim sistemi başarılı mıdır?

13 Anma ve Duyarlık Arasındaki İlişki Bilgi erişim sistemlerinde anma ve duyarlık arasındaki ilişki ters orantılıdır. Yani; BES için anma değerinin artırılması duyarlık değerinin düşmesi ile sonuçlanır ya da tersi. precision recall x x x x

14 Sistem Toplam Başarımı Nasıl Hesaplanır? Genellikler bilgi erişim sistemlerinin başarımı hesaplanırken tek sorgu değil çok sayıda sorgu sisteme gönderilerek hesaplama yapılır. Her bir sorgu sonucu elde edilen çıktılar için bir ikili sınıflama tablosu oluşturulur. Bu tablolara göre sistemin genel başarımı iki farklı şekilde hesaplanabilir. 1)Mikro ortalama: sayıların aritmetik ortalaması 2)Makro ortalama: oranların aritmetik ortalaması

15 Sistem Toplam Başarımı Nasıl Hesaplanır? Bir arama motoruna iki sorgu yöneltilmiştir. Birinci sorgu sonucunda erişilen 5 belgeden 2 tanesi ilgili. İkinci sorguda erişilen 10 belgeden 1 tanesi ilgili. Sistemin genel duyarlık başarım değeri nedir? Mikro ortalama yöntemi: Duyarlık = (2+1) / (5+10) = 0,2 Makro ortalama yöntemi: Duyarlık1 = 2 / 5 = 0,4 Duyarlık2= 1 / 10 = 0,1 Duyarlık = (Duyarlık1+Duyarlık2)/2 = (0,4 + 0,1) /2 = 0.25

16 Normalize Sıralama 3 farklı bilgi erişim sistemine aynı konuyla ilgili sorgu yollanmış ve sistemler tarafından oluşturulan erişim çıktıları tabloda verilmiştir. Duyarlık açısından hangi sistem daha başarılıdır? Sıralama EÇ EÇ EÇ

17 Normalize Sıralama Sıralama EÇ EÇ EÇ Duyarlık tüm EÇ için aynı = 5/9 = 0,56 Erişim çıktısında üst sıralarda ilgili belgeleri gösteren sistemler daha başarılı olmalı!

18 Normalize Sıralama İlgili belgelerin erişim çıktısındaki sıralamasını da göz önünde bulunduran değerlendirme yöntemi “Normalize Sırlama” olarak adlandırılır. Bu yöntem üst sıralarda ilgili belgelere yer veren bilgi erişim sistemlerini ödüllendirir.

19 Normalize Sıralama ∆ : Erişim çıktısı no S + : Erişim çıktısında ilgili belgelerin ilgisiz belgelerin önünde yer aldığı belge çiftleri sayısı, S - : Erişim çıktısında ilgisiz belgelerin ilgili belgelerin önünde yer aldığı belge çiftleri sayısı S + max : maksimum ilgili belge sayısı

20 Normalize Sıralama Sıralama EÇ EÇ EÇ Yukarıdaki örnek için max değeri 20 kabul edelim. S norm (EÇ1) = ½ (1+(20-0)/20) = 1 S norm (EÇ2) = ½ (1+(0-20)/20) = 0 S norm (EÇ3) = ½ (1+(13-9)/20) = 0.6