Bilgi Erişim Performans Ölçüleri

Slides:



Advertisements
Benzer bir sunumlar
8. SINIF 3. ÜNİTE BİLGİ YARIŞMASI
Advertisements

HTML e GİRİŞ Temel HTML etiketleri.
Yrd. Doç. Dr. Mustafa Akkol
Tutarlı Bir Katalog için Otorite Kontrolü
Diferansiyel Denklemler
NOKTA, DOĞRU, DOĞRU PARÇASI, IŞIN, DÜZLEMDEKİ DOĞRULAR
Eğitim Programı Kurulum Aşamaları E. Savaş Başcı ASO 1. ORGANİZE SANAYİ BÖLGESİ AVRUPA BİLGİSAYAR YERKİNLİĞİ SERTİFİKASI EĞİTİM PROJESİ (OBİYEP)
Öğr.Gör.Dr. S. Sadi SEFEROĞLU & Arş. Gör. Fatih GÜRSUL
Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/
Bilginin Tanımlanması ve Diğer Bilgi Erişim Uygulamaları
Tarafından sağlanmaktadır ScienceDirect Veri Tabanı.
VERİTABANLARININ ETKİN KULLANIM TEKNİKLERİ
Microsoft Danışman Öğrenci
9. ADİ DİFERANSİYEL DENKLEMLERİN SAYISAL ÇÖZÜMLERİ
Bilgi Erişim Tasarım Modelleri
KÜTÜPHANELERDE HALKLA İLİŞKİLER ve PAZARLAMA ANKARA ÜNİVERSİTESİ KÜTÜPHANESİ ÖRNEĞİ Tuna CAN & E.Erdal AYDIN
Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri
Ankara Üniversitesi Açık Arşiv Uygulaması
Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme
Erişim Kuralları Yaşar Tonta Hacettepe Üniversitesi
Veri Toplama, Verilerin Özetlenmesi ve Düzenlenmesi
MATEMATİKSEL PROGRAMLAMA
Verimli Ders Çalışma Teknikleri.
İkili Arama Ağaçları (Binary Search Trees) BST
Kaliteli Teknik Resmin Üç Temel Niteliği:
Örnek Bİr VerİtabanI TasarImI
ÖRNEKLEM VE ÖRNEKLEME Dr.A.Tevfik SÜNTER.
ARALARINDA ASAL SAYILAR
Gün Kitabın Adı ve Yazarı Okuduğu sayfa sayısı
GÖRSEL MATERYAL TASARIMI
Matematik 2 Örüntü Alıştırmaları.
MATRİSLER ve DETERMİNANTLAR
Hatalar için niceliksel hesaplar
yunus.hacettepe.edu.tr/~tonta/courses/spring2006/bby208/
Uygulamalı Örneklem Seçimi
Tam sayılarda bölme ve çarpma işlemi
HALK KÜTÜPHANELERİ SOSYAL AĞLARDA HALK KÜTÜPHANELERİNE ERİŞİM.
HABTEKUS' HABTEKUS'08 3.
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yaşar Tonta Hacettepe Üniversitesi
yunus.hacettepe.edu.tr/~tonta/courses/spring2008/bby208/
Ek-2 Örnekler.
Diferansiyel Denklemler
DENEY TASARIMI VE ANALİZİ (DESIGN AND ANALYSIS OF EXPERIMENTS)
GOOGLE’DA ARAMA YAPMAK
Bilgi Erişim Sorunu Yaşar Tonta Hacettepe Üniversitesi
Toplama Yapalım Hikmet Sırma 1-A sınıfı.
14.ULUSAL TURİZM KONGRESİ 2013 YILI BİLDİRİLERİ ÜZERİNE BİR DEĞERLENDİRME Prof. Dr. A. Celil ÇAKICI Mersin Üniversitesi Turizm Fakültesi.
SLIDE 1BBY208 – Bahar 2005 Betimleme Yöntemi Yaşar Tonta H.Ü. BBY yunus.hacettepe.edu.tr/~tonta/courses/spring2005/bby208/
Web Ortamında Arama Yapmak R. Orçun MADRAN. Arama Motorları Arama Motorları, günümüzün popüler bilgiye erişim sistemlerinin başında yer almaktadır. Bir.
1 BBY Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme.
Bilgiye Erişimin önemi ve Bilgi kaynakları
SLAYT 1BBY220 OCLC WorldCat Yaşar Tonta Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/ BBY220 Bilgi Erişim İlkeleri.
CEBİRSEL İFADELERİ ÇARPANLARINA AYIRMA
Yard. Doç. Dr. Mustafa Akkol
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
ÖĞR. GRV. Ş.ENGIN ŞAHİN BİLGİ VE İLETİŞİM TEKNOLOJİSİ.
Diferansiyel Denklemler
Bilgi Erişim Sistemleri II Hayri Sever Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi Bağlıca Ankara Yaşar Tonta Bilge.
Bilgi Erişim: Temel Kavramlar
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yıltan Bitirim Doğu Akdeniz Üniversitesi
BBY 156 Bilgi Erişim blogspot
 Bir bilgi erişim sistemi: ◦ (1) bir belge derlemi ya da bu belgeleri temsil eden dizin terimlerini içeren kayıtlar, ◦ (2) kullanıcıların sorgu cümleleri,
İrem Soydal ~ Yurdagül Ünal
İrem Soydal ~ Yurdagül Ünal
Hafta 1: Dizinleme ve Özler BBY 264 Dizinleme ve Sınıflama.
Arama BBY256 Bilgi Mimarisi. Bulmak için Tasarım Farklı bilgi arama modelleri İnsanların bilgi arama davranışları Bu davranışların öğrenilmesi.
Hafta 2: Dizinleme ve Öz Hazırlamaya Giriş BBY 306 Dizinleme ve Öz Hazırlama
Türkçe Arama Motorları Ne Kadar Türkçe?
Sunum transkripti:

Bilgi Erişim Performans Ölçüleri Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ DOK324/BBY220 Bilgi Erişim İlkeleri Note: Most slides in this presentation come from Dr. Barbara Tillett’s and Vinod Chacra’s presentations that are available on the Internet. Please do not use without proper attribution. -yt DOK 220 – Bahar 2005

Belge Erişim Sisteminin Mantıksal Düzenlemesi Belgeler Kullanıcılar Gömü - Sözlük Sorgu formülasyonu Dizinleme Dizin tutanakları Erişim kuralı Formel sorgu cümlesi Kaynak: Maron, 1984 DOK 220 – Bahar 2005

İdeal Bilgi Erişim Sistemi İlgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı “İlgililik” kavramı Nesnel ilgililik Öznel ilgililik Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak DOK 220 – Bahar 2005

İkili ilgililik (İlgili/İlgisiz) İlglilik Derecesi İkili ilgililik (İlgili/İlgisiz) 0-1 ölçeğinde ilgililik (veya 0-1000 ölçeğinde) DOK 220 – Bahar 2005

Hakkındalık Bir belgenin X konusunda olduğuna nasıl karar veririz? Dizin terimleri/konu başlıkları bir belgenin hangi konu(lar) hakkında olduğunu belirtir Dizin terimleri vermek genellikle ikili bir karardır DOK 220 – Bahar 2005

Ağırlıklandırma Belgelerde geçen terimler Arama sorularında geçen terimler Terimlere negatif ağırlık verilebilir mi? DOK 220 – Bahar 2005

Erişim Kuralları Boole mantığı Vektör uzayı modeli Olasılık modeli Set kuramına dayanıyor. Boole işleçleri –VE, VEYA, DEĞİL- kullanılıyor Vektör uzayı modeli (D,Q) = (tkxqk) / (tk)2 x (qk) 2 tk = k teriminin belgedeki değeri qk = k teriminin sorgudaki değeri Olasılık modeli P (ilgili) = n / N P( ilgili) = 1 – P(ilgili) = N – n / N n = ilgili belge sayısı N = toplam belge sayısı İstatistiksel ağırlıklandırma (tf*idf) Ağırlıklandırma ilkesi: İlgili belgelerde sık AMA derlemin tamamında seyrek geçen terimleri daha yüksek ağırlıklandır  DOK 220 – Bahar 2005

Bilgi Erişim Sistemleri Mükemmel Değil! N y v x u İLGİLİ ERİŞİLEN v tipi hatalar u tipi hatalar DOK 220 – Bahar 2005

Bilgi Erişim Performansı İLGİLİ İLGİSİZ ERİŞİLEN x u n1 ERİŞİLE-MEYEN v y n2 y v x u İLGİLİ ERİŞİLEN Duyarlık = x / n1 Erişilen ilgili belgelerin erişilen tüm belgelere oranı Anma = x / n2 Erişilen ilgili belgelerin tüm ilgili belgelere oranı Posa = u / u + y Erişilen ilgisiz belgelerin tüm ilgisiz belgelere oranı Genellik = n2 / N Tüm dermedeki ilgili belgelerin oranı DOK 220 – Bahar 2005

Diğer Performans Ölçümleri Kapsama Oranı: |Rk| / U Gerçekte erişilen ilgili belgelerin kullanıcının ilgili olduğunu önceden bildiği belgelere oranı Yenilik Oranı: |Ru| / |Ru| + |Rk| Gerçekte erişilen ilgili belgelerin kullanıcının ilgili olduğunu önceden bilmediği belgelere oranı U: kullanıcının ilgili olduğunu önceden bildiği belgeler seti Rk: Erişilen ve kullanıcının önceden ilgili olduğunu bildiği belgelerin sayısı Ru: Erişilen ve kullanıcının önceden ilgili olduğunu bilmediği belgelerin sayısı DOK 220 – Bahar 2005

Normalleştirilmiş Sıralama 1 2 3 4 5 6 7 8 9 Sıra1 + - Sıra2 Sıra3 Duyarlık üç arama için de 5/9 Hangisini tercih edersiniz? DOK 220 – Bahar 2005

Bilgi Erişim Sorunları Belge nedir ve boyu nasıl hesaplanır? Bu belge ne hakkındadır? Bu sorgu ne hakkındadır? Bu sorgu ve belge aynı şey hakkında mıdır? Bu belge verilen sorgu ile ilgili midir? Bu belge sisteme sunulan bilgi ihtiyacı ile ilgili midir? Bu belge ne kadar ilgilidir? Bu veritabanı verilen sorgu ile ilgili midir? Bu resim ne hakkındadır? DOK 220 – Bahar 2005

Bilgi Erişime İşlevsel Bakış DOK 220 – Bahar 2005

Belge İşleme ve Gösterimi Ön işlem: Noktalama işaretlerinin kaldırılması ve daha sonra durma listesinde bulunan kelimelerin belgeden ayıklanması. Gövdeleme: bir kelimeden yapım eklerinin korunup çekim eklerinin atılması. Belge Gösterimi için içerik terimleri ve onların göreceli ağırlıkları. Bir terimin ağırlığı onun belge içindeki sıklığı ile doğru, fakat derlem sıklığı ile ters orantılıdır. DOK 220 – Bahar 2005

Dizinler Dizin ne içermelidir? Veritabanı sistemi asıl ve ikincil anahtarları dizinler. BE Problemi: anahtarları kestirebilmek? Çözüm: İçerik terimleri. Zipf Kanunu: Terimlerin dağılımı ve sıraları arasındaki ilişki sabit bir değere yakınsar. İçerik terimlerin göreceliği ağırlığı ne olmalıdır? Sıklık Modeli: Terim sıklığı? Belge sıklığı? Ayrımsama Modeli: belge uzayının yoğunluğunu azaltan terim iyi bir terimdir. Dil modeli: Belgenin söz konusu terimi üretme olasılığı ile derlemin üretme olasılığı arasındaki doğrusal ilişki ağırlığı belirler. DOK 220 – Bahar 2005

Zipf Kanunu DOK 220 – Bahar 2005

Ayrımsama Modeli DOK 220 – Bahar 2005

Sorgu İfadesi 2 temel sorgu dili türü Boole, yapılı Serbest metin Birçok sistem birisini ya da her ikisini birden desteklemektedir. Sorgu ifadesinin oluşturulmasında kullanıcı arayüzü önemlidir. Sorgu ifadesinin oluşturulması için araçlar Sorgu işleme ve ağırlıklandırma Sorgu genişletme Sözlükler ve eşanlamlı sözlük İlgililik geribildirimi DOK 220 – Bahar 2005

Sorgu İşleme Sorgu işleme adımları otomatik belge dizinlemeninkilere çok benzemektedir. Durma Kelime Listesi farklı olabilir Metin daha az gramatik ve kısa olabilir Kullanıcı etkileşimi mümkün ve istenebilir Sorgu-tabanlı gövdeleme ve durma kelimeleri Diğer olası adımlar Tamlamaların tanınması Negatiflerin tanınması İlgili kelimelerle sorguların genişletmesi DOK 220 – Bahar 2005

Erişim Modelleri Boole model kesin eşleştirme yaklaşımına dayanmaktadır. Sorgular belge özelliklerini işlenenler olarak kabul eden mantık ifadeleridir. Geri getirilen belgeler genelde sıralanmaz. Acemi/Tecrübesiz kullanıcılara Boole sorgu ifadesi zor gelebilir. Boole geri-erişim modeli ile Boole sorguları birbirlerinden ayırma gereksinimi Saf Boole işleçleri: VE, VEYA, VE DEĞİL Bir çok sistem uzaklılık işleçlerine sahiptir Bir çok sistem basit düzenli ifadeleri desteklemektedir DOK 220 – Bahar 2005

Vektör Uzayı Bilgi Geri Erişim Modeli Belge, terimlerin bir vektörü olarak gösterilir. Sorgu, serbest metin veya terimlerin bir vektörü olarak gösterilir. İki vektör arasındaki açı benzerlik ile ters orantılıdır. Belgeleri sorguya benzerliklerine göre sıralar. DOK 220 – Bahar 2005

Benzerlik ölçüleri Bir bilgi erişim sistemi arama sorusuna benzeyen belgelere erişmeli benzemeyenleri reddetmelidir Bir dermedeki hangi belgelerin arama sorusunda istenenlere benzediğini (yani ilgili olduğunu) belirlemeye yarayan çeşitli benzerlik ölçüleri vardır DOK 220 – Bahar 2005

Vektör Uzayında Benzerlik: Ortak Ölçümler DOK 220 – Bahar 2005

Benzerlik Skorunun Hesaplanması: Kosinüs Katsayısı Pekmez Slide 38 of 79  Zile http://www.sims.berkeley.edu/courses/is296a-3/f98/lectures/ir-background/sld038.htm DOK 220 – Bahar 2005

Arama Motorunun Merkezi Mimarisi DOK 220 – Bahar 2005

Web Örümceği ve Veri Toplama Hiper-bağlantılı belgeler çizgedeki düğümler olarak görülebilir. – İlginç altçizgeler: alan isimleri kesişen düğümler – İzole altçizgeler: Dışardan referans almayan düğümler Veri toplama meseleleri: – Her bir düğüm nasıl bir kere ziyaret edilecek – Düğümlerin temsili örneklemi nasıl elde edilir DOK 220 – Bahar 2005

Web Örümceği İşlevsel Mimarisi DOK 220 – Bahar 2005

Veri Toplama ve Sorgu Dili: Ortak Sorunlar Göreceli yollar: <A HREF=“../../../bby220/”>Yayınlar</A> Tekrarlı sayfalar (%30): Aynı sayfa, farklı adres. Javascript: Dinamik HTML Çok büyük sayfalar: 10 MB sayfayı gerçekten tümü ile dizinlemek istiyor musunuz? Dinamik içerik: Web kaynakları tahmini olarak ortalama 75 gün değişmeden kalmaktadırlar. Kaliteli Web sayfaları: Nasıl ölçülür? Meta öznitelikler: description, keywords, title, vs. Bir kaç kelimelik sorgular (ortalama 1.5) DOK 220 – Bahar 2005

Üst Arama Motorları DOK 220 – Bahar 2005