Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme

Slides:



Advertisements
Benzer bir sunumlar
8. SINIF 3. ÜNİTE BİLGİ YARIŞMASI
Advertisements

Yrd. Doç. Dr. Mustafa Akkol
Prof.Dr.Şaban EREN Yasar Üniversitesi Fen-Edebiyat Fakültesi
İÇİNDEKİLER - ORAN ORANTI DOĞRU ORANTI TERS ORANTI ARİTMETİK ORTALAMA
NOKTA, DOĞRU, DOĞRU PARÇASI, IŞIN, DÜZLEMDEKİ DOĞRULAR
Saydığımızda 15 tane sayı olduğunu görürüz.
Eğitim Programı Kurulum Aşamaları E. Savaş Başcı ASO 1. ORGANİZE SANAYİ BÖLGESİ AVRUPA BİLGİSAYAR YERKİNLİĞİ SERTİFİKASI EĞİTİM PROJESİ (OBİYEP)
ASELSAN- TOKİ YAPRACIK KONUTLARI KOORDİNASYON KURULU
Yrd. Doç. Dr. Mustafa Akkol
Kofaktör Matrisler Determinantlar Minör.
Diferansiyel Denklemler
JEODEZİ I Doç.Dr. Ersoy ARSLAN.
ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ
Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri
Ankara Üniversitesi Açık Arşiv Uygulaması
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Veri Toplama, Verilerin Özetlenmesi ve Düzenlenmesi
AKILLI TAHTA Orhan YORULMAZ Semih ŞENGİDER Nazar SALPİYEV Berk HERAL
Verimli Ders Çalışma Teknikleri.
Birinci Dereceden Denklemler
FONKSİYONLAR ve GRAFİKLER
Kaliteli Teknik Resmin Üç Temel Niteliği:
1 ÖMER ASKERDEN EMLAK KREDİ İLKÖĞRETİM OKULU UZMAN MATEMATİK ÖĞRETMENİ AKSARAY ÜNİTE: HARFLİ İFADELER VE DENKLEMLER KONU:HARFLİ İFADELERİ ÇARPANLARA AYIRMA.
ARALARINDA ASAL SAYILAR
Gün Kitabın Adı ve Yazarı Okuduğu sayfa sayısı
Matematik 2 Örüntü Alıştırmaları.
MATRİSLER ve DETERMİNANTLAR
Devre ve Sistem Analizi Projesi
22 Eylül 2006 TBB BANKACILIK ALT ÇALIŞMA GRUBU Nurhan Aydoğdu
Formül Hazırlama ve Kullanma
Tam sayılarda bölme ve çarpma işlemi
DERS 2 MATRİSLERDE İŞLEMLER VE TERS MATRİS YÖNTEMİ
TEST – 1.
HABTEKUS' HABTEKUS'08 3.
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
Microsoft EXCEL (2) Kapsam Kopyalama, Yapıştırma Açıklama Ekleme Satır ve Sütunların Boyutlandırılması Bitişik Hücrelere Dayanarak Otomatik Veri Girme.
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yaşar Tonta Hacettepe Üniversitesi
Chapter 6: Using Arrays.
Yard. Doç. Dr. Mustafa Akkol
DERS 3 DETERMİNANTLAR ve CRAMER YÖNTEMİ
EŞİTSİZLİK GRAFİKLERİ
Diferansiyel Denklemler
DENKLEMLER. DENKLEMLER ÜNİTE BAŞLIĞI X kimdir neye denir,neden gereksinim duyulmuştur.Bilinmeyeni denklem kurmada kullanırız.Bilinmeyen problemlerde.
Birinci Dereceden Denklemler
STANDART SAPMA.
DENEY TASARIMI VE ANALİZİ (DESIGN AND ANALYSIS OF EXPERIMENTS)
VERİ İŞLEME VERİ İŞLEME-4.
Bankacılık sektörü 2010 yılının ilk yarısındaki gelişmeler “Temmuz 2010”
1-1-2 Türkiye genelinde Acil Sağlık Hizmetlerine erişim numaraları ile yapılmaktadır. Ambulans içinde Doktor,Hemşire,Sağlık Memuru,AABT,ATT, Şoför.
1 (2009 OCAK-ARALIK) TAHAKKUK ARTIŞ ORANLARI. 2 VERGİ GELİRLERİ TOPLAMIDA TAHAKKUK ARTIŞ ORANLARI ( OCAK-ARLIK/2009 )
Tuğçe ÖZTOP İlköğretim Matematik Öğretmenliği 2. sınıf
Çocuklar,sayılar arasındaki İlişkiyi fark ettiniz mi?
İSMİN HALLERİ.
Toplama Yapalım Hikmet Sırma 1-A sınıfı.
RASYONEL SAYILARLA TOPLAMA ve ÇIKARMA İŞLEMLERİ
1/22 GEOMETRİ (Dikdörtgen) Aşağıdaki şekillerden hangisi dikdörtgendir? AB C D.
1 BBY Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme.
1.HAFTA 26 Ağustos 2009 ÇARŞAMBA 2.HAFTA 01 EYLÜL 2009 SALI 3.HAFTA 09 EYLÜL 2009 ÇARŞAMBA 4.HAFTA 15 EYLÜL 2009 SALI 5.HAFTA 23 EYLÜL 2009 ÇARŞAMBA 6.HAFTA.
1.HAFTA 26 Ağustos 2009 ÇARŞAMBA 2.HAFTA 01 EYLÜL 2009 SALI 3.HAFTA 09 EYLÜL 2009 ÇARŞAMBA 4.HAFTA 15 EYLÜL 2009 SALI 5.HAFTA 23 EYLÜL 2009 ÇARŞAMBA 6.HAFTA.
CEBİRSEL İFADELERİ ÇARPANLARINA AYIRMA
Yard. Doç. Dr. Mustafa Akkol
ÖĞR. GRV. Ş.ENGIN ŞAHİN BİLGİ VE İLETİŞİM TEKNOLOJİSİ.
Diferansiyel Denklemler
 Bir bilgi erişim sistemi: ◦ (1) bir belge derlemi ya da bu belgeleri temsil eden dizin terimlerini içeren kayıtlar, ◦ (2) kullanıcıların sorgu cümleleri,
İrem Soydal ~ Yurdagül Ünal
İrem Soydal ~ Yurdagül Ünal
Hafta 1: Dizinleme ve Özler BBY 264 Dizinleme ve Sınıflama.
Sunum transkripti:

Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme Normalleştirme Etkeninin Önemi Özlem KARAGEDİK Ata Önal

Amaç Çalışmada, kullanıcının ihtiyacı olan ilgili belgelere en iyi oranda erişerek arama kalitesinin arttırılması amaçlanmıştır. Bu amaçla, vektör uzay modeli ve eksenli benzersiz normalleştirme modeli karşılaştırılarak bu modellerin sonuçları gözlemlenmiştir.

Bilgiye Erişim Nedir? DdDdd Bilgiye erişim denince akla genelde internet arama motorları gelir. Ticari olarak başarılı çalışmalar 30 yıldan fazla akademik araştırma konusu Bilgiye erişim herhangi bir ilgili belgeyi bulmayı kapsar.

Bilgiye Erişim Sistemleri Bilgiye erişim sistemleri, belge arşivlerinde kullanıcıların isteklerine uygun belgelere, kullanıcıların kolay bir şekilde erişimlerini sağlayan sistemlerdir.

Bilgiye Erişim Sistemleri

Bilgiye Erişim Sistemleri Bilgiye erişim sistemleri belge arşivlerindeki ilgili (relevant) belgelere erişmeyi, ilgisiz (non-relevant) belgeleri ise çıkartmayı amaçlar. Bilgiye erişim sistemlerinin kalitesinin arttırılması Elde edilen ilgili belge sayısının arttırılması, İlgili belgelerin sıralamada daha yüksek sıralarda yer alması ile olur.

Bilgiye Erişim Sistemleri

Değerlendirme Ölçütleri İlgililik Sorguların kullanıcının ihtiyacını ne kadar iyi karşıladığının ölçüsüdür. Hassasiyet Erişilen ilgili belgelerin, erişilen belgelere oranıdır. Hassasiyet=İlgili erişilen belgeler/Erişilen belgeler Anma Erişilen ilgili belgelerin, bütün ilgili belgelere oranıdır. Anma=İlgili erişilen belgeler/ilgili belgeler

Sıralandırılmış Bir Listeyi Değerlendirme Derecelendirilmiş Erişim Her derece için hassasiyet ve anma hesaplanır. Hassasiyet ve anma grafiği çizilir. Ortalama Hassasiyet İlgili belgelere erişilen sıralardaki ortalama hassasiyet

Hassasiyetlerin Aritmetik Ortalaması(MAP) Her bir sorgu için hesaplanan ortalama hassasiyet değerlerinin aritmetik ortalamasına denir.

Ön İşlemler Sorguyu ve belgeleri bilgiye erişime hazır ve verimli hale getirmek için, yapılan işlemlerdir. Bu işlemler: Tek harfli veya iki harfli gibi çok kısa kelimeler silinir.

Ön İşlemler Çıkartılacak kelimeler listesindeki (stop word list) kelimelerin atılır (stop word elimination). Kelimelerin türetilmiş veya ek almış hallerinden kurtularak köklerine inmek için birkaç farklı yöntem vardır.

Kullanılan Yöntemler Vektör Uzay Modeli(Vector Space Model) Terim Sıklığı- Devrik Belge Sıklığı(Term Frequency-Inverse Document Frequency (Tf-Idf)) Kosinüs Benzerliği Eksenli Benzersiz Normalleştirme (Pivoted Unique Normalization)

Vektör Uzay Modeli Belgeler ve sorgular birer vektör ile ifade edilir. Her bir belge, anlamlı kelimelerden oluşan ve kelimelerin her birinin ağırlığı olan birer terim vektörü şekline getirilir. Belge vektörleri bir araya getirilerek bütün belgeleri içeren bir matris oluşturulur

Vektör Uzay Modeli Belge terim matrisi ( D matrisi) Her bir satırı bir belgeyi vektör olarak gösterirken, Sütunları da terim vektörleri olarak adlandırılır.

Vektör Uzay Modeli Terim Ağırlığı her bir terimin o belge için önemini belirtir. Terim ağırlığı farklı yollarla bulunabilir. Terim Sayısı Terim Sıklığı- Devrik Belge Sıklığı

Terim Sıklığı- Devrik Belge Sıklığı Terimin ağırlığı, belge içerisinde o terimin geçme sayısıyla doğru orantılıyken; bütün belge havuzu içerisinde o terimin geçme sıklığıyla ters orantılıdır

Kosinüs Benzerliği Kosinüs benzerliği iki vektör arasındaki açının kosinüsünü bularak bu vektörlerin birbirleriyle benzerliklerini ölçmek için kullanılmaktadır . Kosinüs benzerliğinde belge ve sorgular kendi vektör uzunluklarına bölünerek birim vektör haline getirilir. Kosinüs değeri sıfır ile bir arasında olur. Bir değerine ne kadar yakınsa benzerlik o kadar fazladır.

Kosinüs Benzerliği

Kosinüs Benzerliği Belge ve sorgular kendi vektör uzunluklarına bölünerek birim vektör haline getirilir. Vektör uzunluklarına bölünmesiyle belgeler normalleştirilir.

Erişim kalitesini etkileyen faktörler Belge uzunluklarının normalleştirilme gereksinimleri şunlardır: Yüksek terim frekansları : Uzun belgeler , genelde aynı terimi çokça kez tekrar eder. Fazla sayıda terim: Uzun belgeler fazla sayıda farklı terim içerir.

Kosinüs Benzerliği Kosinüs benzerliğinde normalleştirme ağırlıklı belge vektörü uzunluğuna bölünerek yapılır. Normalleştirme belgelerin uzunluklarından bağımsızdır. Bu durumda büyük belgeler için vektör uzunlukları çok büyük olur. Belgeler büyüdükçe kosinüs normalleştirmesinin başarısı düşer.

Eksenli Benzersiz Normalleştirme Modeli Klasik vektör uzay modelinin değiştirilmiş bir versiyonudur. Terim ağırlığı hesaplanırken, terim ve belge frekanslarından farklı olarak bir normalleştirme etkeni de denkleme eklenir.

Eksenli Benzersiz Normalleştirme Modeli dtf:terimin belgede geçme sayısı sumdtf: belge içerisindeki tüm terimler için ifadesinin toplamı N koleksiyondaki toplam belge sayısını nf j. terimi içeren belge sayısını U’da belgedeki benzersiz terim sayısını gösterir

Eksenli Benzersiz Normalleştirme Modeli Denklemin ilk kısmında sumdtf değerine bölünmesiyle, uzun belgelerde aynı sayıda terimin çokça geçmesi problemine çözüm getirir Normalleştirme etkeni uzun belgelerin fazla sayıda farklı terim içermesi ve bunun uzun belgelerin ağırlıklarını yükseltmesi problemine çözüm getirir

Veri Kümesi WikipediaMM, görsel bigiye erişim için Wikipedia resimlerinin koleksiyonundan oluşan bir test ortamı sunar. Veri kümesi olarak wikipedia’nın kullanılmasının amacı, kullanıcının arama yapabileceği, web’e benzer nitelikte daha büyük ölçekli ve heterojen içerikli bir koleksiyonu araştırmaktır. Çalışmada WikipediaMM 2008 veri kümesi kullanılmıştır.

Veri Kümesi Veri kümesi, çeşitli konularda 151,519 resim içerir . Bu resimlerin her biri yapısal olmayan gürültülü metinsel açıklamalar içerir. Bu veri kümesinde resimler üzerinde aranabilecek 75 metinsel sorgu bulunur. Sorgularla ilgili olan toplam belge sayısı ise 5593’tür.

Veri Kümesi Belge Örnek <?xml version="1.0"?> <article> <name id="10">1959ModelPiperPA24 Comanche.jpg</name> <image xmlns:xlink="http://www.w3.org/1999/xlink" xlink:type="simple" xlink:actuate="onLoad" xlink:show="embed" xlink:href="../pictures/1959ModelPiperPA-24Comanche.jpg" id="10" part="images-40000">1959ModelPiperPA-24Comanche.jpg</image> <text>A 1959 model Piper PA-24 Comanche, Valleyfield, Quebec 2004</text> </article>

Veri Kümesi Sorgu Örnek <topic> <number>76</number> <title>Shopping in a market</title> </topic>

Deneysel Sonuçlar Eksenli benzersiz normalleştirme modelinin daha başarılı olduğu gözlemlenmiştir. Bu model belgelerin uzunluklarını dikkate alan bir normalleştirme etkeni kullanarak, çok büyük boyuttaki belgelerin ağırlıklarını azaltılmış, küçük boyuttaki belgelerin ağırlıklarını arttırmış ve bütün belgelerdeki ağırlıkları ortalama boyuttaki belgelerle ile aynı seviyeye getirmiştir.

Deneysel Sonuçlar No Yöntem Ort. Hassasiyet İlk 5’de hassasiyet İlk 10’da hassasiyet Erişilen İlgili Erişilen İlgili 1 Vektör Uzay Modeli-Kosinüs Norm. 0.1394 0.2427 0.2013 64040 2369 5593 2 Eksenli Benzersiz Normalleştirme 0.2549 0.4453 0.3693 65888 3184

Gelecek Çalışmalar Çalışmanın bundan sonraki ilerleyişi: kullanıcının sorgularını sistemin otomatik olarak genişletmesi ile arama kalitesinin arttırılması üzerine olacaktır. Genişletme ile, sorgudaki kelimeler ile benzer anlamlı yeni kelimeler, sorguya eklenecektir. Böylelikle sorgunun içeriği zenginleştirilerek, sorgunun ilk halindeki kelimeyi içermeyen ama sorgu genişletilince bulunabilen ilgili belgelere de erişimi sağlamak amaçlanacaktır.

TEŞEKKÜRLER