1 SKOR DAĞILIMLI ÜST ARAMA MODELİ SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ.

Slides:



Advertisements
Benzer bir sunumlar
Bölüm 5 Örneklem ve Örneklem Dağılımları
Advertisements

Kütle varyansı için hipotez testi
GİRİŞ BÖLÜM:1-2 VERİ ANALİZİ YL.
Simülasyon Teknikleri
BENZETİM Prof.Dr.Berna Dengiz 8. Ders.
İki kütle ortalamasının farkının güven aralığı
Normal dağılan iki kütlenin ortalamalarının farkı için Hipotez testi
BENZETİM Prof.Dr.Berna Dengiz 7. Ders.
İstatistik Tahmin ve Güven aralıkları
Güz Yrd. Doç.Dr. Zeynep Ocak
PROSES YETERLİLİK ÇÖZÜMLEMESİ
ANOVA.
ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ
Excel’in bazı istatistik fonksiyonlarını öğrenmek:
TEKNOLOJİNİN BİLİMSEL İLKELERİ
BİLGİ TEKNOLOJİLERİ EĞİTİMİNDE BDÖ YAZILIMI KULLANMA VE UYGULAMA SONUÇLARINA YÖNELİK BİR ÇALIŞMA Okut. Halit KARALAR (Muğla Üniv.Enf.Bölümü) Dr. Yaşar.
HATA TİPLERİ Karar H0 Doğru H1 Doğru H0 Kabul Doğru Karar (1 - )
8. SAYISAL TÜREV ve İNTEGRAL
Excel’de istatistik fonksiyonları
Dağıtık Ortak Hafızalı Çoklu Mikroişlemcilere Sahip Optik Tabanlı Mimari Üzerinde Dizin Protokollerinin Başarım Çözümlemesi I. Ulusal Yüksek Başarım ve.
SOME-Bus Mimarisi Üzerinde Mesaj Geçişi Protokolünün Başarımını Artırmaya Yönelik Bir Algoritma Çiğdem İNAN, M. Fatih AKAY Çukurova Üniversitesi Bilgisayar.
Kaliteli Teknik Resmin Üç Temel Niteliği:
SİMÜLASYON VE BULANIK KÜME YAKLAŞIMI İLE PROJE RİSK DEĞERLEMESİ
MERSİN ÜNİVERSİTESİ DENİZCİLİK MESLEK YÜKSEKOKULU AKADEMİK DEĞERLENDİRME ve KALİTE GELİŞTİRME TOPLANTISI NİSAN 2010.
İSTANBUL ÜNİVERSİTESİ Açık ve Uzaktan Eğitim Fakültesi
TEST – 1.
2 ve 1’in toplamı 3 eder..
Prof. Dr. Hüseyin BAŞLIGİL
OLASILIK ve OLASILIK DAĞILIMLARI
Büyük ve Küçük Örneklemlerden Kestirme
SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi
Yaygınlık Ölçüleri Bir dağılımdaki değerlerin ortalamaya olan uzaklıkları farklılıklar gösterir. Bu farklılıkların derecesi dağılımın yaygınlığı kavramını.
8 ? E K S İ L E N EKSİLEN _ 5 5 ÇIKAN FARK(KALAN) 8.
SÜREKLİ ŞANS DEĞİŞKENLERİNİN OLASILIK YOĞUNLUK FONKSİYONLARI
OLASILIK ve KURAMSAL DAĞILIMLAR
İki Ortalama Farkının Test Edilmesi
14.ULUSAL TURİZM KONGRESİ 2013 YILI BİLDİRİLERİ ÜZERİNE BİR DEĞERLENDİRME Prof. Dr. A. Celil ÇAKICI Mersin Üniversitesi Turizm Fakültesi.
Web Ortamında Arama Yapmak R. Orçun MADRAN. Arama Motorları Arama Motorları, günümüzün popüler bilgiye erişim sistemlerinin başında yer almaktadır. Bir.
1 BBY Bilgi Erişim İlkeleri BES’de Etkinlik Değerlendirme.
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
B- Yaygınlık Ölçüleri Standart Sapma ve Varyans Varyasyon Katsayısı
Normal Dağılımlılık EKK tahmincilerinin ihtimal dağılımları u i ’nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır.  tahminleri için uygulanan.
Z ve T puanları Yrd. Doç. Dr. Cenk Akbıyık.
Bilgi Erişim Sistemleri II Hayri Sever Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi Bağlıca Ankara Yaşar Tonta Bilge.
Normal Dağılım EKK tahmincilerinin ihtimal dağılımları u i ’nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır.  tahminleri için uygulanan testlerin.
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
Bilişim Teknolojileri için İşletme İstatistiği
Olasılık Dağılımları ve Kuramsal Dağılışlar
İstatistik-3 Prof.Dr. Cem S. Sütcü Marmara Üniversitesi İletişim Fakültesi Bilişim A.B.D. cemsutcu.wordpress.com.
İrem Soydal ~ Yurdagül Ünal
ÖĞRENME AMAÇLARI Pazar segmentasyon kararları için farkların nasıl kullanıldığını öğrenmek t testinin ve z testinin ne zaman kullanılması gerektiği.
İSTATİSTİKTE TAHMİN ve HİPOTEZ TESTLERİ İSTATİSTİK
SÜREKLİ OLASILIK DAĞILIŞLARI Standart Normal Dağılım
Parametrik ve Parametrik Olmayan Testler Ortalamaların karşılaştırılması t testleri, ANOVA Mann-Whitney U Testi Wilcoxon İşaretli Sıra Testi Kruskal Wallis.
Parametrik ve Parametrik Olmayan Testler Ortalamaların karşılaştırılması t testleri, ANOVA Mann-Whitney U Testi Wilcoxon İşaretli Sıra Testi Kruskal Wallis.
ÖLÇME VE DEĞERLENDİRME DERSİ
Teorik Dağılımlar: Diğer Dağılımlar
Atatürk Üniversitesi Tıp Fakültesi
DERS3 Prof.Dr. Serpil CULA
VERİLERİN DÜZENLENMESİ VE ORGANİZASYONU
ARAŞTIRMA YÖNTEM ve TEKNİKLERİ
DERS4 Prof.Dr. Serpil CULA
PANSİYONLU OKULLARDA ÇALIŞAN BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLERİNİN KARAR VERMEDE ÖZ SAYGI ve KARAR VERME STİLLERİ Yasin DEMİRCAN, Vedat AYAN Tekışık Anadolu.
Numerik Veri Tek Grup Prof. Dr. Hamit ACEMOĞLU.
B- Yaygınlık Ölçüleri Standart Sapma ve Varyans Değişim Katsayısı
5.1 POLİNOMİNAL REGRESSİYON
ÖLÇME-DEĞERLENDİRME 8. SINIF
NİŞANTAŞI ÜNİVERSİTESİ
Normal Dağılımlılık EKK tahmincilerinin ihtimal dağılımları ui’nin ihtimal dağılımı hakkında yapılan varsayıma bağlıdır. b tahminleri için uygulanan testlerin.
Sunum transkripti:

1 SKOR DAĞILIMLI ÜST ARAMA MODELİ SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ

2 Bilgi Erişim Sistemleri Tekli Çerçeve Çalışmaları –Sadece bir sorgu işleme motoru. –Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları –Birden fazla sorgu işleme motoru. –Veri Birleştirme ve Kolleksiyon Birleştirme. Başkent Üniversitesi

3 Üst Arama Problemi Skor Normalleştirme Adımı –Farklı sistemler farklı erişim çıktıları sunar. –Erişim çıktıları ortak bir ölçeğe çekilir. Birleştirme Adımı –CombSUM ve CombMNZ en etkili yöntemler. Yöntemİşlev CombMINBağımsız skor değerlerinin en küçüğü CombMAXBağımsız skor değerlerinin en büyüğü CombMEDBağımsız skor değerlerinin ortancası CombSUM Bağımsız skor değerlerinin Toplamı CombANZ CombSUM / sıfırdan farklı skor değerlerinin sayısı CombMNZ CombSUM * sıfırdan farklı skor değerlerinin sayısı Başkent Üniversitesi

4 Varolan Normalleştirme Yöntemleri Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi. Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı. 4 arama sisteminden sonra azalan bir performans oluşmakta. Yöntem AdıAçıklama StandartMinimum değeri 0, Maximum değeri 1 olarak belirle. SumMinimum değeri 0, ve Sum’ı 1 olarak belirle. ZMUVOrtalamayı 0, varyansı 1 olarak belirle. Başkent Üniversitesi

5 Üst Arama Verileri Geliştirilen sistemlerin test edilmesi için büyük veri kümelerine ihtiyaç duyulur. Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından TREC geliştirildi. Derlem 2 gb büyüklüğünde yaklaşık 1 milyon belgeden oluşmakta. Kullanılan değerlendirme yöntemlerinde birlikteliğin sağlanmasını sağlar.

6 Trec-4 ve -9 için varolan normalleştirme teknikleri İşletimlerSumZMUVStandartSumZMUVStandartBağımsız CombSUMCombMNZİşletim Crn1AE0,2944 pircs10,30200,29480,29920,30170,29380,30010,2599 citya10,30570,29330,30010,30420,29230,30150,2568 INQ2010,30880,29460,30560,30680,29290,30520,2407 siems1 0,30390,28660,30460,30470,28760,30590,2031 Ortalama 0,30300,29270,30080,30240,29220,30140,251 Değişim(%)0,19520,02010,19840,20480,16410,2007 İşletimlerSumZMUVStandartSumZMUVStandartBağımsız CombSUMCombMNZİşletim jscbt9w1120,2801 ric9dpn0,30170,29420,29020,30080,29320,29050,2616 Nenm0,30700,29770,30230,30850,30140,30540,2499 acsys9mw00,32410,31650,32610,32860,32630,33100,2486 hum9mw00,32300,31550,32270,32580,32370,32570,2335 Ortalama0,30720,30080,30430,30880,30490,30650,2547 Değişim(%)0,20610,18090,19470,21240,19710,2034 Başkent Üniversitesi

7 Trec-4 ve -9 için varolan normalleştirme teknikleri Trec-4 Trec-9 Başkent Üniversitesi

8 ZMUV Normalleştirme Tekniği Bu teknik iki Gaussian dağılımın varyans ve ortalama değerleninin normalleştirilmesidir. Başkent Üniversitesi – 2003 İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez.

9 Uygun Normalleştirme Tekniği Farklı arama sistemlerine ait erişim çıktılarındaki ilgisiz belge skor dağılımları kullanılarak uygun normalleştirme sağlanabilir. Başkent Üniversitesi

10 Dağılım Eşitlenmesi Yöntemi İlgisiz dağılımların üstel doğası, belge skorları için bilgi sağlar. p(x) = λ exp(-λx),x=skor(D). μ = 1 / λ(üstel dağılımın ortalaması). Üstel ilgisiz bir dağılım için minimum skorlar 0 ve maximum skorlar 1 olarak kabül edilir. Üstel ilgisiz bir dağılım için üstel uygunluk ML(Maximum Likelihood) yöntemi ile hesaplanır. λ = count({D | D Є NonRel}) / Σ D Є NonRel score(D) skor(D) = skor(D)*λ. Bu teknik EXPML olarak adlandırlır. Başkent Üniversitesi

11 İlgisiz Dağılımların Kestirilmesi Karma model uygunluğu kullanılarak kestirme Toplam dağılım kullanılarak kestirme Ortalama kullanılarak kestirme Başkent Üniversitesi

12 Karma Model Uygunluğu İlgili belgeler için normal ve ilgisiz belgeler için üstel bir dağılım kullanılır. Expectation Maximization yöntemi kullanılarak üstel ve Gaussian dağılımlarından oluşan karma bir model skor dağılımları için uygunlaştırılabilir. Üstel bileşen için ortalama, normal bileşen içinde ortalama ve standart sapma değerleri hesaplanarak skorlar normalleştirilir. Bu yöntem EXPEM olarak adlandırılır. Başkent Üniversitesi

13 Toplam Dağılım Arama sistemlerinin çıktılarında ilgili belgelerin oranı çok düşük olduğu için ilgili ve ilgisiz bütün belge skorlarının dağılımları kullanılarak normalleştirme işlemi yapılabilir. Minimum değerler 0 olarak belirlenerek ve tüm belge skorları eşitlenerek normalleştirme işlemi gerçekleştirilir. Bu yöntem SUM normalleştirme tekniğine eşdeğer olarak görülür. Başkent Üniversitesi

14 Ortalama Kullanılarak Kestirme Karma model kestirmesi ve toplam dağılımların kestirmesi yöntemlerinin ortalaması alınarak yeni bir kestirme elde edilir. Bu yöntem EXPEM-CombSUM ve Sum- CombSUM yöntemleri arasında bir performans değerine sahiptir. Başkent Üniversitesi

15 Trec-4 ve -9 için normalleştirme teknikleri İşletimlerSumEXPMLEXPEMEXPAVRStandartBağımsız CombSUMCombMNZİşletim Crn1AE pircs cityal INQ siems Ortalama Değişim(%) İşletimlerSumEXPMLEXPEMEXPAVRStandartBağımsız CombSUMCombMNZİşletim jscbt9w110,2801 ric9dpn0,30170,30520,30300,30410,29050,2616 NEnm0,30700,30960,30750,30910,30540,2499 acsys9mw0,32410,33190,32810,32950,33100,2486 hum9tdn0,32300,33060,32690,32880,32570,2335 Ortalama0,30720,31150,30910,31030,30650,2547 Değişim(%)0,20610,22300,21360,21830,2034 Başkent Üniversitesi

16 Trec-4 ve -9 için normalleştirme teknikleri Başkent Üniversitesi

17 Sonuçlar Bu çalışmada tartışılan, farklı arama sistemlerine ait ilgisiz skor dağılımlarının eşitlenmesi ve sonuç skorlarının ortalamalarının alınması yöntemi ile en iyi sonuçlar üretilmiştir. İlgisiz dağılımların kestirilmesi için üç farklı yöntem üzerinde durulmuş ancak en kolay tekniğin toplam dağılımların kestirilmesi olduğu görülmüştür. Çoklu arama sistemlerinin birleştirilmesi bilgi erişiminde genellikle önemli bir ilerleme sağlamaktadır ancak 5’den fazla arama motorunun sonuçlarının birleştirilmesinden sonra performans artışının devam edeceğini söylemek doğru görünmemektedir. Başkent Üniversitesi

18 TEŞEKKÜRLER