1 SKOR DAĞILIMLI ÜST ARAMA MODELİ SKOR DAĞILIMLI ÜST ARAMA MODELİ Güven KÖSE - Hayri SEVER BAŞKENT ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ
2 Bilgi Erişim Sistemleri Tekli Çerçeve Çalışmaları –Sadece bir sorgu işleme motoru. –Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları –Birden fazla sorgu işleme motoru. –Veri Birleştirme ve Kolleksiyon Birleştirme. Başkent Üniversitesi
3 Üst Arama Problemi Skor Normalleştirme Adımı –Farklı sistemler farklı erişim çıktıları sunar. –Erişim çıktıları ortak bir ölçeğe çekilir. Birleştirme Adımı –CombSUM ve CombMNZ en etkili yöntemler. Yöntemİşlev CombMINBağımsız skor değerlerinin en küçüğü CombMAXBağımsız skor değerlerinin en büyüğü CombMEDBağımsız skor değerlerinin ortancası CombSUM Bağımsız skor değerlerinin Toplamı CombANZ CombSUM / sıfırdan farklı skor değerlerinin sayısı CombMNZ CombSUM * sıfırdan farklı skor değerlerinin sayısı Başkent Üniversitesi
4 Varolan Normalleştirme Yöntemleri Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi. Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı. 4 arama sisteminden sonra azalan bir performans oluşmakta. Yöntem AdıAçıklama StandartMinimum değeri 0, Maximum değeri 1 olarak belirle. SumMinimum değeri 0, ve Sum’ı 1 olarak belirle. ZMUVOrtalamayı 0, varyansı 1 olarak belirle. Başkent Üniversitesi
5 Üst Arama Verileri Geliştirilen sistemlerin test edilmesi için büyük veri kümelerine ihtiyaç duyulur. Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından TREC geliştirildi. Derlem 2 gb büyüklüğünde yaklaşık 1 milyon belgeden oluşmakta. Kullanılan değerlendirme yöntemlerinde birlikteliğin sağlanmasını sağlar.
6 Trec-4 ve -9 için varolan normalleştirme teknikleri İşletimlerSumZMUVStandartSumZMUVStandartBağımsız CombSUMCombMNZİşletim Crn1AE0,2944 pircs10,30200,29480,29920,30170,29380,30010,2599 citya10,30570,29330,30010,30420,29230,30150,2568 INQ2010,30880,29460,30560,30680,29290,30520,2407 siems1 0,30390,28660,30460,30470,28760,30590,2031 Ortalama 0,30300,29270,30080,30240,29220,30140,251 Değişim(%)0,19520,02010,19840,20480,16410,2007 İşletimlerSumZMUVStandartSumZMUVStandartBağımsız CombSUMCombMNZİşletim jscbt9w1120,2801 ric9dpn0,30170,29420,29020,30080,29320,29050,2616 Nenm0,30700,29770,30230,30850,30140,30540,2499 acsys9mw00,32410,31650,32610,32860,32630,33100,2486 hum9mw00,32300,31550,32270,32580,32370,32570,2335 Ortalama0,30720,30080,30430,30880,30490,30650,2547 Değişim(%)0,20610,18090,19470,21240,19710,2034 Başkent Üniversitesi
7 Trec-4 ve -9 için varolan normalleştirme teknikleri Trec-4 Trec-9 Başkent Üniversitesi
8 ZMUV Normalleştirme Tekniği Bu teknik iki Gaussian dağılımın varyans ve ortalama değerleninin normalleştirilmesidir. Başkent Üniversitesi – 2003 İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez.
9 Uygun Normalleştirme Tekniği Farklı arama sistemlerine ait erişim çıktılarındaki ilgisiz belge skor dağılımları kullanılarak uygun normalleştirme sağlanabilir. Başkent Üniversitesi
10 Dağılım Eşitlenmesi Yöntemi İlgisiz dağılımların üstel doğası, belge skorları için bilgi sağlar. p(x) = λ exp(-λx),x=skor(D). μ = 1 / λ(üstel dağılımın ortalaması). Üstel ilgisiz bir dağılım için minimum skorlar 0 ve maximum skorlar 1 olarak kabül edilir. Üstel ilgisiz bir dağılım için üstel uygunluk ML(Maximum Likelihood) yöntemi ile hesaplanır. λ = count({D | D Є NonRel}) / Σ D Є NonRel score(D) skor(D) = skor(D)*λ. Bu teknik EXPML olarak adlandırlır. Başkent Üniversitesi
11 İlgisiz Dağılımların Kestirilmesi Karma model uygunluğu kullanılarak kestirme Toplam dağılım kullanılarak kestirme Ortalama kullanılarak kestirme Başkent Üniversitesi
12 Karma Model Uygunluğu İlgili belgeler için normal ve ilgisiz belgeler için üstel bir dağılım kullanılır. Expectation Maximization yöntemi kullanılarak üstel ve Gaussian dağılımlarından oluşan karma bir model skor dağılımları için uygunlaştırılabilir. Üstel bileşen için ortalama, normal bileşen içinde ortalama ve standart sapma değerleri hesaplanarak skorlar normalleştirilir. Bu yöntem EXPEM olarak adlandırılır. Başkent Üniversitesi
13 Toplam Dağılım Arama sistemlerinin çıktılarında ilgili belgelerin oranı çok düşük olduğu için ilgili ve ilgisiz bütün belge skorlarının dağılımları kullanılarak normalleştirme işlemi yapılabilir. Minimum değerler 0 olarak belirlenerek ve tüm belge skorları eşitlenerek normalleştirme işlemi gerçekleştirilir. Bu yöntem SUM normalleştirme tekniğine eşdeğer olarak görülür. Başkent Üniversitesi
14 Ortalama Kullanılarak Kestirme Karma model kestirmesi ve toplam dağılımların kestirmesi yöntemlerinin ortalaması alınarak yeni bir kestirme elde edilir. Bu yöntem EXPEM-CombSUM ve Sum- CombSUM yöntemleri arasında bir performans değerine sahiptir. Başkent Üniversitesi
15 Trec-4 ve -9 için normalleştirme teknikleri İşletimlerSumEXPMLEXPEMEXPAVRStandartBağımsız CombSUMCombMNZİşletim Crn1AE pircs cityal INQ siems Ortalama Değişim(%) İşletimlerSumEXPMLEXPEMEXPAVRStandartBağımsız CombSUMCombMNZİşletim jscbt9w110,2801 ric9dpn0,30170,30520,30300,30410,29050,2616 NEnm0,30700,30960,30750,30910,30540,2499 acsys9mw0,32410,33190,32810,32950,33100,2486 hum9tdn0,32300,33060,32690,32880,32570,2335 Ortalama0,30720,31150,30910,31030,30650,2547 Değişim(%)0,20610,22300,21360,21830,2034 Başkent Üniversitesi
16 Trec-4 ve -9 için normalleştirme teknikleri Başkent Üniversitesi
17 Sonuçlar Bu çalışmada tartışılan, farklı arama sistemlerine ait ilgisiz skor dağılımlarının eşitlenmesi ve sonuç skorlarının ortalamalarının alınması yöntemi ile en iyi sonuçlar üretilmiştir. İlgisiz dağılımların kestirilmesi için üç farklı yöntem üzerinde durulmuş ancak en kolay tekniğin toplam dağılımların kestirilmesi olduğu görülmüştür. Çoklu arama sistemlerinin birleştirilmesi bilgi erişiminde genellikle önemli bir ilerleme sağlamaktadır ancak 5’den fazla arama motorunun sonuçlarının birleştirilmesinden sonra performans artışının devam edeceğini söylemek doğru görünmemektedir. Başkent Üniversitesi
18 TEŞEKKÜRLER