Türkçe Arama Motorları Ne Kadar Türkçe? Hayri Sever Başkent Üniversitesi (sever@baskent.edu.tr ) Yıltan Bitirim Doğu Akdeniz Üniversitesi (yiltan.bitirim@emu.edu.tr ) Yaşar Tonta Hacettepe Üniversitesi (tonta@hacettepe.edu.tr)
Plan Giriş Araştırmanın amacı Bilgi erişim sistemleri Arama motorları Yöntem ve tasarım Bulgular ve yorum Öneriler
Giriş Internet: yarım milyar kullanıcı, 120M sunucu bilgisayar Web: 3TB yer tutan en az 1 milyar belge Arama motorları:Yüzey web’in %16’sını, derin web’in onbinde üçünü kapsıyor
Yüzey web – 1,5 milyar belge Derin Web – 550 milyar belge Kaynak: BrightPlanet, 2001.
Amaç Türkçe arama motorlarının bilgi erişim performanslarını ölçmek
Bilgi Erişim Sistemleri
Arama Motorları Klasik bilgi erişim sistemlerinden farklı Veri tabanları büyük ve dinamik Dizinleme örümcekler aracılığıyla Belge kalitesi düşük Belgelerin %30’u ikileniyor Kullanıcılar çok çeşitli Sorular çoğunlukla tek sözcükten oluşuyor
Araştırma Soruları Türkçe arama motorlarının duyarlık, normalize sıralama, kapsama, yenilik ve ölü bağlantı oranlarının birbirinden farklı olup olmadığı Arama motorları hangi tür sorularda daha başarılı Arama motorları üst veri alanlarından yararlanıyor mu Türkçe karakter sorunu Gövdeleme sorunu
Arama Motorları Arabul (http://www.arabul.com) Netbul (http://www.netbul.com) Superonline (http://www.superonline.com)
Sorular Çeşitli türde 17 soru En sık aranan sorular “mp3” “oyun” “sex” “erotik” “porno” Üst verilerle ilgili iki deney
17 Soru internet ve etik barok müzik prozac arama motorları baris manco'nun mp3'leri barış manço'nun mp3'leri dpt uzaylı uzaylılar 10. demirel ve sezer 11. demirel veya sezer 12. demirel veya sezer ve tema 13. uzay 14. evren 15. uzay veya evren 16. atatürk ve fikriye hanım 17. ömer izgi
Ölçümler Ölü bağlantı oranı Duyarlık oranı Normalize sıralama oranı Adreslere erişilebilirlik oranı Duyarlık oranı Erişilen ilgili belgelerin erişilen tüm belgelere oranı Normalize sıralama oranı İlgili belgelere ilk sıralarda erişilebilme oranı Kapsama oranı İlgili belgeleri kapsama oranı Yenilik oranı Erişilen tekil ilgili belgelerin oranı
Soruların Formülasyonu
İlgililik Değerlendirmeleri bağlantı ilgisiz
Veri Analizi Arama motorlarının duyarlık, normalize sıralama, kapsama, yenilik, ölü bağlantı oranları arasında fark var mı?
Ölü Bağlantı Oranları Ort. her 6 adresten 1’i ölü 1,4 5,1 0,7 2,8 Soru başına ortalama ölü bağlantı sayısı
Ölü Bağlantı: – sorgu: <hayri sever> http://www.arama.com/search.php3?q=hayri+sever&weborcat=web: ilk 15 belgeden 14’i ilgili; fakat 14’de ölü bağlantı (iki yıl önce kaldırılan adresler). http://kapi.netbul.com/internet/internet.asp?b=2&tr=&sayfa=1&keyword=hayri+sever: 28. kayıtta hayri sever’in ev sayfası yanlış yönlendiriliyor; fakat en azından çalıştığı kurum doğru http://www.arabul.com/sonuc.asp: 1 ilgili belge; fakat iki yıl önce kaldırılan belge. http://arama.superonline.com/arama/search.jsp?query=hayri+sever&d0=&bul=tr&d1=&x=10&y=8 alta vista motoru ilk sırada doğru adresli ev sayfasını getiriyor.
Erişilen İlgili Belge Sayıları Erişilen toplam belge sayısı 971 Ortalama her 6 belgeden 5’i ilgisiz
Ort. Duyarlık Değerleri Kesme Noktaları Arama Arabul Netbul Superonline Altavista 5 40 16 13 25 36 10 27 14 12 21 15 24 19 35 20 9 32 Ortalama 28 11 %40 %27 %25 %24 %21 %21 %19 %16 %16 %14 %16 %15 %10 %13 %12 %9
Ortalama Normalize Sıralama Değerleri Kesme Noktaları Arama Arabul Netbul Superonline Altavista 5 50 16 21 33 35 10 58 22 32 37 38 15 52 19 31 39 42 20 54 34 56 Ortalama 30 41 %58 %52 %50 %54 %39 %37 %39 %33 %34 %32 %31 %21 %22 %21 %19 %16
Türkçe Arama Motorlarında Gövdeleme Sorgu-Çifti No Gövdeli Gövdesiz 1 çiçek çiçekler 2 çiçekleri 3 oyun oyunlar 4 gazete gazetesi 5 kitap kitaplar 6 kitapta 7 resim resimler 8 üye üyelik
Türkçe Arama Motorlarında Gövdeleme
Türkçe Karakter Sorunu
En Sık Aranan Beş Soru İçin Kapsama Oranları
Arama Motorlarının Üst Veri Alanlarından Yararlanması I
Arama Motorlarının Üst Veri Alanlarından Yararlanması II
Öneriler Dizinler daha sık güncelleştirilmeli İlgili belgelere erişememe nedenleri araştırılmalı İlgili belgeler daha üst sıralarda gösterilmeli Türkçe karakter sorunu çözülmeli Gövdeleme algoritması kullanılmalı Daha fazla Türkiye adresli belge dizinlenmeli Üst veri alanlarından yararlanılmalı
Yayınlar H. Sever, A. Gorur and M.R. Tolun. Text Categorization with ILA. 18th International Symposium on Computer and Information Sciences (ISCIS’03), November 3-5, Antalya, TR. H. Sever and Y. Bitirim. The Analysis and Evaluation of Stemming algorithms for Turkish. 10th International Symposium on String Processing and Information Retrieval (SPIRE’03). Manaus, Brazil, October 8-10, 2003. Lecture Notes in Computer Science (LNCS), Springer, 2857: 238-51. H. Sever ve Güven Köse (Eylül 2003). Skor Dağılımlı Üst Arama Modeli. TBD 20. Ulusal Bilişim Kurultayı, İstanbul. H. Sever and M.Z. Bolat. A Text Filtering Method for Digital Libraries. (IATUL’03). The 24th Annual Conference on International Association of Technological University Libraries (http://www.iatul.org/conference/proceedings/vol13/papers/SEVER_fulltext.pdf) June 2-5, 2003. Ankara, Turkey. H. Sever and M. Tolun. Comparison of Normalization Techniques for Metasearch. ADVIS'02, Lecture Notes in Computer Science, Springer Verlag, Vol. 2457, pp. 133-143, 2002. Y. Bitirim, Y. Tonta, and H. Sever. Information Retrieval Effectiveness of Turkish Search Engines. ADVIS'02, Lecture Notes in Computer Science, Springer Verlag, Vol. 2457, pp. 93-103, 2002. Y. Tonta, Y. Bitirim, and H. Sever. Turkce Arama Motorlarinda Performans Degerlendirme, pp. 1-152, Damla Publisher Ltd., 2002. R. Manmatha and H. Sever. A Formal Approach to Score Normalization for Metasearch, Human Language Technology Conference (HLT'02), March 24-27, 2002, San Diego, CA. Yıltan Bitirim, Hayri Sever ve Yaşar Tonta, " Türkçe arama motorlarında performans değerlendirme" Akademik Bilişim '02, 6-8 Şubat 2002, Konya.
Türkçe Arama Motorları Ne Kadar Türkçe? Hayri Sever Başkent Üniversitesi (sever@baskent.edu.tr) Yıltan Bitirim Doğu Akdeniz Üniversitesi (yiltan.bitirim@emu.edu.tr) Yaşar Tonta Hacettepe Üniversitesi (tonta@hacettepe.edu.tr)