Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

İrem Soydal ~ Yurdagül Ünal

Benzer bir sunumlar


... konulu sunumlar: "İrem Soydal ~ Yurdagül Ünal"— Sunum transkripti:

1 İrem Soydal ~ Yurdagül Ünal

2  Dağıtık veri  Geçici veri/Tazelik “Freshness” (“40% of the web changes every month”)  Üssel büyüme  Yapısal olmayan ve tekrarlanan (gereksiz) veri (“30% of web pages are near duplicates”)  Düzenlenmemiş/gözden geçirilmemiş veri  Çoklu biçim (multiple formats)  Ticari önyargılar  Saklı veri

3  Arama motorlarının arayüzüne aşina olmayan kullanıcılar (Örneğin, acaba “gezi parkı” sorgusu tüm arama motorlarında aynı anlama mı gelir?)  Verinin mantıksal görünüşüne aşina olmayan kullanıcılar (Örneğin, acaba “Portakal” şeklinde yapılan bir sorgu ile “portakal” şeklinde yapılan sorgu aynı şey midir?)  Farklı bilgi ihtiyacı olan ve farklı arama davranışları sergileyen kullanıcılar

4  Bilgi erişim sistemlerinde dizinlenecek belgeler durağandır (statik). Başka bir deyişle, bir belge bir defa dizinlendikten sonra bir daha dizinleme işlemine tabi tutulmaz.  Arama motorlarının mimarisi ise bilgi erişim sistemlerininkine göre farklı, çünkü çok daha dinamik bir yapı var. ◦ “Web kaynakları tahmini olarak ortalama 75 gün değişmeden kalmaktadırlar.” (Brake, 2001) ◦ “Web kaynaklarının %40’ı her ay değişiyor.” (Kahle, 1996) ◦ “Internet ortamındaki bir bağlantının (link) ortalama ömrünün 44 gün olduğunu belirtiliyor.” (Kahle, 1997) ◦ Bir Web sitesinin “yarı ömrü” (half-life) 2 yıl civarında

5 Infographic: Half-Life Of Social Media Shares half-life-of-social-media-shares-98433

6 ön yüz arka yüz (Tonta, Bitirim, ve Sever, 2002)

7

8  Arama motorları üç ana modülden oluşur. Bunlar; ◦ Web örümceği (Web crawler/spider), ◦ Dizinleme ve ◦ Arama modülleridir.

9

10  Internetteki tüm web sayfalarını keşfetmeyi ve toplamayı amaçlar. Böylece bu sayfalara erişimi mümkün kılar. Bir web örümceğinin kalitesi aşağıdaki ölçütlere göre değerlendirilebilir: ◦ Kapsama Alanı: Web'in yüzde kaçını toplayabildi? ◦ Güncellik: Toplanan sayfalar ne kadar güncel? ◦ İşe yararlılık: Toplanan sayfalar popüler ve önemli sayfalar mı? (Ricardo Baeza-Yates, B. Barla Cambazoglu, 2010)

11  Ziyaret edilecek olan sayfaların bir listesini tutar, sıraya uygun olarak bu sayfaları ziyaret eder, içeriklerini getirir ve link analizi yaparak ziyaret edilmesi gereken yeni sayfaları keşfeder.  Web örümcekleri, başlangıçta hangi web sayfalarını ziyaret edeceklerini bilmek zorundadır bu nedenle bir başlangıç listesi (seed) verilir. ◦ Başlangıç listeleri için genellikle DMOZ (www.dmoz.org) linkleri kullanılıyor.www.dmoz.org

12

13  Web'in çok büyük boyutta ve değişken olması Web örümcekleri için en önemli sorun. Bu sorunları çözmek için bazı kararlar almak ve politikalar üretmek gerekir: ◦ Web Sayfası Seçimi (selection) Politikası: Tüm web sayfalarını belirlenen süre içinde toplamak mümkün olamayacağı için bir "Web Sayfası Seçimi Politikası"na ihtiyaç vardır. Toplanacak web sayfalarının türünü belli kriterlere göre önceliklendirmek gerekmektedir (link analizi). Ör: En çok referans (link) alan sayfalar, bloglar, vs.. ◦ Yeniden Ziyaret Etme (re-visit) Politikası: Sayfalarının dinamik olması ve çok hızlı değişmeleri nedeniyle sayfaların en güncel halini elde etmek gerekir.  Web örümceği tarafından yakalanan ve indekste saklanan bir sayfa, bu sayfada zamana bağlı olarak meydana gelebilecek değişiklik ve güncellemeleri yansıtabilmesi için düzenli olarak tekrar ziyaret edilmelidir.  Bu ziyaretlerin ne zaman yapılacağını belirlemek için sayfanın yenilenme (freshness) hızı ya da yaş (age) değerine bakılır.  Bazı arama motorları bu değerlere bakmadan düzenli aralıklarla getirilen sayfaları tekrar ziyaret eder.

14 ◦ Nezaket (politeness) Politikası: Web sayfalarının içeriğini indirme işlemi sayfanın ait olduğu web sitesi sunucusuna belli bir yük getirmektedir. Çok sık aralıklarda örümcekler bu sayfaları indirmeye çalıştığında sunucular diğer istemcilere hizmet edemez hale gelebilmektedir. Bu politikada bir web sayfasının en az kaç saniye aralıklarla indirileceği belirlenir.  Web örümcekleri tarafından kullanılan bot’lar, web siteleri için ilgili web serverlara sayfaları indirmek için istek yollarlar,  Örümcekler tarafından kullanılan bant genişliği çok fazla olduğu için örümceğin kullandığı bot, ilgili web sitesinin sınırlı bant genişliğinin tamamını kullanabilir (sonuç: “server overload”),  Bu durumda, ilgili siteye erişmeye çalışan diğer kullanıcılar yoğunluktan dolayı sayfalara erişemez, bu istenmeyen bir durumdur.  Bu tıkanıklığı engellemek için “robots exclusion protocol” yöntemi kullanılır,  Bu protokolde sunucuda tutulan robots.txt dosyasında örümceklerin erişmesi istenmeyen sayfalar ve web sunucusuna örümcek tarafından yapılacak iki istek arasında geçmesi gereken zaman gibi parametreler yazılır. Ayr. Bkz.

15 ◦ Paralel Çalışma (parallelisation) Politikası: Bilgi erişim sistemi hız kazanmak açısından birden fazla web örümceği çalıştırıyorsa aynı web sayfasının birçok örümcek tarafından indirilmemesi için bir "Paralel Çalışma Politikası" belirlenerek tekrarlı sayfa indirmenin engellenmesi gerekir. Ör: Her örümceğin farklı yer sağlayıcılarla yönlendirilmesi gibi... (Castillo, 2004)

16  Belirli dillere özel web örümcekleri tasarlayabilmek için dil tespiti gerekir, ◦ Örneğin, çok dilli web üzerinde sadece Türkçe belgelerin toplanmasını sağlayacak akıllı web örümceği yaratmak konusu akademik bir problem. ◦ Bunun bir problem olmasının iki temel nedeni var:  Web üzerinde her bir belgenin dilini tespit etmek  Sadece belirli dille yazılmış belgeleri seçmek

17 ◦ Web üzerindeki Türkçe belgelerin tespit edilmesine yönelik olarak kullanılan farklı yöntemler var ve yöntemler genellikle istatistiklere dayanıyor:  Sesli / sessiz harf yaklaşımı: Türkçe’de kelimelerin %50’si sesli harfle bitiyor. İngilizce kelimelerin %28’i sesli harfle bitiyor  Türkçe heceleme kurallarına göre karar verme: bir belgedeki kelimelerin %70’i Türkçe heceleme kurallarına uygun olarak heceleniyorsa belge Türkçe’dir.  Durma kelimeleri yaklaşımı: bir belge içinde Türkçe için tanımlanan durma kelimelerinden farklı n tanesi geçiyorsa belge Türkçe’dir.  Türkçe karakter yaklaşımı: bir belge içerisinde Türkçe karakterlerden (ı, ç, ş, ğ, ü) farklı n tanesi geçiyorsa belge Türkçe’dir.

18  Web arama motorlarına yöneltilen sorgular kısa ◦ Ortalama ~2,4 kelime  Kullanıcı beklentileri ◦ “İlk sırada gelen sonuç benim görmek istediğim sonuç olmalı!”

19  Pek çok arama motoru erişim fonksiyonu (vektör uzayı, olasılıksal, dil modeli v.b.) olarak kullanılan yöntemlerin belge/sorgu eşleşmesi için ürettiği skor değerlerine göre bir derecelendirme yapar.  Google ile birlikte bu derecelendirme skoruna link alma skorları da eklendi. ◦ PageRank (Sayfa değeri) yöntemi, Internet üzerinde bir sayfaya diğer sayfalardan ne kadar fazla referans (link) verilirse o sayfanın o kadar değerli olacağı görüşü üzerine geliştirilmiştir. ◦ Bu yaklaşım “bilimsel bir çalışmaya diğer makalelerden ne kadar çok atıfta bulunulursa o çalışma o kadar önemlidir” mantığına benzemektedir.

20  Google'ın site sıralamasında kullandığı algoritma bir web sitesine verdiği değeri gösteren 0'dan 10'a kadar olan bir değerdir. ◦ Bu değer genel olarak özgün bir içeriğe, sayfaya verilmiş bağlantılara ve bağlantı veren sayfaların kalitesine bağlı olarak değişir. ◦ PageRank, değer olarak bir web sitesinin Google tarafından arama sonuçlarında sıralanmasını ve Google tarayıcısının (örümceğinin) siteyi kontrol etme sıklığını etkiler.

21  PageRank'in ana fikri şöyledir: ◦ Eğer bir A sitesi B sitesinin linkini yayımlamışsa bunun nedeni B sayfasının A sayfası ziyaretçileri tarafından dolaşılabilecek olarak düşünülmüş olmasıdır. Bu yapıya göre A sayfası B sayfasının sayfa derecesini yükseltmiş olacaktır. ◦ A sayfası ne kadar yüksek sayfa değerine sahipse B sayfasının değeri de buna orantılı olarak artacaktır. ◦ A sayfasında ne kadar az dışarı link varsa, B sayfasının değeri o kadar yüksek olacaktır. Bu mantığa göre A sayfası sadece B sayfasını link verilecek değerde görmüşse, B sayfasının “PageRank”i çok daha fazla artacaktır.

22  How search works ◦ m/watch?v=BNHR6IQJG Zs m/watch?v=BNHR6IQJG Zs  Facts about Google ◦ m/competition/ m/competition/  Your answer loud and clear ◦ m/insidesearch/ m/insidesearch/

23  Kullanıcıyı birden fazla arama motorunda arama yapma külfetinden kurtarır.  Kullanıcı farklı arama motorlarının birbirinden farklı sorgu dillerini öğrenmek zorunda kalmaz.  Sistem arama motorlarının en yüksek ilişkili sonuçlarını kullanıcıya en üstte sunduğu için kullanıcının aradığını kolayca bulma olasılığı yükselmektedir. (Meng, August 2009)  Örnekler: AllInOneNews, Search Aggregator, Travelfox 23

24  Kullanıcının internetteki aktivitelerinin, bilgi tüketim alışkanlıklarının izlenerek kullanıcı hakkında edinilen bilgilerin bilgi erişim sistemlerinde kullanılması ve kullanıcıya “anlamlı” sonuçlar döndürülmesi olarak tanımlanır. (Pitkow, Schütze, Cass, Cooley, Turnbull, Edmonds, Adar, Breuel, 2002)  Özel hayatın gizliliği ve kullanıcıların zamanla ilgi alanlarının değişmesi konularına dikkat edilmelidir. 24

25  Anlamsal aramada sorgu sözcüklerinin belgede bulunma sıklığı değil kullanıcının gerçekte neyi aradığı ve web içeriklerinin konusu /anlamı önemlidir.  Sorgu sözcükleriyle eş anlamlı sözcükler de aramaya dahil edilir.  Sözcüklerin tüm varyasyonları aramaya dahil edilir: improve, improved, improvement  Sadece anahtar kelime değil konu ile ilgili diğer kelimelerin de bilinmesi gerekir.(ontological knowledge) Ör: üst solunum yolu enfeksiyonu ->(nezle, grip, sinüzit, faranjit) 25

26  Anlamsal arama için yapılması gereken ön çalışma (ontoloji oluşturma) çok uzun zaman almaktadır.  Doğal dil sorgularını makinenin anlayabileceği ontolojik sorgulara dönüştürmek henüz mümkün olmamıştır.  Web içeriğinde konunun, anlamın bulunması da çözülmeyi bekleyen sorunlar arasındadır.  Hakia, DBpedia 26

27  Kullanıcının sorduğu soruya cevap olarak bulduğu bilgileri toparlayıp tek bir sonuç olarak döndürür.  Günümüz soru yanıtlama sistemleri "soru sınıflama" modülü ile sorunun ve cevabın türünü belirlerler.  Soru analiz edildikten sonra sistem metinler üzerinde karmaşık doğal dil işleme tekniklerini çalıştırır.  Bu sırada bir filtre cevabın türüne göre paragraflar arasından cevabı bulur. Örneğin soruda "kim" sorusu soruluyorsa cevap bir özel isim olmalıdır.  webclopedia.com, answerbus.com, answers.com 27

28  Haber yayınlarının izlenerek yeni ve ilginç bir haber olduğunda ilgililerin uyarılmasını sağlayan sistemlerdir.  Dört ana modülden oluşur. ◦ “İlk Hikaye Algılama Modülü“ sisteme yeni bir hikaye ulaştığında bunun tartıştığı konu daha önceden tanımlanmış konularla ilgili değilse, yeni bir konu olduğunu belirler. ◦ "Küme Belirleme Modülü" gelen hikaye bir ilk hikaye değilse ilgili konu kümesine yerleştirir, eğer ilk hikaye ise bunun için yeni bir küme oluşturur. ◦ "Haber İzleme Modülü" haber kaynaklarından sisteme gelen haberleri değerlendirilerek, bu haberlerin daha önceden belirlenmiş olan konularla ilgili olup olmadıklarını araştırır. ◦ "Hikaye Bağlantı Algılama Modülü“ ise sisteme ulaşan iki farklı hikayenin aynı konuyu tartışıp tartışmadıklarını anlamayı amaçlar. 28

29  Mobil cihazların sabit ve dizüstü bilgisayarların yerine geçmesi internete erişimi kolaylaştıracak, içerik oluşturma hızlanacak.  4G ve 5G ile bant genişliklerinin 2-3 katına çıkması nedeniyle veri iletimi hızlanacak.  Bu gelişmeler dünyada üretilen bilginin daha da hızla artmasına neden olacak.  Bilgi Erişim Sistemleri sadece metin değil aynı oranda ses, video, resim arama araçları olacak.  Bu nedenlerle Bilgi Erişim sistemlerinin hem işi zorlaşacak hem de ihtiyacın artmasıyla gün geçtikçe daha da önem kazanacak.  Doğru kaynağa en kısa zamanda ulaşabilmek için kullanıcıyı tanıyan, arama yaparken niyetini anlayan, web içeriğinin konusunu tespit edebilen akıllı sistemlere ihtiyaç var. 29

30  Google search features: Improve your search experience ◦  Google Inside Search: Search tools and filters ◦ https://support.google.com/websearch/answer/ ?hl=en&ref_topic= https://support.google.com/websearch/answer/ ?hl=en&ref_topic=  Google Inside Search: Search operators ◦ https://support.google.com/websearch/answer/ ?hl=en&ref_topic= https://support.google.com/websearch/answer/ ?hl=en&ref_topic=

31 Tonta, Y. (1995). Bilgi erişim sistemleri. (http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf)http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisimSistemleri_tonta1995.pdf Erbil, E ve Çolakkol, A. (2001). Internet’te bilgi arama stratejileri ve bilgiye erişim. (http://www.unak.org.tr/BilgiDunyasi/gorusler/2001/cilt2/sayi2/ pdf)http://www.unak.org.tr/BilgiDunyasi/gorusler/2001/cilt2/sayi2/ pdf Olcay, N.E. (2003). Türkçe Internet tarama motoru kullanıcılarının arama stratejilerinin analizi: Arabul örneği. (http://www.bby.hacettepe.edu.tr/yayinlar/dosyalar/139.pdf)http://www.bby.hacettepe.edu.tr/yayinlar/dosyalar/139.pdf Tunç, S.K. (2012). Bilgi erişim sistemleri. (http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoyuncutunc)http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoyuncutunc Diğer yardımcı kaynaklar: Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. (Tam metin)Tam metin Manning, C.D., Raghavan, P. and Schütze, H. (2009). Introduction to Information Retrieval. (Tam metin)Tam metin Bu derste kullanılan slaytların çoğunluğu Bilgi erişim ilkeleri (Y. Tonta, 2002) Bilgi erişim (G. Köse, 2012) derslerine ait slaytlardan ve Sevgi Koyuncu Tunç’un “Bilgi Erişim Sistemleri” başlıklı yayımlanmamış çalışmasından derlenmiştir.


"İrem Soydal ~ Yurdagül Ünal" indir ppt

Benzer bir sunumlar


Google Reklamları