Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

 Bir bilgi erişim sisteminin temel işlevi, kullanıcıların bilgi ihtiyaçlarını karşılaması muhtemel, derlemdeki ilgili belgelerin tümüne erişmek, ilgili.

Benzer bir sunumlar


... konulu sunumlar: " Bir bilgi erişim sisteminin temel işlevi, kullanıcıların bilgi ihtiyaçlarını karşılaması muhtemel, derlemdeki ilgili belgelerin tümüne erişmek, ilgili."— Sunum transkripti:

1

2  Bir bilgi erişim sisteminin temel işlevi, kullanıcıların bilgi ihtiyaçlarını karşılaması muhtemel, derlemdeki ilgili belgelerin tümüne erişmek, ilgili olmayanları da ayıklamaktır. ◦ İlgili: “Relevant” ◦ İlgililik: “Relevancy”

3  İlgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamak !  Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak  İdeal bir bilgi erişim sistemi yaratmak neredeyse imkansız ◦ Milyonlarca kayıt / belge ◦ “ilgililik” kavramının öznelliği

4  Bir bilgi erişim sisteminde ihtiyaç duyulan belgelere erişmek için sistemin iki koşulu yerine getirmesi gerekir: ◦ 1) Derleme eklenen her belgenin temel özellikleri geleneksel veya otomatik olarak gerçekleştirilen dizinleme işlemleri sırasında belirlenmeli ve her belge için ilgili dizin terimleri oluşturulmalıdır.  Bir belge için oluşturulan söz konusu dizin terimleri bilgi erişim sırasında belgenin tamamını temsil etmek üzere kullanılır. ◦ 2) Kullanıcılar belgelere verilen bu dizin terimlerini doğru olarak tahmin edip sorgu cümlelerini ona göre oluşturmalıdırlar.  Bir başka deyişle, kullanıcının bilgi ihtiyacını ifade etmek için kullandığı terimlerle belgeyi temsil eden dizin terimleri birbiriyle karşılaştırılır ve çakışan belgelere erişilir.

5  Bir bilgi erişim sistemi: ◦ (1) bir belge derlemi ya da bu belgeleri temsil eden dizin terimlerini içeren kayıtlar, ◦ (2) kullanıcıların sorgu cümleleri, ve ◦ (3) kullanıcıların sorgu cümlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karşılaştırarak ilgili belgeleri belirlemek için kullanılan bir erişim kuralından oluşur.

6  Tipik bir bilgi erişim sisteminde belgeler “terim”ler (dizin terimleri) ile gösterilir.  Bu terimler her zaman sadece dizinleme yapan uzmanın seçtiği dizin terimleri/kontrollü anahtar sözcüklerden oluşmaz. Doğal dille dizinleme yapan bilgi erişim sistemleri de vardır.  Özellikle derlemdeki belgelerin tam metinlerinin dizinlenmesi, otomatik olarak gerçekleştirilmesi gereken bir süreçtir.  Bir derlemdeki belgelerden “terim” elde etmek için genelde şu aşamalar gerçekleştirilir: 1.Harf olmayan karakterler boşluklarla yer değiştirilir 2.Tek harfli sözcükler silinir 3.Bütün karakterler küçük harfli yapılır 4.“Durma listesi”nde (stop words/list) geçen sözcükler silinir 5.Sözcükler gövdelenir (stemming) 6.Tek karakterli gövdeler atılır Kaynak: Tonta, Bitirim & Sever (2002), s.16

7  Son adımdan sonra elde edilen listedeki yüksek sıklıklı sözcükler terim sözlüğünden çıkarılır ve böylece derleme duyarlı ikinci bir durma listesi oluşturulur.  Bu isteğe bağlı gerçekleştirilen bir adımdır.  Derlemde geçen tamlamaların (phrase) dizin terimlerine eklenebilmesi için sistemde sık olarak beraber geçen kelimeler belirlenir.  Bu da isteğe bağlı bir adımdır.  Tamlama oluşturma/belirleme işleminde kelime çiftleri teker teker ayıklanarak sıklıkları bulunur ve en en sık kullanılan N tane phrase (ya da oluşan tamlamaların tamamı) dizin terimleri (terim sözlüğü) arasına eklenir.  Tamlamalar, yüksek ve orta sıklıklı sözcükler ayrı ayrı olarak terim sözlüğüne otomatik olarak eklenir.  Tüm bu işlemler sırasında eşanlamlı sözcükler de terim listesi içinde tanımlanır.  Bu süreç, belge işleme (document processing) ya da ön işleme (pre- processing) olarak tanımlanır. Kaynak: Tonta, Bitirim & Sever (2002), s.16

8 Kaynak: Hearst, M & Larson, R. (2001), Lecture-4_202

9 Kaynak: Hearst, M & Larson, R. (2001)

10  Hedef: benzer sözcükleri “normalize” etmek  Morphology (sözcüklerin “biçim”i) ◦ Çekim ekleri (inflectional morphology)  Çekim ekleri atılırken sözcüklerin dilbilgisel (grammatical) sınıfı asla bozulmaz  dog, dogs  ben, benim, bende, benden,.. ◦ Yapım ekleri (derivational morphology)  Bir sözcükten başka bir sözcük türetme  Genelde sözcüklerin dilbilgisel sınıfı değişir  build, building; health, healthy; kütüphane, kütüphaneci, kütüphanecilik  Özellikle İngilizce için morfolojik analiz ve gövdelemeyi otomatik olarak gerçekleştiren başarılı sayılabilecek yazılımlar var (örn. Lucene).  Türkçe gibi sondan eklemeli dillerde gövdeleme önemli ve otomatik gövdeleme yazılımlarının geliştirilmesine ihtiyaç var. ◦ Dil yapılarındaki farklılıklar nedeniyle her dil için farklı bir algoritma geliştirilmesi gerekiyor. Örneğin “Zemberek” adlı yazılım Türkçe için kullanılan gövdeleme araçlarından biri. Kaynak: Hearst, M & Larson, R. (2001), Lecture-4_202

11 good / best => ? «Lemmatisation»

12  Metnin orijinal hali: ◦ Üründen çok memnun olmadım.  Durma sözcükleri atıldıktan ve “Zemberek” ile gövdeleme yapıldıktan sonraki hali: ◦ ürün memnun ol Kaynak: Eren, Utku, Çavuşlar (2013), s “Türkçe’nin dil yapısında olan olumsuzluk ekleri dolayısıyla stemming uygulamalarında hatalarla karşılaşılmıştır. Kök bulma algoritmaları –me, –ma olumsuzluk eklerini kök dışına attığında cümlenin olumluluk durumunu kıyaslamakta zorlanıyoruz. Gövdeleme sonucunda cümle yüklemi kök halinde bırakılır. Normalde olumsuz olan cümlemiz bu haliyle olumlu görünmektedir. Olumsuzluğu sağlayan “-ma” eki atılmıştır. Bu nedenle Türkçede bu aşamada karmaşıklık yaşanabilir. İngilizce de olumsuzluk “not” eki ile sağlandığı için böyle bir durumla karşılaşılmamaktadır.” Yaşanan bu sorun, örneğin, “bir ürün hakkında yapılan olumsuz yorumların analizi” gibi bir işlemde hatalı veriler elde edilmesine neden olacaktır.

13  Bütün bu aşamalardan geçip otomatik olarak oluşturulmuş sözcüklere “terim” (dizin terimi) denir.  Terimler hem belgeleri göstermede (belge/dizin terimleri) hem de sorguları ifade etmede (sorgu terimleri) kullanılır.

14  «Erişim kuralı»nın uygulanmasından önce tüm ilgili belgelere ulaşmak için sorgu cümlesinin sadece benzer kümelerle karşılaştırılması işlemi ◦ Bilgi erişim deneyleri göstermiştir ki erişimden önce belgelerin kümelenmesi/sınıflandırması daha isabetli/ilgili sonuçlara erişilebilmesi için daha etkili bir yöntemdir. ◦ Eğer birbirine konu yönünden benzer belgeler kümelenebilirse, dermedeki tüm ilgili belgelere erişebilmek için sorgu cümlesinin gösterimiyle sadece benzer kümelerin gösterimlerini karşılaştırmak yeterlidir.. ◦ Dolayısıyla sorgu cümlesinin gösterimi ile dermedeki her bir belgeyi karşılaştırmak gerekmeyecektir.  Kümeleme= Daha az işlem daha hızlı sonuç  Küme sayısı= kümeleme formülü ◦ Bir dermede bulunan küme sayısı kullanılan kümeleme formülüne bağlıdır.  Kümeleme nesneleri: ◦ Konu başlıkları, ◦ Kitap adları, ◦ Tam metin ◦ … vb.

15 Belge işleme (document processing)

16  Bir bilgi erişim sisteminde temel nokta: ◦ Kullanıcının girdiği sorgulama terimlerinin, erişim için sistem tarafından yorumlanması.  Sorgu cümlelerindeki terimlerle belgelerin dizin kayıtlarındaki terimler karşılaştırılır.  Arama sonucunun kalitesi büyük ölçüde çakışma işleminde kullanılan erişim kurallarına bağlıdır.  Hangi kayıtlara erişilip/erişilmeyeceğini erişim kuralı belirler.

17  Sorgu cümlesindeki terimlerle dizin terimleri arasında kesin çakışma (exact match) gerektiren erişim kuralları ve Boole erişim kuralları  Olasılık kuramına dayalı erişim kuralları  Vektör uzayı modeli

18  Sorgu cümlesindeki terimler ve dizin terimleri ikilidir. ◦ Bir terim sorgu cümlesinde ya da belgenin dizin kaydında ya vardır ya yoktur.  Erişim için her terim eşit derecede önem taşır.  Sorgu cümlesindeki terimler kavramsal dizinlerden (tezarus) alınan ilgili terimlerle genişletilebilir.

19  Genellikle erişilen kayıtlar kabaca “erişildi” (1) / “erişilmedi” (0) mantığına göre sıralanabilir. Ya da erişilen kayıtlar sorgu cümlesinde ve dizin kaydında mevcut çakışan terim sayısına göre sıralanabilir.  Boole modelinde erişim fonksiyonu ikili mantıkla çalıştığı için erişim çıktısındaki belgelerde mantıksal ilgililiği temel alan bir sıralama mantığı yoktur (Salton, 1989).  Erişim çıktısının en başında yer alan belgeyle en sonunda yer alan belge aynı erişim değerine sahiptir.  Boole sorgusundan tam olarak ne istenildiğini sistemin anlaması kolay olmayabilir.  Çok fazla da sonuç gelebilir çok az da.  Bu dezavantajlarına rağmen sorgular basittir ve bilgi erişim sisteminin mimarisi bu mantığa göre çok hızlı ve kolaylıkla inşa edilebilir.

20 Özellikler ve kullanılan işleçler (haftaya)

21

22  Bilgi erişim sistemlerinde arama stratejisi nasıl planlanır: ◦ Arama terimleri belirlenir. ◦ Arama sınırlandırılır (kaynak türü, yıl, vb.). ◦ Kesme/joker (truncation/wildcards) kullanımı, tamlamalar, vb. alternatifler belirlenir ve arama yapılacak bilgi erişim sisteminin özelliklerine göre ilgili karakterler kullanılır. ◦ Terimler uygun şekilde birbirine bağlanır (Boole mantığı). ◦ Terimler diğer bilgi erişim sisteminin sunduğu diğer bağlayıcılar (connectors) ile birbirine bağlanır.

23 Online arama yapma süreci (Rumsey, 2008, p.53)

24 Geniş (broader) ve dar (narrower) terimlere karar verme

25 H.Ü. Kütüphanelerinin abone olduğu  Academic Search Complete – EBSCOHost  GALE Virtual Reference Library  ScienceDirect adlı veri tabanlarının «help» kısımlarına girin ve bu veri tabanlarının arama özelliklerini inceleyin: - Veri tabanlarının arama özelliklerinde ne gibi farklılıklar var? - «Wildcard», «truncation», «joker», «nesting», «phrase», vb. arama özellikleri ne işe yarıyor? - Bunlar için kullanılan operatörler veri tabanları arasında değişiklik gösteriyor mu? - Özellikle ScienceDirect veri tabanının farklı arama operatörleri neler, ne amaçla kullanılıyor?

26  Rumsey, S. (2008). How to Find Information: A guide for researchers (Chpt.6, p.49-79). (kaynağı benden alabilirsiniz)  Tonta, Y. (1995). Bilgi erişim sistemleri. (http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisim Sistemleri_tonta1995.pdf)http://yunus.hacettepe.edu.tr/~soydal/bby156_2013/3/BilgiErisim Sistemleri_tonta1995.pdf  Tonta, Y., Bitirim, Y. ve Sever, H. (2002). Türkçe Arama Motorlarında Performans Değerlendirme, s (Tam metin)Tam metin  Manning, C.D., Raghavan, P. and Schütze, H. (2009). Introduction to Information Retrieval, s (Tam metin)Tam metin  Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval, s.3-10 & (Tam metin)Tam metin


" Bir bilgi erişim sisteminin temel işlevi, kullanıcıların bilgi ihtiyaçlarını karşılaması muhtemel, derlemdeki ilgili belgelerin tümüne erişmek, ilgili." indir ppt

Benzer bir sunumlar


Google Reklamları