BBY Bilgi Erişim İlkeleri

Slides:



Advertisements
Benzer bir sunumlar
Bilgi Teknolojisinin Temel Kavramları
Advertisements

Duke University Press Elektronik Koleksiyon ve Servisler.
Sosyal Ağların Eğitimde Kullanımı
WEB 2.0 Hazırlayan: Merve Altıparmakoğlu Numara:
ÖZEL ÖĞRETİM YÖNTEMLERİ DİĞER KONULAR
 Web-Log kelimesinden türetilen bloglar, yazarların herhangi bir konu hakkında hızlı ve kolay ş ekilde yorumlarını, ba ğ lantılarını yazılarını, resimlerini,
Dijital Dünyada Yaşamak
Bilgi Teknolojisinin Temel Kavramları
KAPASİTE (HAFIZA) ÖLÇÜ BİRİMLERİ
Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/
Bilginin Tanımlanması ve Diğer Bilgi Erişim Uygulamaları
BAĞLANTI VERME VE ANİMASYON
BAĞLANTI VERME VE ANİMASYON
Bilgi Erişim Tasarım Modelleri
Erişim Kuralları Yaşar Tonta Hacettepe Üniversitesi
Bu sunum Akdeniz Üniversitesi öğrencisi tarafından Bilgisayar 2 dersi için hazırlanmıştır. KONU: WEB 2.0 ARAÇLARI.
Bilgisayar Uygulamaları
Web 2.0 Teknolojilerine ve Uygulamalarına Genel Bakış
BBY Bilgi Teknolojisi ve Yönetimi
BİLİŞİM TEKNOLOJİLERİ VE YAZILIM
FERHAT KADİR PALA SACİDE GÜZİN MAZMAN
BİLGİSAYARIN MİMARİSİ, TEMEL BİLEŞENLERİ VE ÇALIŞMA MANTIĞI
Slide 1 Web 2.0 Teknolojileri ve Uygulamaları Çalıştayı, 4 Aralık 2009, Ankara Web 2.0, Semantik Web ve Kütüphanelerin Geleceği Yaşar Tonta ve Umut Al.
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yaşar Tonta Hacettepe Üniversitesi
KAPASİTE (HAFIZA) ÖLÇÜ BİRİMLERİ
Support.ebsco.com Kullanıcı Kılavuzu EBSCO eBooks Online Kullanım.
DİJİTAL ÖLÇÜ BİRİMLERİ
İnternet. İnternet...  dünya çapında bir bilgisayar ağı  bilgi süper otoyolu (information super highway)
DİJİTAL ÖLÇÜ BİRİMLERİ
Bilgi Erişim Performans Ölçüleri
Bilgi Erişim Sorunu Yaşar Tonta Hacettepe Üniversitesi
Web Ortamında Arama Yapmak R. Orçun MADRAN. Arama Motorları Arama Motorları, günümüzün popüler bilgiye erişim sistemlerinin başında yer almaktadır. Bir.
Bilgiye Erişimin önemi ve Bilgi kaynakları
ENES KARAAĞAÇ TÜRKÇE ÖĞRETMENLIĞI II. SıNıF (ÖRGÜN ÖĞRETIM) Web 2.0 Araçları Tanıtım Sunusu.
CANSU ALTIN TÜRKÇE ÖĞRETMENLİĞİ 2. SINIF 1. ÖĞRETİM
BİLİŞİM TEKNOLOJİLERİ VE YAZILIM Ünite : BİLİŞİM OKUR-YAZARLIĞI Konu : Bilişim Teknolojilerinin Günlük Yaşamdaki Önemi Bilgiyi dönüştürme kavramını tanımlar.
DEPOLAMA.
BURCUGÜL B İ LG İ N TÜRKÇE Ö Ğ RETMENL İĞİ ( İ.Ö.) EĞİTİMDE WEB 2.0 ARAÇLARI.
DEPOLAMA.
KAPASİTE BİRİMLERİ.
BİLGİSAYAR ÖLÇÜ BİRİMLERİ
Bilgi Teknolojisinin Temel Kavramları
Internet ’ Aralık 2003, İstanbul Y.T. Bilgi Erişim Sistemleri Yaşar Tonta Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/
1 Bilgi Erişim Sorunu Yaşar Tonta Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/ DOK324/BBY220 Bilgi Erişim İlkeleri.
Bilgi Erişim: Temel Kavramlar
ZEHRAŞAHİN AKDENİZ ÜNİVERSİTESİ EĞİTİM FAKÜLTESİ TÜRKÇE ÖĞRETMENLİĞİ
“Akademik Bilişim ’02” 6-8 Şubat 2002, Konya Y.T. Türkçe Arama Motorlarında Performans Değerlendirme Yıltan Bitirim Doğu Akdeniz Üniversitesi
Web 2.0 Araçları Tanıtım Sunusu
Türkçe Öğretmenliği 2.Sınıf
BBY 156 Bilgi Erişim blogspot
 Pulluk insan yeteneklerini ve üretimi 10 kat artırıyor  Kimyasal gübre tarımda üretimi 10 kat artırıyor  Pulluk * Kimyasal gübre=100 kat artış  Tarım.
BBY 156 Bilgi Erişim İrem Soydal
Bilgisayar (Computer) Bilgisayar, uzun ve çok karmaşık hesapları bile büyük bir hızla yapabilen, mantıksal (lojik) bağlantılara dayalı karar verip işlem.
Bilgi Erişim Sistemleri
İrem Soydal ~ Yurdagül Ünal
1 45. Kütüphane Haftası, 3 Nisan 2009, İstanbul Dijital Yerliler ve Sanal Kütüphaneler: Bilgi Hizmetleri Sağlayan Kurumları Nasıl Bir Gelecek Bekliyor?
Bilgi Teknolojisinin Temel Kavramları
İrem Soydal ~ Yurdagül Ünal
İrem Soydal ~ Yurdagül Ünal
Hafta 1: Dizinleme ve Özler BBY 264 Dizinleme ve Sınıflama.
Arama BBY256 Bilgi Mimarisi. Bulmak için Tasarım Farklı bilgi arama modelleri İnsanların bilgi arama davranışları Bu davranışların öğrenilmesi.
İrem Soydal ~ Yurdagül Ünal
Hafta 2: Dizinleme ve Öz Hazırlamaya Giriş BBY 306 Dizinleme ve Öz Hazırlama
DEPOLAMA.
Internet Üzerinden Araştırma Yöntemlerinin Etkin Kullanılması
Bilimsel Bilgiye Erişim
Türkçe Arama Motorları Ne Kadar Türkçe?
Dijital kütüphane işlevleri
Gurbet Gunturk Evsel, MLIS
WEB 2.0 Teknolojileri Sibel SOMYÜREK.
Sunum transkripti:

BBY 220 - Bilgi Erişim İlkeleri Güven KÖSE Hacettepe Üniversitesi gkose@hacettepe.edu.tr yunus.hacettepe.edu.tr/~gkose/

Ders Planı Giriş, Bilgi Erişimin Tarihçesi Bilgi Erişim Sorunu ve Kavramları Bilgi Erişim Sistemlerinin Bileşenleri:İçerik Belirteçleri, Belgeler, Sorgular  Erişim Fonksiyonları: Boolean Model, Vektör Uzayı Modeli, Dil Modeli  Bilgi Erişim Sistemlerinde Etkinlik ve Performans Değerlendirme Arama Motorları ve Bilgiye Erişim Arama Motorlarında Web Tarama ve Dizinleme İşlemleri Link Analizi İlgililik Geri Bildirimi Sorgu Genişletme Teknikleri Gizli Anlam Dizinleme ve Ontolojiler

Ders Kitabı ve Yardımcı Kaynaklar Salton, G. and McGill, M.J. Introduction to Modern Information Retrieval. New York: McGraw-Hill, 1983. Baeza-Yates, R. and Ribeiro. Modern Information Retrieval, Baeza-Yates and Ribeiro, Addison Wesley, 1999. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. (Tam Metin) Tonta, Y., Bitirim, Y. ve Sever, H. Türkçe Arama Motorlarında Performans Değerlendirme. (Performance Evaluation of Turkish Search Engines). Ankara: Total Bilişim Ltd. Şti., 2002. xvi, 152 s. (ISBN 975 92923-0-0). (Tam Metin) Konuyla ilgili makaleler

Değerlendirme Ara Sınav (%40) Final (%60)

Bilgi Toplumuna Giden Yol Pulluk ve kimyasal gübre  100 kat  Tarım Devrimi Buharlı makine  1000 kat  Sanayi Devrimi Bilgi ve iletişim teknolojileri  Trilyonlarca kat  Bilgi Devrimi Transistörün bulunuşu “Belki atalarımız da bir enformasyon çağında yaşadılar – farkında olmadan (Headrick, 2002) Pulluk insan yeteneklerini 10 kat artırıyor Kimyasal gübre tarımda üretimi 10 kat artırıyor Pulluk * Kimyasal gübre (100 kat artış)  Tarım devrimi Buharlı makine 1000 kat artırıyor  Sanayi devrimi Bilgi ve iletişim teknolojileri bilgi toplama-işleme-iletimde milyonlarca kat artış sağladı Yani BİT’ler insan yeteneklerini trilyonlarca kat artırdı  Bilgi devrimi? Buharlı motorun (1708) bulunuşuyla jet motorunun üretimi (1937) arasında 229 yıl var İlk bilgisayar (ENIAC) 1946, transistörlü 1956, bütünleşik devreli 1965, mikroişlemci ve bütünleşik devre aynı yonga üzerinde 1973. Çok büyük ölçekli bütünleşik devreler (6.4 kat daha hızlı) ABD’nin demiryollarıyla donatılması 41 yıl, bilgi ağıyla donatılması 7 yıl sürmüş. 3-6 kat daha hızlı (hangi ölçüyü alırsanız alın) Ürün Fiyat Tarım sınai bitkiler 1 dolar/kg Sanayi otomobil 25 dolar/kg Savaş uçağı 1000 dolar/kg Bilgi Bilgisayar 1000 dolar / kg Yazılım 50.000 dolar / kg Hizmet sonsuz Tekman, s.275 Toffler (1981)

Bilginin Değişen Rolü Tarım Toplumunda bilgi sorun çözmede yardımcı olan kritik bir “girdi” idi Sanayi Toplumunda ticari bir ürün, en temel ekonomik kaynak, “kalkınmanın can damarı” haline gelen bilgi “çözümün” kendisi oldu. Bilgi Toplumunda ise yaratılabilecek, iletilebilecek, depolanabilecek sınırsız bilgi giderek bir “sorun” haline gelmeye başladı. (http://discovery.cofc.edu/about.html).

Bilgi Teknolojisi Dünyayı Nasıl Değiştiriyor? Eşli, aygıttan aygıta ağ bağlantısı Her aygıt ve uygulamada kesin yerel mekan bilgisi de gömülü Mobil cihazlarla bilgiye zaman ve makandan bağımsız erişim sağlanabiliyor Source: Gage, 2002

Bilgi . . . Bilgi depolama ortamları Bilgi iletim ortamı beyin, kültürel birikim, “dış” ortamlar Bilgi iletim ortamı dağıtık ağlar: 14 saniyede Kongre Kütüphanesi’nin içeriğini bir yerden bir yere iletmek mümkün Bilgi işleme ortamları beyin, bilgisayarlar, insanlardan daha “akıllı” makineler, “yapay beyin” Plato’nun Phaedrus’unda Mısır Kralı Theus ile yazıyı bulan bilim adamı arasında geçen konuşma hatırlatılabilir. 'İnsanlar yazıyı öğrenirlerse akıllarına unutkanlık aşılanır; bellek alıştırması yapmayı bırakırlar. Çünkü yazılı olana güvenirler; şeyleri ezbere değil, dışsal işaretler aracılığıyla hatırlamaya çalışırlar. Keşfettiğiniz şey bellek içindeğil, hatırlama için bir reçetedir. Ve size inananlara sunduğunuz şey gerçek bir hikmet değil, sadece onun görüntüsüdür. Çünkü size inananlara birçok şey söyleyerek, ama öğretmeden, onları çok biliyorlarmış gibi gösterebilirsiniz. Oysa çoğunlukla hiçbir şey bilmezler. Ve insanlar gerçek hikmetle donatılmazlarsa diğer insanlara yük olurlar.' Popper ‘Dünya uygarlığı bir savaşla yok olup, geriye kütüphanelerde saklanan nesnel bilgi içeriği kalırsa, uygarlığı yeniden kurmak mümkündür. Halbuki bu nesnel bilgi içeriği, yani kütüphaneler yok olup, yalnızca öznelerin öğrenme yeteneği kalsa, çağdaş uygarlığı yeniden inşa etmek hemen hemen imkânsızdır.’ “...tüm insanlığın belleği herkes tarafından erişilebilir hale getirilebilir, ve muhtemelen yakın bir gelecekte getirilecektir.... Bu beyin insan kafası ya da kalbi gibi kolayca tahrip edilemez. Kesin ve tam olarak Peru’da, Çin’de, İzlanda’da, Merkezi Afrika’da ya da tehlikeye ve engellemeye karşı garanti altına alınabilecek herhangi bir yerde bu beynin röprodüksiyonu yapılabilir. Bu beyin aynı zamanda hem kafataslı bir hayvanınki gibi tek bir yerde toplanabilir hem de bir amipinki gibi dağıtık ama canlı olabilir” (Dyson, 1997, s. 10). İnsan beyni Kültürel birikim “Dış” ortamlar Manyetik ve optik depolama aygıtları Dağıtık depolama kolaylıkları 2025 yılına dek makinelerin depolama gücü insan belleğininkine yaklaşacak 2030 yılına dek makineler insanlar sinirsel ağın bilgi işleme gücüne erişecek Kurzweil, “The Age of Spiritual Machines”) Beyin nakli de diğer organ nakilleri kadar popüler olacak mı? Meme büyütme operasyonları gibi beyin büyütme operasyonları yapılabilir mi?

Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf Depolama Maliyetleri Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf

Depolama Maliyetleri Fiyatlar her yıl %45 düşüyor 421 USD 0,42 USD Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf

İletim Maliyetleri 2010 8 Mbps = $19 1 Mbps = $2,4 Kaynak: ULAKBİM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml)

Bilgi Patlaması - 2002 5 Exabyte (5 x 1018 byte) 2002’de dünyada üretilen yeni bilgi miktarı (5 x 1018 byte) 5 Exabyte’lık bilgi = 37,000 yeni Kongre Kütüphanesi! “Yüzey web”de yaklaşık 100 milyar belge var (1670 Terabyte) var “Derin web”de 550 milyar belge var(dı) (91857 Terabyte) (“Web Growth, Web Dangers” (Editorial) NUA Internet Surveys, 31 July 2000, <http://www.nua.ie/surveys/analysis/weekly_editorial.html>) Kaynak: BrightPlanet & Lyman and Varian

Bir Exabyte (EB) ne kadar büyük? Kilobyte (KB) 1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph. Megabyte (MB) 1,000,000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM. Gigabyte (GB) 1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals. Terabyte (TB) 1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database. Petabyte (PB) 1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. Exabyte (EB) 1,000,000,000,000,000,000 bytes OR 1018 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings. Kaynak: How much information 2003, Tablo 1.1

Bilgi Artışı Tablo 1. 2002’de dünyada üretilen özgün dijital bilgi üretimi. İyimser tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital içeriğin sıkıştırıldığı varsayıldı. Depolama ortamı 2002 Üst tahmin (Terabyte olarak) Alt tahmin (Terabyte olarak) 1999-2000 Üst tahmin 1999-2000 Alt tahmin % Değişim Üst tahminler Kâğıt 1,634 327 1,200 240 %36 Film 420,254 76,69 431,690 58,209 %-3 Manyetik 5187130 3,416,230 2,779,760 2,073,760 %87 Optik 103 51 81 29 %28 TOPLAM 5,609,121 3,416,281 3,212,731 2,132,238 %74.5 Kaynak: Lyman ve Varian

Bilgi Miktarı 5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit) ABD’de her yıl 80 milyar fotoğraf çekiliyor 2 milyar röntgen filmi çekiliyor Günde 610 milyar e-posta mesajı gönderiliyor Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor Peter Lyman ve Hal Varian’ın araştırması (The Economist, 26 Mart 2001 sayısı)

5 Exabayt  161 Exabayt 161 Exabayt ne kadar eder? Dünyadan Güneşe kadar uzanan 12 raf kitap Kişi başına 6 ton kitap Dörtte biri orijinal bilgi, gerisi ikileme. Dörtte biri 40 Exabayt eder. Oysa 2002-2003’de toplam yeni bilgi miktarı 40 Exabayt hesaplanmıştı. THE UNSTRUCTURED DATA PROBLEM Over 95% of the digital universe is "unstructured data" – meaning its content can't be truly represented by its location in a computer record, such as name, address, or date of last transaction. Digital images, voice packets, and the musical notes in an MP3 file would be considered unstructured data. In organizations, unstructured data accounts for more than 80% of all information. There may be information about the content, such as when it was captured – e.g., the time stamp on a camcorder clip – or its compression scheme, address from which it was sent or received if indeed it was, or file size. But that information, or "metadata," is generally not enough to determine what is http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf

Depolama Kapasitesi IDC estimates that in 2006, just the email traffic from one person to another – i.e., excluding spam – accounted for 6 exabytes (or 3%) of the digital universe. … The cost of not responding to the avalanche of information can add up, yet not be immediately visible to CEOs and CFOs. In surveys of U.S. companies, we have found that information workers spend 14.5 hours per week reading and answering email, 13.3 hours creating documents, 9.6 hours searching for information, and 9.5 hours analyzing information. We estimate that an organization employing 1,000 knowledge workers loses $5.7 million annually just in time wasted having to reformat information as they move among applications. Not finding information costs that same organization an additional $5.3 million a year. Adopting a comprehensive and disciplined approach to managing information and understanding its value is a key to reducing the hidden – and not so hidden – costs associated with the information explosion. http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf

Web 2.0 Nedir? Source: http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html

Kaynak: http://en.wikipedia.org/wiki/Web_2.0 Web 2.0 Tanımı Yaratıcılığı artırmayı, bilgi paylaşımını ve en önemlisi kullanıcılar arasındaki işbirliğini amaçlayan Web teknolojisi ve web tasarımı. Sosyal ağ siteleri, wiki’ler, günlükler (blogs) ve folksonomiler gibi Web tabanlı toplulukların ve barındırılan hizmetlerin gelişmesi ve evrimleşmesi Kaynak: http://en.wikipedia.org/wiki/Web_2.0

Kaynak: O’Reilly (2005); http://en.wikipedia.org/wiki/Web_2.0 Web 2.0 Özellikleri Platform olarak Web Kullanıcı katılımı yoluyla ortak akıl Dinamik içerik Paketlenmiş yazılım yerine hizmetler Hafif programlama modelleri Web standartları ve ölçeklenebilirlik Zengin kullanıcı deneyimi açıklık özgürlük Kaynak: O’Reilly (2005); http://en.wikipedia.org/wiki/Web_2.0

Dijital Vatandaşlık Testi Bunu okuyabilir misiniz? “kdz n colleG? ms em? U2 cn lrn txtN” Ipod’unuz (çocuklarınız ya da torunlarınızın değil) var mı? Wii’ı denediniz mi? En çok hangi oyunu beğendiniz? Akıllı telefon kullanıyor musunuz (yani, e-posta, video, fotoğraf özellikleri olan …)? Anında mesaj (IM) kullanıyor musunuz? Blog kullanıyor musunuz? Blog’dan ne öğreniyorsunuz? “Lonely Girl 15”in kim olduğunu biliyor musunuz? TV olmadan TV programlarını izlemek için üç popüler yol önerebilir misiniz? Hiç Starbucks’ta WiFi kullandınız mı? “Mashup” sitelerinin önemini biliyor musunuz? Mash Up yarışmasına katıldınız mı? MID ne demektir? Sharepoint mi yoksa Wiki mi daha fazla işbirliği olanağı sağlar? Aralarındaki fark nedir? 0-1 2-7 11-12 Fosiller Göçmenler Yerliler 8-10 Sonradan vatandaşlığa kabul edilenler Do you IM? Do you Blog? What do you learn from it? Virtual Water cooler and Social book marking Do you know the importance of “mashup” sites? Have you competed in a Mash Up competition? What is more collaborative Sharepoint or Wiki and what is the difference? Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 21 21

Dijital Yerliler Bilgiye hızlı erişim Paralel işleme Metin yerine grafik Rastgele erişim (hipermetin) Sürekli ağ üzerinde Oyunlar

Dijital Göçmenler

Dijital Göçmenler – Dijital Yerliler Örneği Dijital göçmen-dijital yerli spektrumunda neredesiniz? Bilgiyi kişiselleştirmek için Mashup’ları kullanıyor; Uygulamalar için “Pipes “ı kullanıyor Web’i kişiselleştirmek için RSS kullanıyor Web’e bağlı taşınabilir MP3 çalar E-posta/adi posta kavramıyla mücadele halinde; Wiki veya blog’lar hakkında hiçbir fikri yok “Bağlantılı olma”yı varsayar ve gerektirir İsteklere cevap verirler Gezgin sosyal yazılım kullanırlar Kablosuz resim ve TV telefonları Anında bağlantılılık DY’ler niçin Sosyal Ağlardan hoşlanırlar? DY’ler niçin Sosyal Bookmark’ları kullanırlar? The real question is not can the DI be taught to understand, appreciate and use the new capabilities but rather will he ever understand the motivation. The story of the trip to a restaurant is used here to explain that DI would never “write a review’ they do not see the internet and world wide web as a place to contribute to but rather draw from. The two groups see the process in very different lights. Good question SO WHAT Kablosuz telefon bilgisayar oluyor (Eposta, Web IM . Video vs) Kablosuz haritalı el bilgisayarları Tamamen bağlı….. …tamamen dijital …birden çok görevi yapabilir … …tamamen gezgin (veri, görüntü, ses) ...”Uzunçalar”/“plak” nedir bilmezler Dijital Yerli 24 Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 24

Bilgi kaynakları + İnsanların bilgi kaynaklarıyla ve birbirleriyle ilişkileri Google’ın misyonu “dünyanın içeriğini düzenlemek”, sosyal ağlarınki ise “dünyanın insanlarını” Bilgi erişim artık sadece bilgi kaynakları merkezli olmamalı, insanlar arasındaki ilişkilere de odaklanmalı (kaynak merkezli –ilişki merkezli yaklaşım) (Lagoze, 2000) Kişiselleştirme Tavsiye sistemleri Standart içerikle kullanıcının yarattığı içeriğin birleştirilmesi Web 3.0: Social semantic Web Resource-centric vs. relationship centric approach to information management (Lagoze, 2000) Current information management practices are resource-centric Web 2.0 requires relationship-centric approach to resources and users Personalization Offering personalized content to recognized users based on their individual characteristics, preferences and privileges, access methods, and so on Keeping user-created content with the standard content Recommendation systems “Circulation systems typically break the link between a patron and a book that has been borrowed when that book is returned.” Lynch (2001) Merging user-created content with the standard content Tags, comments, reviews, ratings, personalized copies of e-books … Infrastructure Maintenance Social semantic Web (Web 3.0

Bilgi Erişim Tanımı “bilgi toplama, sınıflama, kataloglama, depolama, büyük miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi kısa sürede üretme (veya gösterme) tekniği ve süreci”

Bilgi Erişim Sorunu Wells, “World Encyclopedia” (1936) Bush, “As we may think,” Atlantic Monthly, (1945) Memex (memory expansion) “bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952) Otomatik dizinleme – KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960’lar) Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- ) Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektör uzayı modeli (Gerard Salton, 1961) İstatistiksel ağırlıklandırma (tf*idf, 1970’ler) Dil modelleri (Ponte-Croft, 1998) Performans ölçümleri Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster, Salton, Blair-Maron, Harman) Bilginin giderek artan fragmantasyonu Bütüncül ya da “büyük resim” düşüncesinin ifadesi 1. Sistem felsefesi Genel Sistem Kuramı Ludwig von Bertalanffy, 19. Yüzyıl ortaları Sistem analizi C.A. Cutter, 1876, Kataloğun amaçları 2. Bilim felsefesi Mantıksal pozitivizm Doğrulanabilirlik Değişkenlerin işletimselleştirilmesi Farklı değişkenler arasında ilişki kurma Anma-duyarlık ilişkisi (Cyril Cleverdon, 1950’ler) Dizin spesifisitesi, dizin derinliği, sözdağarı büyüklüğü gibi etmenlerin erişim performansına etkileri 3. Dil felsefesi Doğrulanabilirlik dilbilimsel bir ilke Dilbilimsel çözümleme felsefesi (Wittgenstein) Bir sözcüğün anlamını belirleyen onun kullanım biçimidir

Bilgi Erişimin Entellektüel Temelleri Sistem felsefesi Bilim felsefesi Dil felsefesi Bilginin giderek artan fragmantasyonu Bütüncül ya da “büyük resim” düşüncesinin ifadesi 1. Sistem felsefesi Genel Sistem Kuramı Ludwig von Bertalanffy, 19. Yüzyıl ortaları Sistem analizi C.A. Cutter, 1876, Kataloğun amaçları 2. Bilim felsefesi Mantıksal pozitivizm Doğrulanabilirlik Değişkenlerin işletimselleştirilmesi Farklı değişkenler arasında ilişki kurma Anma-duyarlık ilişkisi (Cyril Cleverdon, 1950’ler) Dizin spesifisitesi, dizin derinliği, sözdağarı büyüklüğü gibi etmenlerin erişim performansına etkileri 3. Dil felsefesi Doğrulanabilirlik dilbilimsel bir ilke Dilbilimsel çözümleme felsefesi (Wittgenstein) Bir sözcüğün anlamını belirleyen onun kullanım biçimidir

Dil Felsefesi ve Bilgi Erişim Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü Sistematik dizinleme (J. Otto Kaiser) Dilbilimsel yapılar Sözdağarı Anlambilim Sözdizimi Kataloglama, sınıflama, dizinleme Basit terimler anlamsal kategorilere ayrıldı. Bu kategorilere göre tanımlanmış sözdizim kuralları kullanılarak birleşik terimler inşa edildi

Sınıflama Kuramı Sınıflama dile dayanıyor Dil belirsizlikler içeriyor Kavramlar üzerinde anlaşma sağlamak zor Domates “meyve” mi “sebze” mi? “Alternatif tıp” hangi konuya girer? Felsefe? Din? Sağlık ve tıp? Webster’da “domates” şöyle tanımlanıyor: “kırmızı ya da sarımtırak sulu bir meyve, sebze olarak kullanılır, bitki olarak yumuşak, kabuksuz meyvedir” Aslında teknik olarak domates bir meyve (berrey), ama 1893’de ABD Anayasa Mahkemesi domatesin sebze olduğuna karar veriyor. West Indies’ten domates ithal eden John Nix, sebze ithaline konulan %10’luk gümrük vergisini ödememek için dava açıyor. Nix domatesin meyve olduğunu savunuyor. Mahkeme ise domatesin meyve gibi tatlı olarak değil de sebze olarak tüketildiğini göz önünde bulundurarak domatesin sebze olduğuna hükmediyor. Kaynak: Denise Grady, “Best Bite of Summer”, Self 19(7): 124-125, July 1997’den aktaran: Louis Rosenfeld and Peter Norville, Information architecture for the World Wide Web. Sebastopol, CA: O’Reilly, 1998. (Aslında ABD Anayasa Mahkemesi daha Wittgenstein doğmadan Wittgensteincı bir yorum yapmış burada: bir sözcüğün anlamını kullanım belirler. Belgeleri tanımlamak mekanik bir süreç değil Entellektüel – otomatik dizinleme (“bağıntılı dizinleme”) Belli sözcüklerin varlığı/yokluğu İstatistiksel dizinleme Dildeki belirsizlik Tanımlar üzerinde anlaşma Terimlerin sınıflandırılması

Bilgi Erişimin Temel İkilemi “Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği” (Hjerrpe) Durum “sözlük” kelimesinin anlamını bilmeyen bir kişinin içinde bulunduğu çıkmaza benzetilebilir. Sözlük kelimesinin anlamını bilmiyorsa bilmediğini öğrenmek için sözlüğe bakmayı nasıl akıl edecek?

İdeal Bilgi Erişim Sistemi Kullanıcı açısından bakıldığında ideal bir bilgi erişim sisteminin: Derlem üzerindeki bütün bilgi ya da belgeye erişim sağlaması, Arama sonuçlarının çok hızlı bir biçimde sunması, Erişilen bütün sonuçların güncel olması, Arama sonucu erişilen bütün belgelerin sorgu ile ilgili olması, Derlem üzerinde sorgu ile ilgili bütün ilgili belgelere erişilebilmesi, Sorgu ile en ilgili belgelerin erişim çıktısında en üstte daha az ilgililerin ise daha alt sıralarda yer alması gereksinimlerini yerine getirmesi beklenir. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

İdeal Bilgi Erişim Sistemi Ancak pratikte, kullanıcıların bilgi ihtiyaçlarını ifade etmek için seçtikleri terimlerle belgelerdeki terimlerin eşleştirilmesi mantığı üzerinde çalışan günümüz popüler bilgi erişim sistemlerinin bu gereksinimlerin tamamını ya da pek çoğunu aynı anda yerine getirmesinin imkansız olduğu söylenebilir. Başka bir deyişle, bir ya da iki arama kelimesi ile kullanıcılar bilgi erişim sistemlerinin mucize yaratmasını beklemektedirler. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

İdeal Bilgi Erişim Sistemi Pratikte ideal bilgi erişim sistemini gerçekleştirmek olanaksız gibi görünse de, kullanıcı gereksinimlerini mümkün olduğunca fazla karşılayacak sistemlerin geliştirilmesi için yoğun çalışmalar yapılıyor. Bunlardan bazıları: Farklı bilgi erişim sistemlerinin birleştirilmesi (meta search), Kişiselleştirilmiş arama (personalized search), Anlamsal arama (semantic search), Web 3.0, Doğal dil işleme araçlarının kullanılması (Natural Language Processing) ve farklı diller için yerelleştirmeler Soru yanıtlama sistemleri (question answering) http://www.answers.com  what is the capital of turkey? Çoklu ortam bilgi erişim sistemleri (multimedia retrieval) Konu tespit ve takip sistemleri (topic detection and tracking)

Bilgiye Erişim ve Veriye Erişim Arasındaki Fark organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval Veriye Erişim

Bilgi Erişim Sistemleri İşlevsel Mimarisi Bir bilgi erişim sisteminin temel bileşenleri: 1. Bir belge derlemi (ya da bu belgeleri temsil eden içerik belirteçlerini içeren tutanaklar), 2. Kullanıcıların sorgu cümleleri, 3. Kullanıcıların sorgu cümlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karşılaştırarak ilgili belgeleri belirlemek için kullanılan bir erişim kuralı ön yüz organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval arka yüz (Tonta, Bitirim, ve Sever, 2002) ön yüz

Bilgi Erişim Sistemleri İşlevsel Mimarisi Bilgi ihtiyacı (veya kullanıcı sorgusu): Bilgi ihtiyacı bir düz metinle (doğal dille) ifade edilebileceği gibi dizin terimleri ve aralarındaki ilişkiler ("ve", "veya", "ve-değil", "ise/eğer", vb.) çerçevesinde de tanımlanabilir. Erişim çıktısı: Eldeki sorgu ifadesinin belgeler ile eşleştirilmesiyle oluşturulur. Yani sistemin, belge derlemi (koleksiyonu) içinde sunulan sorgu ifadesi ile ilgili olduğunu "düşündüğü" belgeleri topladığı havuza (ya da “küme”ye) erişim çıktısı adını vermekteyiz. Erişim çıktısındaki belgeler kullanıcı bilgi ihtiyacına yakınlık derecesine göre azalan sırada sıralanırlar. Geri Bildirim: Sistem tarafından döndürülen belge çıktısının kullanıcının bilgi ihtiyacını karşılamaktan uzak olduğu durumlarda, kullanıcı geribildirim sürecini başlatarak daha kaliteli bir belge çıktısı elde etmek isteyebilir. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

(Baeza-Yates ve Ribiero-Neto, 1999) Bilgiye Erişim Süreci organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval (Baeza-Yates ve Ribiero-Neto, 1999)

Belge Erişim Sisteminin Mantıksal Düzenlemesi Belgeler Kullanıcılar Gömü - Sözlük Sorgu formülasyonu Dizinleme Dizin tutanakları Erişim kuralı Formel sorgu cümlesi Kaynak: Maron, 1984

Web İçin Örnek Bilgi Erişim Mimarisi

İçerik Terimleri ve Belge Gösterimi organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval (Dinçer, 2004)

İçerik Terimleri ve Belge Gösterimi organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval (Baeza-Yates ve Ribiero-Neto, 1999)

Düze Metin Olmayan Belgelerde Durum Nedir? Düz Metin (Plain Text): Dosya içerisinde karakterler yazıldıkları biçimde (ASCII) olarak saklanırlar (*.txt). Diğer Metin Biçimleri: Karakterler dosya içerisinde özel bir biçimde (format) tutulur. Bu tür verileri okumak için özel uygulamalar gerekir. doc  Word pdf  Acrobat Reader xls  Microsoft Excel ppt  Microsoft Powerpoint Düz metin olmayan belgelerin dizinlenebilmesi için düz metne çevrilmesi gerekir (pars). organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Düze Metin Olmayan Belgelerde Durum Nedir? organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Metin Ön İşleme Nedir? Belge düz metne çevrilir, Metin içerisindeki tüm noktalama ve özel işaretler çıkarılır, Metin içerisindeki bütün harfler küçük harfe çevrilir, Birden fazla olan boşluklar atılır ve kelimeler ayıklanır organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Türkçe Durma Kelimeleri (Stop Words) Listesi organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

İngilizce Durma Kelimeleri Listesi organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Durma Kelimeleri Listesi Nasıl Oluşturulur? Elimizde bulunan 1000 adet belgeden kelimelerin kullanılma sıklıkları ile ilgili bir istatistik çıkarılmış. Buna göre bazı kelimelerin sıklıkları şu şekildedir: Ve  2542 adet Veya 2030 adet Başkent  1200 adet Ankara  950 adet Bilgisayar 12 adet Algoritma 3 adet Durma kelimeleri neler olabilir? organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Durma Kelimeleri Listesi Nasıl Oluşturulur? Sınırlı alanlarda çalışılıyor ise alana özel durma kelimelerinin belirlenmesi gerekir. Örneğin, derlem bilgisayar grafiği ile ilgili makalelerden oluşuyorsa bilgisayar ve grafik gibi kelimelerin ayırt edici özelliği yoktur. Eğer derlem çok büyük ise (İnternet gibi) dil için durma kelimeleri listesi elde edilmelidir. organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Durma Kelimeleri Listesi Nasıl Oluşturulur? organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval X ekseni: tekil kelimeler Y ekseni: kelimenin geçtiği doküman sayısı Hangi kelimeler durma kelimeleridir? (%80 kuralı)

Gövdeleme (stemming) Kök: Kelimenin her türlü ek (yapım ve çekim) çıkarıldıktan sonra kalan anlamlı bölümüdür. Kelime: yaptırmak Kök: yap Gövde: İsim ve fiil köklerinden yapım ekleriyle türetilmiş kelime. Kelime: Evli (ev-li), sevdirmek (sev-dir-mek). organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Gövdeleme (stemming) Gövdeleme: Belge içerisindeki içerik belirteçlerinde (ya da kelimelerde) yapım eklerinin tutulup, çekim eklerinin çıkarılması anlamına gelir. İçerik belirteçlerinde gövdeleme yapılması sorgular ve belgeler arasındaki kesişme olasılığını artırdığı için bilgi erişimde başarıma olumlu etkisi olduğu düşünülmektedir. Örneğin, 3 farklı belgede geçen 3 kelime: D1 numarama, D2  numarası, D3 numaram olsun. Eğer sorgu olarak “numara” kelimesi yollanırsa BES 3 dokümanı da eşleştiremez Gövdeleme yapılması durumunda: D1 numara D2  numara D3  numara Sorgu  numara organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval

Gövdeleme (stemming) nasıl yapılır? Sözlük tabanlı yöntemler Ek atma tabanlı yöntemler organizing information: to compile an encyclopedic compendium of knowledge for the purpose of information retrieval