Co ğ rafik Yer Bilgilerinin Elde Edilmesi ve Sorgu Genişlemesi Yöntemi ile Sorgulanması Yrd Doç Erdal KILIÇ Öğr Gör Ömer SEVİNÇ İ net-tr 12
Sunum Planı Giriş Uygulama Özeti Önceki Çalışmalar Önerilen Yöntem ve Metotlar De ğ erlendirme ve Sonuçlar İ leri Çalışma ve Öneriler İ net-tr 12
Giriş Günümüzde co ğ rafik veriler üzerinden geliştirilen uygulamalar çok popüler hale gelmiştir. GPS ile yön bulma, otel, turistik ve tarihi yer aramaları, gibi türlü co ğ rafik konum arama uygulamaları insan hayatını kolaylaştırmaktadır Di ğ er taraftan arama motorlarında co ğ rafik konum aramaları sıkça yapılmaktadır. Mevcut arama yöntemleri ço ğ unlukla kelime tabanlı arama yapmakta ve sorgu cümlesi içerisinde geçen kelimelerle eşleşen kayıtlara göre, en çok ilişkili olabilecek dokümandan en aza do ğ ru sıralamaktadır. Konu co ğ rafik arama oldu ğ unda koordinat bilgilerinin de de ğ erlendirilmesi şarttır. Bunun yanında sorgu genişlemesi ile aynı anlama gelebilecek kelimeleri de sorgu cümlesine ekleyerek arama sonuçları artırılabilir. İ net-tr 11
Giriş Sorgu genişlemesi kullanıcının sorgusunun tekrar düzenlenerek ilişkili sorgu sonuçları elde etme işleminin geliştirilmesidir. Böylece eşleşebilecek doküman sayısı artırılmış olacaktır. Eşanlamlı kelimeleri bularak o kelimeler üzerinden de arama yapmak Kelime kökleri bulunarak farklı ekler alacak şekilde arama yapmak Yazım hatalarını düzelterek arama yapmak Sorgu içerisindeki kelimeleri yeniden a ğ ırlandırmak suretleriyle sorgu genişlemesi tekni ğ i kullanılabilir. Bizim çalışmamızda eş anlamlı kelimeler, kelime köklerinin elde edilmesi ve bunun dışında koordinat bilgilerinden yararlanılması ile arama sonuçları iyileştirilmiştir İ net-tr 11
Uygulama Özeti Öncelikle co ğ rafik veriler açık bilgi kayna ğ ı olan Vikipedi’den XML dosyası formatında alınmış, daha sonra da hedeflenen bilgileri yeni bir XML formatında düzenleyip kaydeden bir otomasyon geliştirilmiştir. Kaydedilen veriler, bir açık kaynak indeksleme ve arama programı olan SOLR ile indekslenerek hem eş anlamlı kelimeleri içeren sorgu sonuçların hem de aratılan bir co ğ rafik konuma belirli bir mesafedeki co ğ rafik konumları da içeren sorgu sonuçları görüntülenmiştir. Böylece normalde yalnızca kelime bazında arama yapılarak tespit edilemeyecek eş anlamlı ifadeler ve aratılan herhangi co ğ rafik yere yakın konumdaki di ğ er yerlerin de sorgu sonuçları içerisinde görüntülenebilme olana ğ ı sa ğ lanmıştır. İ net-tr 11
Uygulama Şeması İ net-tr 11
Önceki Çalışmalar Sorgulama tekniklerinin geliştirilmesi üzerine bugüne kadar çok çeşitli çalışmalar yapılmıştır. Bu çalışmalar da ters indeksleme, vektör uzay modeli, sorgu genişlemesi, co ğ rafik indeksleme ve anlamsal indeksleme gibi teknikler kullanılmıştır. Ters indeksleme metin içerisindeki her kelimeyi işaretçiler ile kelimelerin dokümanlarda göründükleri pozisyonlara eşlemektedir. Bu eşlemelerden oluşan listenin tamamı bulunanlar ya da ortaya çıkanlar olarak adlandırılmaktadır. Ters indeksleme de co ğ rafik bilgilerle ilgili bir sınıflandırma bulunmamaktadır. Mesela bir ilçenin bir şehir içerisinde yer alması gibi bir durum göz ardı edilmektedir. İ net-tr 11
Önceki Çalışmalar Geleneksel kelime tabanlı arama tekniklerinin temel aldı ğ ı vektör uzay modeli uygulanması kolay olmakla birlikte kesinlik düşüktür. Di ğ er taraftan konum bilgileri sorgulamak için koordinatsal indeksleme yapıları da kullanılmıştır. Bu yöntemlerden en çok bilineni ve ö ğ retici olanı R-Tree’ dir Bazı çalışmalarda ise ters indeksleme ile konumsal indeksleme bir arada kullanılmıştır Yeni yöntemlerden biri olan ontolojiler, paylaşılan kavramların resmi, kesin özelliklerini belirlerler ve co ğ rafik alanların da karakteristik özelliklerini tanımlayabilirler. Ontolojiler tanımlanarak veriler girildikten sonra SparQL ile sorgulanabilmektedir. İ net-tr 11
Önceki Çalışmalar Son çalışmalar ise sorgu genişlemesi ve anlamsal indeksleme üzerine yo ğ unlaşmıştır Bu çalışmada sorgu genişlemesi tekni ğ ini co ğ rafik veriler üzerinde deneyerek sorgu sonuçlarını iyileştirmeye odaklanılmıştır. Sorgu genişlemesi kullanıcının sorgusuna ilgili yeni terimleri de ekleyerek daha çok sorgu sonucu elde edilebilmesini sa ğ lamaktadır. Anlamsal indeksleme ; yapılandırılmamış metinsel dokümanlar içerisinde terimlerle kavramlar arasında ba ğ lantıları belirlemek için tekil de ğ er ayrıştırması (SVD) matematiksel tekni ğ ini kullanan indeksleme ve veri elde etme yöntemidir. İ net-tr 11
Önerilen Yöntem ve Metotlar Bu çalışmada önerilen sorgu genişlemesi yöntemini co ğ rafik yer ve koordinat verileri üzerinde uygulanmıştır. Yöntemde eş anlamlı ve yakın anlamlı kelimelerin de aynı anda aratılabilmesi sa ğ lanmış, bununla birlikte aratılan bir konumun koordinat bilgilerini kullanarak bu konuma 20 km uzaklık içerisinde bulunan di ğ er konum bilgilerini de sonuçlar içerisinde yer alması sa ğ lanmıştır. Böylece bir konum bilgisi aratılırken kelime tabanlı arama ile elde edilen sonuçlar daha fazla ilgili sonuç görüntüleyerek iyileştirmiştir. Vikipedia’dan elde edilen veriler, ayrıştırılıp ayıklanmasında ve yeni bir formatta saklamasında Java kütüphanelerinden, verilerin indekslenerek aratılmasında ise SOLR indeksleme yazılımından faydalanılmıştır. İ net-tr 11
Önerilen Yöntem ve Metotlar Sax; bir XML dokümanından verinin okunabilmesi için DOM (Doküman Nesne Modeli)’ a alternatif bir yöntemdir. Sax XML dokümanını bir bütün olarak işlemek yerine her bir parçası üzerinde sırasıyla işlem yapar. Sax’ın resmi kuralları yok ise de Java uygulamaları kurallı olarak de ğ erlendirilebilir. Daha az hafıza kullanarak nispeten daha detaylı XML dosyaları işleyebilmekte ve daha çok verinin aynı anda elde edilebilmektedir. Üzerinde çalışılan co ğ rafik konum verilerinden istenildi ğ i gibi faydalanabilmek ve indeksleyebilmek için XML alanları içerisinden veriler çekilerek yeni bir formatta kaydedilebilmesi sa ğ landı. Bunun için de Java SAX kütüphanesinden faydalanıldı. İ net-tr 11
Önerilen Yöntem ve Metotlar Solr Apache Lucene projesine ba ğ lı son derece hızlı, popüler bir açık kaynak arama platformudur. Genel olarak, güçlü tam metin araması, önemli kısımların vurgulaması, dinamik bölümleme, veritabanı birleştirme, zengin doküman işleme ve co ğ rafik arama gibi özellikleri içermektedir. Solr yüksek derecede ölçeklenebilir olup, da ğ ıtık arama ve indeks kopyalama gibi özellikler sa ğ lar. Dünyaca büyük internet sitelerinin arama ve navigasyon özelliklerine güç katmaktadır. Solr’ün güçlü dışarıdan ayarlanabilme özelli ğ i ile birçok türden uygulama Java kodlaması yapmadan gerçekleşebilmekte ve daha ileri düzeyde uygulamalara ihtiyaç duyuldu ğ unda geniş eklentileri ile uygulama özelleştirilebilmektedir İ net-tr 11
De ğ erlendirme ve Sonuçlar İ net-tr 11