Aralık 2002 Tıkların Dili Belgin ÖZAKAR TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir?
Aralık 2002 Tıkların Dili Belgin ÖZAKAR İçerik Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi Veri Hazırlama İYTE Web Madenciliği Vertabanı Sorgu Mekanizması Sonuç Planlanan Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR “ Web madenciliği, veri madenciliği teknikleri kullanarak, World Wide Web dökümanları ve servislerinden, otomatik olarak, anlamlı bilgi çıkarmaktır” Etzioni u Giriş u Sınıflandırma u Teknikler
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Problemler Fazla karışık, değişik bilgi tipleri, standardizasyon yetersizliği Kısıtlı kapsam, ulaşılamayan veritabanları Kısıtlı sorgu arayüzleri (anahtar kelimeye göre) Kısıtlı kişiselleştirme Web üstündeki bilginin az bir bölümü gerçekten ilgili ve faydalı u Giriş u Sınıflandırma u Teknikler
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Web Yapı Madenciliği Web Kullanım Madenciliği Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır Web Madenciliği Sınıflandırması Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır Web Madenciliği Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır Web İçerik Madenciliği u Sınıflandırma u Teknikler u IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Sistem İyileştirme Schecher Aggarval Genel Kullanım (Business Intelligence & Usage Characterization) Surfaid WebLogMiner Web Madenciliği Sınıflandırması Kişiselleştirme WebWatcher WebPersonalizer Analog WebSIFT WUM Shahabi Site Güncelleme PageGather Web Yapı Madenciliği Web Kullanım Madenciliği Web Madenciliği Web İçerik Madenciliği u Sınıflandırma u Teknikler u IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Tanımsal İstatistik çeşitli değişkenlere dayalı analizler İlişkilendirme Kuralları veriler arasında önceden kestirilemeyen ilişkiler bulma Gruplama/Kümeleme benzer özellikteki verileri gruplama Sınıflandırma verileri tanımlı sınıflara atama Sıralı Paternler bağlantılar süresince oluşan paternleri bulma Bağımlılık Modellemesi farklı değişkenler arasındaki bağımlılıkları ortaya koyan modeller oluşturma Patern Tespit Teknikleri u Teknikler u Proses u IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Web Madenciliği Prosesi Veri Temizleme Veri Entegrasyonu Web erişim verisi İlgili Veri Seçim Veri Madenciliği Patern Tespiti Patern Değerlendirme Veri Tabanları u Teknikler u Proses u IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Sunucu Erişim Verisi Sunucu Hata Verisi Sunucu Kullanıcı Verisi Temizlenen Sunucu Erişim Verisi Temizlenen Sunucu Hata Verisi Temizlenen Sunucu Kullanıcı Verisi IYTE WUM VERİTABANI (Mysql) IYTE WUM VERİTABANI (Mysql) Veri Temizleme (Java Classes) Veri Temizleme (Java Classes) Tanımsal Sorgu Mekanizma sı (Mysql DML) Tanımsal Sorgu Mekanizma sı (Mysql DML) İlişkilendirme Kuralları (Java Classes, JDBC & MySQL DDL & DML) İlişkilendirme Kuralları (Java Classes, JDBC & MySQL DDL & DML) Veri Seçimi & Entegrasyonu (Java Classes, JDBC & MySQL DDL) Veri Seçimi & Entegrasyonu (Java Classes, JDBC & MySQL DDL) Apriori Sorgu Mekanizmas ı (Mysql DML) Apriori Sorgu Mekanizmas ı (Mysql DML) IYTE WUM Sistem Mimarisi u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar IYTE Web Sitesi İçerik Verisi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Bilgisayar ismi ya da bağlanan makinanın IP adresi CLF Kayıt Yapısı Remote Host Login ismi, gönderilmez, genellikle boş GET sayfa talepleri için, POST teslimler için – Ident and Authuser – [Date and Time] “Request” Status Bytes pergamon.iyte.edu.tr [20/Jun/2000:15:13: ]''GET /courses.html HTTP/1.1 '' 304 pergamon.iyte.edu.tr [20/Jun/2000:15:13: ]''GET / will/courses/CS101/ HTTP/1.1'' 304 pergamon.iyte.edu.tr - - [20/Jun/2000:15:13: ]”GET / gif/geney.jpg HTTP/1.0 “ pergamon.iyte.edu.tr - - [20/Jun/2000: 15:13: ]” GET / gif/acad.gif HTTP/1.0 “ pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05| +0300]” GET / gif/ciz7.gif HTTP/1.0 “ | user | ldate | ltime | rtime | demand | url_m | url | sts_m | status | | pergamon.iyte.edu.tr | | 15:13:05 | | GET | gif | gif/yazi.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | | 15:13:05 | | GET | gif | gif/zemin1.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | | 15:13:05 | | GET | gif | gif/geney.jpgHTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | | 15:13:05 | | GET | gif | gif/acad.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | | 15:13:05 | | GET | gif | gif/living1.gif HTTP/1.0 | 304 | 304 -| u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR [Thu Aug 19 14:02: ] Server configured -- resuming normal operations [Thu Aug 19 14:12: ] accept: (client socket): Connection timed out [Thu Aug 19 14:13: ] accept: (client socket): Connection reset by peer [Thu Aug 19 14:17: ] accept: (client socket): Connection timed out [Thu Aug 19 14:17: ] accept: (client socket): Connection timed out [Thu Aug 19 14:18: ] accept: (client socket): Connection timed out [Thu Aug 19 14:44: ] accept: (client socket): No route to host [Thu Aug 19 14:44: ] accept: (client socket): No route to host [Thu Aug 19 14:44: ] accept: (client socket): No route to host Hata Verisi | date | time | message | | | 14:02:34 | created shared memory segment #0 | | | 14:02:34 | Server configured -- resuming normal operations | | | 14:12:27 | accept: (client socket): Connection timed out | | | 14:13:01 | accept: (client socket): Connection reset by peer | | | 14:17:05 | accept: (client socket): Connection timed out | | | 14:17:59 | accept: (client socket): Connection timed out | | | 14:18:52 | accept: (client socket): Connection timed out | | | 14:44:40 | accept: (client socket): No route to host | | | 14:44:43 | accept: (client socket): No route to host | u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR | user_name | type | user_ip | depcode | | busra | MX 5 | busra.iyte.edu.tr. | 0 | | pergamon | MX 5 | pergamon.iyte.edu.tr. | 0 | | buamtest | MX 5 | buamtest.iyte.edu.tr. | 0 | | radyo-bahattin | CNAME | troya | 0 | | radyo-tolga | CNAME | troya | 0 | | sevgi-canlier | A | | 0 | | edibe-ciftci | A | | 0 | | bulent-kusev | A | | 0 | | yasar-olmez | A | | 0 | | haluk-yaren | A | | 0 | Kullanıcı Verisi u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Web Sitesi İçerik u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar crawlDepth = 0 0http:// 0http:// 0http:// 0http:// 0http:// 0http:// 0http:// 0http:// 0http:// 0http://likya.iyte.edu.tr/announcements/ Takvim/ AkademikTak.html
Aralık 2002 Tıkların Dili Belgin ÖZAKAR İYTE Web Madenciliği Veritabanı u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar logfile(user, date, time, rtime, demand, url, status) links(page_no, url, type, keyword, rank, status) pageviews(page_no,title,type,keyword,cr_date,upd_date,rank) users(user, type, user_ip, depcode) departments(depcode, dep_name, faculty, start_ip, end_ip) errors(date, time, message)
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Günlük Erişim Grafiği ( ile tarihleri arasında ) Minimum günlük erişim : 74 Toplam erişim : Maximum günlük erişim : Kayıtlı kullanıcı erişimleri : Ortalama günlük erişim : u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Günlük Hata Grafiği ( ile tarihleri arasında) Minimum günlük hata : 1 Maximum günlük hata : Ortalama günlük hata : u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Sorgu Çeşitleri u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar Üniversite içi ve dışı kullanıcıların dağılımı Kullanım sürelerinin günlere ve saatlere göre dağlımı Sayfalara göre istemlerin dağılımı Ulaşılmayan sayfalar Ulaşılamayan linkler Hataların günlere ve sürelere göre dağılımı İstemlerin statülerine göre dağılımı
Aralık 2002 Tıkların Dili Belgin ÖZAKAR IYTE WUM Sistemi genel web kullanım madenciliği konusunda veritabanı yaklaşımı getiren bir çalışma Sistem veri madenciliği prosesinin tüm adımlarını içermekte Web sorumlusu için faydalı bir araç Sonuç u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR Kullanıcı Önyüzü Veri Madenciliği Algoritmaları IYTE Web Sunucusu ile Entegrasyon Planlanan Çalışmalar u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR [1]Oren Etzioni, The World Wide Web: Quagmire or gold mine. Communications of the ACM, 39(11):6568, (1996) [2]S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim, Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, sayfa 303312, (1999) [3]R. Cooley, Web Usage Mining: Discovery and Application of Interesting Patterns from Web data. Ph.D. thesis, Dept. of Computer Science, University of Minnesota, (2000) [4] R. Agrawal and A. Srikant, Fast algorithms for mining association rules. Proc. VLDB'94, sayfa , (1994) [5]B. Özakar, Finding and evaluating patterns in Web Repositories using data mining algorithms and database technologies, Master Tezi, 2002, İzmir Yüksek Teknoloji Enstitüsü Bilgisayar Mühendisliği Bölümü Referanslar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR İlginize Teşekkürler