Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Aralık 2002 Tıkların Dili Belgin ÖZAKAR TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından.

Benzer bir sunumlar


... konulu sunumlar: "Aralık 2002 Tıkların Dili Belgin ÖZAKAR TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından."— Sunum transkripti:

1 Aralık 2002 Tıkların Dili Belgin ÖZAKAR TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? ozakar@likya.iyte.edu.tr

2 Aralık 2002 Tıkların Dili Belgin ÖZAKAR İçerik  Giriş  Web Madenciliği Sınıflandırması  Patern Tespit Teknikleri  Web Madenciliği Prosesi  IYTE Web Kullanım Madenciliği Sistemi Veri Hazırlama İYTE Web Madenciliği Vertabanı Sorgu Mekanizması  Sonuç  Planlanan Çalışmalar

3 Aralık 2002 Tıkların Dili Belgin ÖZAKAR “ Web madenciliği, veri madenciliği teknikleri kullanarak, World Wide Web dökümanları ve servislerinden, otomatik olarak, anlamlı bilgi çıkarmaktır” Etzioni u Giriş u Sınıflandırma u Teknikler

4 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Problemler  Fazla karışık, değişik bilgi tipleri, standardizasyon yetersizliği  Kısıtlı kapsam, ulaşılamayan veritabanları  Kısıtlı sorgu arayüzleri (anahtar kelimeye göre)  Kısıtlı kişiselleştirme  Web üstündeki bilginin az bir bölümü gerçekten ilgili ve faydalı u Giriş u Sınıflandırma u Teknikler

5 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Web Yapı Madenciliği Web Kullanım Madenciliği Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır Web Madenciliği Sınıflandırması Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır Web Madenciliği Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır Web İçerik Madenciliği u Sınıflandırma u Teknikler u IYTE WUM Sistemi

6 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Sistem İyileştirme Schecher Aggarval Genel Kullanım (Business Intelligence & Usage Characterization) Surfaid WebLogMiner Web Madenciliği Sınıflandırması Kişiselleştirme WebWatcher WebPersonalizer Analog WebSIFT WUM Shahabi Site Güncelleme PageGather Web Yapı Madenciliği Web Kullanım Madenciliği Web Madenciliği Web İçerik Madenciliği u Sınıflandırma u Teknikler u IYTE WUM Sistemi

7 Aralık 2002 Tıkların Dili Belgin ÖZAKAR  Tanımsal İstatistik çeşitli değişkenlere dayalı analizler  İlişkilendirme Kuralları veriler arasında önceden kestirilemeyen ilişkiler bulma  Gruplama/Kümeleme benzer özellikteki verileri gruplama  Sınıflandırma verileri tanımlı sınıflara atama  Sıralı Paternler bağlantılar süresince oluşan paternleri bulma  Bağımlılık Modellemesi farklı değişkenler arasındaki bağımlılıkları ortaya koyan modeller oluşturma Patern Tespit Teknikleri u Teknikler u Proses u IYTE WUM Sistemi

8 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Web Madenciliği Prosesi Veri Temizleme Veri Entegrasyonu Web erişim verisi İlgili Veri Seçim Veri Madenciliği Patern Tespiti Patern Değerlendirme Veri Tabanları u Teknikler u Proses u IYTE WUM Sistemi

9 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Sunucu Erişim Verisi Sunucu Hata Verisi Sunucu Kullanıcı Verisi Temizlenen Sunucu Erişim Verisi Temizlenen Sunucu Hata Verisi Temizlenen Sunucu Kullanıcı Verisi IYTE WUM VERİTABANI (Mysql) IYTE WUM VERİTABANI (Mysql) Veri Temizleme (Java Classes) Veri Temizleme (Java Classes) Tanımsal Sorgu Mekanizma sı (Mysql DML) Tanımsal Sorgu Mekanizma sı (Mysql DML) İlişkilendirme Kuralları (Java Classes, JDBC & MySQL DDL & DML) İlişkilendirme Kuralları (Java Classes, JDBC & MySQL DDL & DML) Veri Seçimi & Entegrasyonu (Java Classes, JDBC & MySQL DDL) Veri Seçimi & Entegrasyonu (Java Classes, JDBC & MySQL DDL) Apriori Sorgu Mekanizmas ı (Mysql DML) Apriori Sorgu Mekanizmas ı (Mysql DML) IYTE WUM Sistem Mimarisi u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar IYTE Web Sitesi İçerik Verisi www.iyte.edu.tr

10 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Bilgisayar ismi ya da bağlanan makinanın IP adresi CLF Kayıt Yapısı Remote Host Login ismi, gönderilmez, genellikle boş GET sayfa talepleri için, POST teslimler için – Ident and Authuser – [Date and Time] “Request” Status Bytes pergamon.iyte.edu.tr ­ ­ [20/Jun/2000:15:13:05 +0300]''GET /courses.html HTTP/1.1 '' 304 ­ pergamon.iyte.edu.tr ­ ­ [20/Jun/2000:15:13:05 +0300]''GET / will/courses/CS101/ HTTP/1.1'' 304 ­ pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05 +0300]”GET / gif/geney.jpg HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000: 15:13:05 +0300]” GET / gif/acad.gif HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05| +0300]” GET / gif/ciz7.gif HTTP/1.0 “304 - +---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+-------+ | user | ldate | ltime | rtime | demand | url_m | url | sts_m | status | +---------------------------+---------------+-----------+--------+------------+------------+-------------------------------+----+-------+ | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/yazi.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/zemin1.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/geney.jpgHTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/acad.gif HTTP/1.0 | 304 | 304 -| | pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/living1.gif HTTP/1.0 | 304 | 304 -| +---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+------+ u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

11 Aralık 2002 Tıkların Dili Belgin ÖZAKAR [Thu Aug 19 14:02:34 1999] Server configured -- resuming normal operations [Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:13:01 1999] accept: (client socket): Connection reset by peer [Thu Aug 19 14:17:05 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:17:59 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:18:52 1999] accept: (client socket): Connection timed out [Thu Aug 19 14:44:40 1999] accept: (client socket): No route to host [Thu Aug 19 14:44:43 1999] accept: (client socket): No route to host [Thu Aug 19 14:44:47 1999] accept: (client socket): No route to host Hata Verisi +--------------+------------+------------------------------------------------------------+ | date | time | message | +--------------+-----------+-------------------------------------------------------------+ | 1999-08-19 | 14:02:34 | created shared memory segment #0 | | 1999-08-19 | 14:02:34 | Server configured -- resuming normal operations | | 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:13:01 | accept: (client socket): Connection reset by peer | | 1999-08-19 | 14:17:05 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:17:59 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:18:52 | accept: (client socket): Connection timed out | | 1999-08-19 | 14:44:40 | accept: (client socket): No route to host | | 1999-08-19 | 14:44:43 | accept: (client socket): No route to host | +--------------+-----------+------------------------------------------------------------+ u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

12 Aralık 2002 Tıkların Dili Belgin ÖZAKAR +-------------------------------+-------------------+--------------------------------+-----------+ | user_name | type | user_ip | depcode | +-------------------------------+-------------------+--------------------------------+-----------+ | busra | MX 5 | busra.iyte.edu.tr. | 0 | | pergamon | MX 5 | pergamon.iyte.edu.tr. | 0 | | buamtest | MX 5 | buamtest.iyte.edu.tr. | 0 | | radyo-bahattin | CNAME | troya | 0 | | radyo-tolga | CNAME | troya | 0 | | sevgi-canlier | A | 193.140.248.37 | 0 | | edibe-ciftci | A | 193.140.248.38 | 0 | | bulent-kusev | A | 193.140.248.39 | 0 | | yasar-olmez | A | 193.140.248.40 | 0 | | haluk-yaren | A | 193.140.248.44 | 0 | +-------------------------------+-------------------+--------------------------------+-----------+ Kullanıcı Verisi u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

13 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Web Sitesi İçerik u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar crawlDepth = 0 0http://www.iyte.edu.tr/general.htm 0http://www.iyte.edu.tr/library/index-tr.html 0http://www.iyte.edu.tr/president.htm 0http://www.iyte.edu.tr/ar_fon_proje/research_project.htm 0http://www.iyte.edu.tr/academic.htm 0http://www.iyte.edu.tr/iyte-press.htm 0http://www.iyte.edu.tr/living.htm 0http://www.iyte.edu.tr/iyte-services.htm 0http://www.iyte.edu.tr/search.htm 0http://likya.iyte.edu.tr/announcements/2002-2003Takvim/2002- 2003AkademikTak.html

14 Aralık 2002 Tıkların Dili Belgin ÖZAKAR İYTE Web Madenciliği Veritabanı u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar logfile(user, date, time, rtime, demand, url, status) links(page_no, url, type, keyword, rank, status) pageviews(page_no,title,type,keyword,cr_date,upd_date,rank) users(user, type, user_ip, depcode) departments(depcode, dep_name, faculty, start_ip, end_ip) errors(date, time, message)

15 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Günlük Erişim Grafiği (2000-06-20 ile 2002-01-31tarihleri arasında ) Minimum günlük erişim : 74 Toplam erişim : 10.740.138 Maximum günlük erişim : 46.552 Kayıtlı kullanıcı erişimleri : 85.353 Ortalama günlük erişim : 18.296 u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

16 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Günlük Hata Grafiği (1999-08-19 ile 2002-01-31 tarihleri arasında) Minimum günlük hata : 1 Maximum günlük hata :223.210 Ortalama günlük hata : 1.109 u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

17 Aralık 2002 Tıkların Dili Belgin ÖZAKAR Sorgu Çeşitleri u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar  Üniversite içi ve dışı kullanıcıların dağılımı  Kullanım sürelerinin günlere ve saatlere göre dağlımı  Sayfalara göre istemlerin dağılımı  Ulaşılmayan sayfalar  Ulaşılamayan linkler  Hataların günlere ve sürelere göre dağılımı  İstemlerin statülerine göre dağılımı

18 Aralık 2002 Tıkların Dili Belgin ÖZAKAR  IYTE WUM Sistemi genel web kullanım madenciliği konusunda veritabanı yaklaşımı getiren bir çalışma  Sistem veri madenciliği prosesinin tüm adımlarını içermekte  Web sorumlusu için faydalı bir araç Sonuç u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

19 Aralık 2002 Tıkların Dili Belgin ÖZAKAR  Kullanıcı Önyüzü  Veri Madenciliği Algoritmaları  IYTE Web Sunucusu ile Entegrasyon Planlanan Çalışmalar u IYTE WUM Sistemi u Sonuç u Plan. Çalışmalar

20 Aralık 2002 Tıkların Dili Belgin ÖZAKAR [1]Oren Etzioni, The World Wide Web: Quagmire or gold mine. Communications of the ACM, 39(11):65­68, (1996) [2]S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim, Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, sayfa 303­312, (1999) [3]R. Cooley, Web Usage Mining: Discovery and Application of Interesting Patterns from Web data. Ph.D. thesis, Dept. of Computer Science, University of Minnesota, (2000) [4] R. Agrawal and A. Srikant, Fast algorithms for mining association rules. Proc. VLDB'94, sayfa 487-499, (1994) [5]B. Özakar, Finding and evaluating patterns in Web Repositories using data mining algorithms and database technologies, Master Tezi, 2002, İzmir Yüksek Teknoloji Enstitüsü Bilgisayar Mühendisliği Bölümü Referanslar

21 Aralık 2002 Tıkların Dili Belgin ÖZAKAR İlginize Teşekkürler


"Aralık 2002 Tıkların Dili Belgin ÖZAKAR TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından." indir ppt

Benzer bir sunumlar


Google Reklamları