Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE

Benzer bir sunumlar


... konulu sunumlar: "Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE"— Sunum transkripti:

1 Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE isil.cinar@gazi.edu.trisil.cinar@gazi.edu.tr, mscinar@hacettepe.edu.tr, bilge@gazi.edu.trmscinar@hacettepe.edu.trbilge@gazi.edu.tr

2  Veri Madenciliği ve Web Madenciliği  Kullanılan Teknikler  Literatürdeki Yaklaşımlar  Web Madenciliği Uygulama Sistem Mimarisi  Önişleme Adımları  Karşılaşılan Problemler  WEKA’da Analiz  Sonuç 2

3  Veri madenciliği basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılmasıdır.  Web madenciliği ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir. 3

4 4

5  İstatistik  Sınıflandırma (Classification)  Kümeleme (Clustering)  Birliktelik (Association)  Regresyon(Regression)  Tahmin Etme (Forecasting)  Sıralı Desen 5

6 Literatür çalışmaları 2 açıdan ele alınmıştır.  Web sunucu loglarının analizi, veri madenciliği ve web madenciliği uygulamaları, çıkarılan istatistiksel sonuçlar  Log analizinde saldırıların tespit edilmesi, saldırı çeşitleri ve kullanılan yöntemler 6

7 7 1)Web log dosyalarının sınıflandırılması ve önişleme 2)Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından yararlanma 3)E-ticaret alanında web log madenciliği 4)World Wide Web Sunucuları için Durum Tabanlı Saldırı Tespit Sistemi 5)Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti 6)Web günlükleri aracılığıyla web kullanım desen analizi

8 8 Sistem mimarisi aşağıdaki gibidir :

9 18 Temizlenen Sunucu Erişim Dosyası Sunucu Erişim Dosyası Sunucu Hata Dosyası WEB MADENCİLİĞİ ALG. UYGULAMALARI Verinin Alanlara Ayrılması Veri Seçimi ve Entegrasyonu WEKA Veri Temizleme ExcelConvert Programı ile Arff formatına dönüşüm Temizlenen Sunucu Hata Dosyası

10 Genel olarak kaydedilen verinin miktarına göre değişen iki format mevcuttur: “Common Log Format” ve “Combined Log Format”. 10 IPNOTARİH VE SAATISTEKURLDURUMBOYUTBASV YER TARAYICI 66.x.71.181[26/Aug/2012 :06:51:59 +0300] GET /10957-alt-- HTTP/1.1 20018512-Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot. html) 66.x.71.181[26/Aug/2012 :06:54:10 +0300] GET /11001- arnavutkoy- balikcisi HTTP/1.1 20018693-Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot. html) 213.x.127.13[26/Aug/2012 :06:54:13+0300] GET /istanbul- restoranlari?start= 40 HTTP/1.1 20018793-Mozilla/5.0 (compatible; AhrefsBot/3.1; +http://ahrefs.com/robot/)

11 11 Erişim Dosyasının Özellikleri Dosyanın AdıAccess_websitesi.log.1 Dosyanın Boyutu313.413.409 KB Tarih Aralığı01.10.2012-29.11.2012 Erişim Sayısı575.576 Hata Günlüğü Dosyasının Özellikleri Dosyanın Adıerror_websitesi.log Dosyanın Boyutu86.6 KB Tarih Aralığı01.10.2012-29.11.2012 Hata Sayısı430

12  Log dosyası Common Log Formatına Göre Excel’e aktarılmıştır.  Identity ve user alanlarında veri olmadığı için bu alanlar silinmiştir.  Zamanla ilgili alanlar birleştirilmiştir.  Önişlemeyi daha hassas gerçekleştirebilmek üzere veriler Access veritabanına aktarılmıştır. 12

13  Resim ve diğer bağlı olan dosyalar olmadan kaç ziyaret olduğunu tespit etmek amacıyla.gif,.jpg,.css,.js,.png, javascript uzantılı dosyalar silinmiştir. 13

14 14

15  Arff Convertor programı ile dönüşüm yapıldığı sırada dosyanın içeriğine arff formatına uymayan yabancı karakterler eklendiği görülmüştür ve bu karakterler temizlenmiştir. Hataların diğer sebepleri arasında arff formatında tek tırnak (‘), noktalı virgül (;), boşluk( ) gibi karakterlerin bulunması yer almaktadır. 15

16  İşlenen verinin çok büyük olmasından kaynaklanan bellek yetersizliği hatası alınmıştır. 16

17 Bu hatayı gidermek için Weka’nın kullandığı bellek miktarı artırılmıştır. 17

18 18

19 19 Erişimler Toplam Veri575.576 Önişlemden Sonra Veri Sayısı58.988 Günlük Ortalama Erişim983.13 Ziyaretçi Başına Ortalama Erişim8.02 Başarılı İstek Sayısı53.209 Ziyaretçi Toplam Ziyaretçi7347 Ortalama Günlük Ziyaretçi122.45

20 20

21 21

22 22

23 23

24 24

25  Sayfaya ait robots.txt dosyasında yasaklanmış olan url’ler aşağıdaki gibidir:  User-agent: *Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/... 25

26  Bu çalışma ile web günlük iz bilgileri üzerinde web madenciliği konusunda yapılabilecekler hakkında bilgi verilerek uygulama ile bir prototip oluşturulmuştur.  Veri madenciliğinde bulunan veri ön işleme, veri tanımlama, veri madenciliği teniklerinin uygulanması ve sonuçların sunulması adımlarından oluşan web madenciliği sistem mimarisi sunulmuştur. 26

27 TEŞEKKÜRLER. 27


"Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE" indir ppt

Benzer bir sunumlar


Google Reklamları