WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE isil.cinar@gazi.edu.tr, mscinar@hacettepe.edu.tr, bilge@gazi.edu.tr
İÇERİK Veri Madenciliği ve Web Madenciliği Kullanılan Teknikler Literatürdeki Yaklaşımlar Web Madenciliği Uygulama Sistem Mimarisi Önişleme Adımları Karşılaşılan Problemler WEKA’da Analiz Sonuç
Veri Madenciliği ve Web Madenciliği Veri madenciliği basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılmasıdır. Web madenciliği ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir.
Web Madenciliği Sınıflandırması
Kullanılan Teknikler İstatistik Sınıflandırma (Classification) Kümeleme (Clustering) Birliktelik (Association) Regresyon(Regression) Tahmin Etme (Forecasting) Sıralı Desen
Literatürdeki Yaklaşımlar Literatür çalışmaları 2 açıdan ele alınmıştır. Web sunucu loglarının analizi, veri madenciliği ve web madenciliği uygulamaları, çıkarılan istatistiksel sonuçlar Log analizinde saldırıların tespit edilmesi, saldırı çeşitleri ve kullanılan yöntemler
Literatürdeki Yaklaşımlar Web log dosyalarının sınıflandırılması ve önişleme Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından yararlanma E-ticaret alanında web log madenciliği World Wide Web Sunucuları için Durum Tabanlı Saldırı Tespit Sistemi Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti Web günlükleri aracılığıyla web kullanım desen analizi Web log dosyaları üzerinde web madenciliği konusunda yapılan çalışmaların önemli bir kısmını önişleme adımı oluşturmaktadır. Web log dosyalarında gereksiz bilginin çok büyük yer tutması, önişlemeyi gerekli kılmaktadır. Bu işlem özellikle web site yöneticileri ve kullanıcıları tarafından web log dosyalarının yönetimini kolaylaştırmaktadır. Önişleme aşamasında farklı teknikler kullanılmaktadır. Örneğin; veri temizleme, veri filtreleme, veri birleştirme vb. İncelenen çalışmada web log dosyaları; client log dosyası, proxy log dosyası ve server log dosyası olarak ele alınmıştır [22]. Bu sınıflandırmaların her birilerinin kendilerine göre artıları ve eksileri bulunmaktadır. Aşağıda sınıflandırmaya göre fonksiyonların yönleri gösterilmiştir. Client one to many Proxy many to many Server many to one Client (one to many) yönetiminde; her istemci için browser ayarlarının ayrı ayrı yapılması gerekmektedir. Uygulaması ve incelenmesi zordur [22]. Proxy (many to many) yönteminde çok kompleks bir yapı bulunmaktadır yine uygulaması ve incelenmesi zordur [22]. Server (many to one) yöntemi en elverişli olan yöntemdir. Özellikle web kullanım madenciliğinde daha güvenilir ve doğru sonuçlar üretmektedir. Çalışmada log dosyalarındaki ön işleme sürecinin tüm veri madenciliği sürecinin %80 ini kapsadığı belirtilmiştir. Önişleme adımı daha sonraki adımlar olan patern keşfi ve patern analizinin daha etkili ve kolay yapılmasını sağlamaktadır [22].
5- “Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti” Sistem mimarisi aşağıdaki gibidir :
Web Madenciliği Uygulama Sistem Mimarisi Verinin Alanlara Ayrılması Veri Temizleme Veri Seçimi ve Entegrasyonu ExcelConvert Programı ile Arff formatına dönüşüm Sunucu Erişim Dosyası Temizlenen Sunucu Erişim Dosyası WEB MADENCİLİĞİ ALG. UYGULAMALARI Sunucu Hata Dosyası Temizlenen Sunucu Hata Dosyası WEKA
Web Sunucusu Log Dosyaları Genel olarak kaydedilen verinin miktarına göre değişen iki format mevcuttur: “Common Log Format” ve “Combined Log Format”. IPNO TARİH VE SAAT ISTEKURL DURUM BOYUT BASV YER TARAYICI 66.x.71.181 [26/Aug/2012 :06:51:59 +0300] GET /10957-alt-- HTTP/1.1 200 18512 - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) :06:54:10 +0300] GET /11001-arnavutkoy-balikcisi HTTP/1.1 18693 213.x.127.13 :06:54:13+0300] GET /istanbul-restoranlari?start=40 HTTP/1.1 18793 Mozilla/5.0 (compatible; AhrefsBot/3.1; +http://ahrefs.com/robot/)
Erişim Dosyasının Özellikleri Dosyanın Adı Access_websitesi.log.1 Dosyanın Boyutu 313.413.409 KB Tarih Aralığı 01.10.2012-29.11.2012 Erişim Sayısı 575.576 Hata Günlüğü Dosyasının Özellikleri Dosyanın Adı error_websitesi.log Dosyanın Boyutu 86.6 KB Tarih Aralığı 01.10.2012-29.11.2012 Hata Sayısı 430
Önişleme Adımları Log dosyası Common Log Formatına Göre Excel’e aktarılmıştır. Identity ve user alanlarında veri olmadığı için bu alanlar silinmiştir. Zamanla ilgili alanlar birleştirilmiştir. Önişlemeyi daha hassas gerçekleştirebilmek üzere veriler Access veritabanına aktarılmıştır.
Önişleme Adımları Resim ve diğer bağlı olan dosyalar olmadan kaç ziyaret olduğunu tespit etmek amacıyla .gif, .jpg, .css,.js, .png, javascript uzantılı dosyalar silinmiştir.
Arff formatına dönüştürme 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
Karşılaşılan Problemler Arff Convertor programı ile dönüşüm yapıldığı sırada dosyanın içeriğine arff formatına uymayan yabancı karakterler eklendiği görülmüştür ve bu karakterler temizlenmiştir. Hataların diğer sebepleri arasında arff formatında tek tırnak (‘), noktalı virgül (;), boşluk( ) gibi karakterlerin bulunması yer almaktadır. 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
Karşılaşılan Problemler İşlenen verinin çok büyük olmasından kaynaklanan bellek yetersizliği hatası alınmıştır. 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
Karşılaşılan Problemler Bu hatayı gidermek için Weka’nın kullandığı bellek miktarı artırılmıştır. 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
Weka’da Analiz 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
Weka’da Analiz Erişimler Toplam Veri 575.576 Önişlemden Sonra Veri Sayısı 58.988 Günlük Ortalama Erişim 983.13 Ziyaretçi Başına Ortalama Erişim 8.02 Başarılı İstek Sayısı 53.209 Ziyaretçi Toplam Ziyaretçi 7347 Ortalama Günlük Ziyaretçi 122.45 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
K-Means ile kümeleme (durum alanı) Kümelemede 500 iç sunucu hatasu veya 404 gibi sayfaya saldırı yapılma ihtimalini ortaya çıkaracak durumlarla ilgili küme oluşmadığı görülmektedir.
Apriori ile oluşan birliktelikler 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
IP numarası ve tarih arasındaki ilişki 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
IP Numarası ve İstek Yapılan URL arasındaki ilişki 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.
Tarih ve İstek Yapılan URL arasındaki İlişki
Diğer Sonuçlar Sayfaya ait robots.txt dosyasında yasaklanmış olan url’ler aşağıdaki gibidir: User-agent: *Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ ...
Sonuç Bu çalışma ile web günlük iz bilgileri üzerinde web madenciliği konusunda yapılabilecekler hakkında bilgi verilerek uygulama ile bir prototip oluşturulmuştur. Veri madenciliğinde bulunan veri ön işleme, veri tanımlama, veri madenciliği teniklerinin uygulanması ve sonuçların sunulması adımlarından oluşan web madenciliği sistem mimarisi sunulmuştur.
TEŞEKKÜRLER.