WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ

Slides:



Advertisements
Benzer bir sunumlar
SGB.NET’İN TEKNİK ALTYAPISI
Advertisements

HTML
WEB SUNUCU AYARLARI.
Hüseyin Gömleksizoğlu
Unsupervised Learning (Kümeleme)
WEB TASARIM Temel Kavramlar.
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
DREAMWEAVER TABLO OLUŞTURMA VE TABLO ÖZELLİKLERİ
MIT504 İnternet ve Web Programlama: Javascript programlama devam Yrd. Doç. Dr. Yuriy Mishchenko.
HTML’e Devam Uygulama.
WEB SERVİCE İDRİS YÜRÜK MAHMUT KAYA.
DİCLE ÜNİVERSİTESİ AKADEMİK BİLGİ SİSTEMİ (AKADEMİKWEB)
HTTP’yi (istemci tarafı) kendi kendinize deneyin
Örnek Web Sitesi Tasarım Dökümanı
İnternet Programcılığı
Bilgisayar Dosya Uzantıları
Kişisel Web Sayfaları Kullanım Bilgileri
IKU ÖĞRENCİ ADRESININ YONLENDIRILMESI
Kırklareli Üniversitesi Pınarhisar Meslek Yüksekokulu
IT504 ~~DOM~~ Belge Nesne Modeli I
MIT505 İnternet ve Web Programlama: Dinamik web sayfaları, javascript
Temel HTML Eğitimi Erman Yükseltürk.
HR-WEB Web Tabanlı İnsan Kaynakları Uygulamaları
HTML (HYPER TEXT MARKUP LANGUAGE) TEMEL ETİKETLERİ
TEMEL İNTERNET KAVRAMLARI
YONT 172 BİLGİ TEKNOLOJİLERİNE GİRİŞ II
Arama Motoru Optimizasyonu SEO (Search Engine Optimization)
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
İnternet Teknolojisi Temel Kavramlar
İNTERNET ADRESLERİ Ahmet SOYARSLAN biltek.info.
BİT’i Kullanma ve Yönetme
HTML HYPER TEXT MARKUP LANGUAGE Burcu Yılmaz – İ brahim Mert Bilişim Teknolojileri Ö ğ retmeni.
İnternet. İnternet...  dünya çapında bir bilgisayar ağı  bilgi süper otoyolu (information super highway)
Dosya Adları ve Uzantıları
KUYRUKLAR (QUEUES).
Aralık 2002 Tıkların Dili Belgin ÖZAKAR TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından.
Bilgiye ulaşma ve biçimlendirme yöntemleri
PHP’ye Giriş Akademik Bilişim 2003 Adana, Şubat 2003 Hidayet Doğan.
Boğaziçi Üniversitesi Web Site Tasarım Çalışması
İnternet Teknolojisi Temel Kavramlar
İNTERNET.
Web Araçları Web Teknolojileri ve Programlama ODTÜ-SEM.
Genel Bakış IEU Web Sitesi Genel Yapısı İDARİ YAPI VE AKADEMİK YAPI İÇİN YAKLAŞIMLAR... YÖNETİM SİSTEMİ ORGANİZASYON EK: SPAW EDİTÖR.
Bilgi ve İletişim Teknolojisi
İNTERNET ADRESLERİ.
HTML HYPER TEXT MARKUP LANGUAGE Ayşe AK İ DA Ğ I Bilişim Teknolojileri Ö ğ retmeni.
ETKİLEŞİMLİ TELEVİZYON: IPTV
Veri Madenciliği Giriş.
KIRKLARELİ ÜNİVERSİTESİ
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
İNTERNET.
ROBOTS.TXT NEDIR? PAGERANK NEDIR, NASıL ÇALıŞıR PR değerinin sitelere etkisi 4. hafta.
HTML HTML Nedir? HTML Ne İşe Yarar?. HTML (HyperText Markup Language / Hareketli-Metin İşaretleme Dili) basitçe, tarayıcılarla görebileceğimiz, internet.
Bölüm 4 : VERİ MADENCİLİĞİ
Web Önyüzü Nasıl Olmalı? : İskelet {css} : Görünüm JavaScript() : Etkileşim.
Metadata, z39.50, FRBR, ve RDA. Ders içeriği Web kaynakları ve web kaynaklarında kimlikleme Derin web – Yüzeysel web Arama Motorları Metadata Kopya Kataloglama.
İNTERNET ADRESLERİ.
MUHASEBE YEDEKLEME.
Dünyanın bilgisine açılan pencere...
BİLİŞİM TEKNOLOJİLERİNE GİRİŞ TEMEL KAVRAMLAR
İNTERNET ADRESLERİ.
Web Teknolojileri ve Programlama ODTÜ-SEM
cURL ile Web Servisleri
Dünyanın bilgisine açılan pencere...
Dünyanın bilgisine açılan pencere...
Amazon Web Servisleri ve Javascript Dilinin Birlikte Kullanımı
İNTERNET ADRESLERİ. İNTERNET NEDİR? İnternet, birçok bilgisayar sisteminin birbirine bağlı olduğu, dünya çapında yaygın olan ve sürekli büyüyen bir iletişim.
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
Hastane Bilgi Sistemlerinde Veri Madenciliği
Sunum transkripti:

WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir BİLGE isil.cinar@gazi.edu.tr, mscinar@hacettepe.edu.tr, bilge@gazi.edu.tr

İÇERİK Veri Madenciliği ve Web Madenciliği Kullanılan Teknikler Literatürdeki Yaklaşımlar Web Madenciliği Uygulama Sistem Mimarisi Önişleme Adımları Karşılaşılan Problemler WEKA’da Analiz Sonuç

Veri Madenciliği ve Web Madenciliği Veri madenciliği basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılmasıdır. Web madenciliği ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir.

Web Madenciliği Sınıflandırması

Kullanılan Teknikler İstatistik Sınıflandırma (Classification) Kümeleme (Clustering) Birliktelik (Association) Regresyon(Regression) Tahmin Etme (Forecasting) Sıralı Desen

Literatürdeki Yaklaşımlar Literatür çalışmaları 2 açıdan ele alınmıştır. Web sunucu loglarının analizi, veri madenciliği ve web madenciliği uygulamaları, çıkarılan istatistiksel sonuçlar Log analizinde saldırıların tespit edilmesi, saldırı çeşitleri ve kullanılan yöntemler  

Literatürdeki Yaklaşımlar Web log dosyalarının sınıflandırılması ve önişleme Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından yararlanma E-ticaret alanında web log madenciliği World Wide Web Sunucuları için Durum Tabanlı Saldırı Tespit Sistemi Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti Web günlükleri aracılığıyla web kullanım desen analizi Web log dosyaları üzerinde web madenciliği konusunda yapılan çalışmaların önemli bir kısmını önişleme adımı oluşturmaktadır. Web log dosyalarında gereksiz bilginin çok büyük yer tutması, önişlemeyi gerekli kılmaktadır. Bu işlem özellikle web site yöneticileri ve kullanıcıları tarafından web log dosyalarının yönetimini kolaylaştırmaktadır.   Önişleme aşamasında farklı teknikler kullanılmaktadır. Örneğin; veri temizleme, veri filtreleme, veri birleştirme vb. İncelenen çalışmada web log dosyaları; client log dosyası, proxy log dosyası ve server log dosyası olarak ele alınmıştır [22]. Bu sınıflandırmaların her birilerinin kendilerine göre artıları ve eksileri bulunmaktadır. Aşağıda sınıflandırmaya göre fonksiyonların yönleri gösterilmiştir. Client  one to many Proxy many to many Server  many to one Client (one to many) yönetiminde; her istemci için browser ayarlarının ayrı ayrı yapılması gerekmektedir. Uygulaması ve incelenmesi zordur [22]. Proxy (many to many) yönteminde çok kompleks bir yapı bulunmaktadır yine uygulaması ve incelenmesi zordur [22]. Server (many to one) yöntemi en elverişli olan yöntemdir. Özellikle web kullanım madenciliğinde daha güvenilir ve doğru sonuçlar üretmektedir. Çalışmada log dosyalarındaki ön işleme sürecinin tüm veri madenciliği sürecinin %80 ini kapsadığı belirtilmiştir. Önişleme adımı daha sonraki adımlar olan patern keşfi ve patern analizinin daha etkili ve kolay yapılmasını sağlamaktadır [22].

5- “Web Uygulamalarında Güvenlik Modeli Kullanılarak Anomali Tespiti” Sistem mimarisi aşağıdaki gibidir :

Web Madenciliği Uygulama Sistem Mimarisi Verinin Alanlara Ayrılması Veri Temizleme Veri Seçimi ve Entegrasyonu ExcelConvert Programı ile Arff formatına dönüşüm Sunucu Erişim Dosyası Temizlenen Sunucu Erişim Dosyası WEB MADENCİLİĞİ ALG. UYGULAMALARI Sunucu Hata Dosyası Temizlenen Sunucu Hata Dosyası WEKA

Web Sunucusu Log Dosyaları Genel olarak kaydedilen verinin miktarına göre değişen iki format mevcuttur: “Common Log Format” ve “Combined Log Format”. IPNO TARİH VE SAAT ISTEKURL DURUM BOYUT BASV YER TARAYICI 66.x.71.181 [26/Aug/2012 :06:51:59 +0300] GET /10957-alt-- HTTP/1.1 200 18512 - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) :06:54:10 +0300] GET /11001-arnavutkoy-balikcisi HTTP/1.1 18693 213.x.127.13 :06:54:13+0300] GET /istanbul-restoranlari?start=40 HTTP/1.1 18793 Mozilla/5.0 (compatible; AhrefsBot/3.1; +http://ahrefs.com/robot/)

Erişim Dosyasının Özellikleri Dosyanın Adı Access_websitesi.log.1 Dosyanın Boyutu 313.413.409 KB Tarih Aralığı 01.10.2012-29.11.2012 Erişim Sayısı 575.576 Hata Günlüğü Dosyasının Özellikleri Dosyanın Adı error_websitesi.log Dosyanın Boyutu 86.6 KB Tarih Aralığı 01.10.2012-29.11.2012 Hata Sayısı 430

Önişleme Adımları Log dosyası Common Log Formatına Göre Excel’e aktarılmıştır. Identity ve user alanlarında veri olmadığı için bu alanlar silinmiştir. Zamanla ilgili alanlar birleştirilmiştir. Önişlemeyi daha hassas gerçekleştirebilmek üzere veriler Access veritabanına aktarılmıştır.

Önişleme Adımları Resim ve diğer bağlı olan dosyalar olmadan kaç ziyaret olduğunu tespit etmek amacıyla .gif, .jpg, .css,.js, .png, javascript uzantılı dosyalar silinmiştir.

Arff formatına dönüştürme 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

Karşılaşılan Problemler Arff Convertor programı ile dönüşüm yapıldığı sırada dosyanın içeriğine arff formatına uymayan yabancı karakterler eklendiği görülmüştür ve bu karakterler temizlenmiştir. Hataların diğer sebepleri arasında arff formatında tek tırnak (‘), noktalı virgül (;), boşluk( ) gibi karakterlerin bulunması yer almaktadır. 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

Karşılaşılan Problemler İşlenen verinin çok büyük olmasından kaynaklanan bellek yetersizliği hatası alınmıştır. 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

Karşılaşılan Problemler Bu hatayı gidermek için Weka’nın kullandığı bellek miktarı artırılmıştır. 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

Weka’da Analiz 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

Weka’da Analiz Erişimler Toplam Veri 575.576 Önişlemden Sonra Veri Sayısı 58.988 Günlük Ortalama Erişim 983.13 Ziyaretçi Başına Ortalama Erişim 8.02 Başarılı İstek Sayısı 53.209 Ziyaretçi Toplam Ziyaretçi 7347 Ortalama Günlük Ziyaretçi 122.45 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

K-Means ile kümeleme (durum alanı) Kümelemede 500 iç sunucu hatasu veya 404 gibi sayfaya saldırı yapılma ihtimalini ortaya çıkaracak durumlarla ilgili küme oluşmadığı görülmektedir.

Apriori ile oluşan birliktelikler 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

IP numarası ve tarih arasındaki ilişki 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

IP Numarası ve İstek Yapılan URL arasındaki ilişki 50.000’den sonra özellikle band genişliğini daha çok kullanmaya başlamaktadır.

Tarih ve İstek Yapılan URL arasındaki İlişki

Diğer Sonuçlar Sayfaya ait robots.txt dosyasında yasaklanmış olan url’ler aşağıdaki gibidir:   User-agent: *Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ ...

Sonuç Bu çalışma ile web günlük iz bilgileri üzerinde web madenciliği konusunda yapılabilecekler hakkında bilgi verilerek uygulama ile bir prototip oluşturulmuştur. Veri madenciliğinde bulunan veri ön işleme, veri tanımlama, veri madenciliği teniklerinin uygulanması ve sonuçların sunulması adımlarından oluşan web madenciliği sistem mimarisi sunulmuştur.

TEŞEKKÜRLER.