TBD Veri Madenciliği Günü

Slides:



Advertisements
Benzer bir sunumlar
8. SINIF 3. ÜNİTE BİLGİ YARIŞMASI
Advertisements

Unsupervised Learning (Kümeleme)
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
Prof.Dr.Şaban EREN Yasar Üniversitesi Fen-Edebiyat Fakültesi
Diferansiyel Denklemler
VERİ MADENCİLİĞİNE BAKIŞ
NOKTA, DOĞRU, DOĞRU PARÇASI, IŞIN, DÜZLEMDEKİ DOĞRULAR
Veri ve Veri Yapıları Genel olarak bilgisayarlar.
Veri Madenciliğine Giriş
8. SAYISAL TÜREV ve İNTEGRAL
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bellek Tabanlı Sınıflandırma
YMT 222 SAYISAL ANALİZ (Bölüm 6a)
İşletmeler için Veri Madenciliği
FONKSİYONLAR ve GRAFİKLER
İkili Arama Ağaçları (Binary Search Trees) BST
Karar Ağaçları.
Algoritmalar Ders 14 En Kısa Yollar II Bellman-Ford algoritması
Veri Madenciliği Temel Bilgiler
VERİ TABANI ve YÖNETİMİ
Karar Ağaçları İle Sınıflandırma
İstatistiksel Sınıflandırma
ARALARINDA ASAL SAYILAR
Algoritmalar DERS 4 Çabuk sıralama Böl ve fethet Bölüntüler
Matematik 2 Örüntü Alıştırmaları.
22 Eylül 2006 TBB BANKACILIK ALT ÇALIŞMA GRUBU Nurhan Aydoğdu
TÜRKİYE İSTATİSTİK KURUMU İzmir Bölge Müdürlüğü 1/25.

Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
HABTEKUS' HABTEKUS'08 3.
BAŞARIM’09, Nisan 2009, ODTÜ, Ankara PARALEL VER İ MADENC İ L İĞİ ALGOR İ TMALARI.
yunus.hacettepe.edu.tr/~tonta/courses/spring2008/bby208/
Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi
İKİNCİ DERECEDEN FONKSİYONLAR ve GRAFİKLER
Diferansiyel Denklemler
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
DENEY TASARIMI VE ANALİZİ (DESIGN AND ANALYSIS OF EXPERIMENTS)
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Yapay Zeka Teknikleriyle Tıbbi Verilerin İşlenmesi: VERİ MADENCİLİĞİ
BİLİMSEL ARAŞTIRMA YÖNTEMLERİ
Toplama Yapalım Hikmet Sırma 1-A sınıfı.
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
CEBİRSEL İFADELERİ ÇARPANLARINA AYIRMA
Yard. Doç. Dr. Mustafa Akkol
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ
Veri Madenciliği Giriş.
Sınıflandırma ve Tahmin
Bölüm 4 için Ders Notları Introduction to Data Mining
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
BİL3112 Makine Öğrenimi (Machine Learning) Giriş – Özet – Ek Örnekler
BİL3112 Makine Öğrenimi (Machine Learning)
Veri Madenciliği Bölüm 1. Giriş.
BİRLİKTELİK KURALLARI ( ASSOCIATION RULE MINING)
BİL551 – YAPAY ZEKA Kümeleme
VERİ MADENCİLİĞİ ISE 302 Dr. Tuğrul TAŞCI.
Bölüm10 İteratif İyileştirme Copyright © 2007 Pearson Addison-Wesley. All rights reserved.
Bölüm 4 : VERİ MADENCİLİĞİ
Örüntü Tanıma.
Sınıflandırma ve Tahmin
Bölüm 4 için Ders Notları Introduction to Data Mining
Karar Ağaçları (Decision trees)
Öğrenme ve Sınıflama.
Madenciyiz ERTAN YILMAZ.
Hastane Bilgi Sistemlerinde Veri Madenciliği
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Sunum transkripti:

TBD Veri Madenciliği Günü Veri Madenciligi Yöntemlerine Genel Bakış Selim AKYOKUŞ Doğuş Üniversitesi

Neden Veri Madenciliği? Veri patlaması veya seli: Otomatik veri toplama araçları, olgun veri tabanı ve bilgi teknolojileri, yaygın bilgi teknolojileri kullanımı, veri tabanları, veri anbarları ve diğer veri depolarında çok büyük miktarlarda veri ve bilgilerin toplanmasını sağlamakta ve veri miktarı sürekli artmaktadır. Mağazalardaki satış/alış işlemleri Banka ve Kredi kartı işlemleri Bir çok sektördeki veri ve işlemler Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler Web verileri Bilgi sistemleri birçok açık olmayan ve geleneksel yöntemlerle anlaşılamayan bilgileri içermektedir.

Veri Madenciliği Nedir? Veriler arasında boğuluyoruz, ancak gerçek bilgi için açlık çekiyoruz. Data (Veri) Information (bilgi) Knowledge (bilgi) Wisdom (Bilgelik) Vision (uzgörüş) Çözüm: Veri Madenciliği (Gereksinim buluşların temel nedenidir.) Veri Madenciliği: verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilgi ve örüntülerin çıkarılması olarak tanımlanmaktadır. Diğer eşdeğer isimler: Veri tabanlarında bilgi madenciliği (knowledge mining from databases), Bilgi çıkarımı (knowledge extraction), data/pattern anaysis (veri ve örüntü analizi), veri arkeolojisi, …

Birçok Disipilini İçeren Bir Alan Veri Madeciliği Veritabanı Teknolojisi İstatistik Makine Öğrenmesi Örüntü Tanıma Algoritmalar Diğer Disiplinler Görselleştirme

Veri Madenciliği (Bilgi Keşfi) Süreçi Veri Temizleme: Gürültülü ve tutarsız verileri çıkarmak Veri Bütünleştirme: Birçok data kaynağını birleştirebilmek Veri Seçme: Yapılacak olan analiz ile ilgili olan verileri belirlemek Veri Dönüşümü: Verinin veri madenciliği yöntemine göre hale dönüşümünü gerçekleştirmek Veri Madenciliği: Verilerdeki örüntülerin belirlenmesi için veri madenciliği yöntemlerinin uygulanması Örüntü Değerlendirme: Bazı ölçütlere göre elde edilmiş ilginç örüntüleri bulmak ve değerlendirmek Bilgi Sunumu: Elde edilen bilgilerin kullanıcılara sunumunu Veri Temizleme Veri Entegrasyonu Veritabanları Veri Anbarı Bilgi (Knowledge) İlgili Veriler Veri Seçme Veri Madeciliği Örüntü Değerlendirme

CRISP-DM’e göre Veri Madenciliği Süreci CRISP-DM (CRoss Industry Process for Data Mining). CRISP-DM detaylı bir veri madenciliği süreci standartı’dır. Veri madenciliği projelerinin hızlı, daha verimli ve daha az maliyetli gerçekleştirilmesi için bir rehberdir. Evrimsel, tekrarlı bir süreç www.crisp-dm.org

CRISP-DM Aşama ve Görevleri İşi Anlama (Business Understanding) Veri Anlama (Data Understanding) Veri Hazırlama (Data Preparation) Modelleme (Modeling) Değerlendirme (Evaluation) Kurulum (Deployment) Data Set Data Set Description Select Data Rationale for Inclusion / Exclusion Clean Data Data Cleaning Report Construct Data Derived Attributes Generated Records Integrate Data Merged Data Format Data Reformatted Data Select Modeling Technique Modeling Technique Modeling Assumptions Generate Test Design Test Design Build Model Parameter Settings Models Model Description Assess Model Model Assessment Revised Parameter Settings Evaluate Results Assessment of Data Mining Results w.r.t. Business Success Criteria Approved Models Review Process Review of Process Determine Next Steps List of Possible Actions Decision Plan Deployment Deployment Plan Plan Monitoring and Maintenance Monitoring and Maintenance Plan Produce Final Report Final Report Final Presentation Review Project Experience Documentation Determine Business Objectives Background Business Success Criteria Situation Assessment Inventory of Resources Requirements, Assumptions, and Constraints Risks and Contingencies Terminology Costs and Benefits Data Mining Goal Data Mining Goals Data Mining Success Produce Project Plan Project Plan Initial Asessment of Tools and Techniques Collect Initial Data Initial Data Collection Report Describe Data Data Description Report Explore Data Data Exploration Report Verify Data Quality Data Quality Report Kaynak: Laura Squier

Veri Madenciliği Yöntemleri Genel olarak veri madenciliği yöntemleri iki sınıfa ayrılabilir: Öngörü Yöntemleri (Prediction Methods) Öngörü amacı ile var olan verilerden yorum çıkarılması Tanımlayıcı Yöntemler (Description Methods) Veriyi tanımlayan yorumlanabilir örüntülerin bulunması

Veri Madenciliği Yöntemleri

Sınıflandırma Girdi: Kayıtlar kümesi (Öğrenme Kümesi ) Her bir kayıt özellikler (Attribute-Bir tablodaki sütunlar) içerir. Bu özelliklerden bir tanesi sınıftır (Class). Diğer özelliklerden sınıf özelliğini öngörebilecek bir model fonksiyon geliştirilir. Amaç: Yeni bir kayıt geldiğinde, bu kayıt geliştirilen model kullanılarak mümkün olduğunca doğru bir sınıfa atanır. Bir deneme kümesi modelin doğruluğunu belirlemek için kullanılır. Genellikle verilen veri kümesi öğrenme ve deneme kümesi olarak ikiye ayrılır. Öğrenme kümesi modeli oluşturulmasında, deneme kümesi modelin doğrulanmasında kullanılır.

Sınıflandırma Süreci: (1) Model Oluştırma Sınıflandırma Yöntemleri (Algoritmaları) Öğrenme Kümesi Model (Sınıflandırıcı) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

Sınıflandırma Süreci: (2) Modelin Öngörü için kullanılması Sınıflandırıcı Deneme Kümesi Yeni veri (Jeff, Professor, 4) Tenured?

Karar Ağacı Karar Ağacı Yaygın kullanılan öngörü yöntemlerinden bir tanesidir Ağaçtaki her düğüm bir özellikteki testi gösterir. Düğüm dalları testin sonucunu belirtir. Ağaç yaprakları sınıf etiketlerini içerir. Karar ağacı çıkarımı iki aşamadan oluşur Ağaç inşası Başlangıçta bütün öğrenme örnekleri kök düğümdedir. Örnekler seçilmiş özelliklere tekrarlamalı olarak göre bölünür. Ağaç Temizleme (Tree pruning) Gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır. Karar ağacı kullanımı: Yeni bilinmeyen örneğin sınıflandırılması Bilinmeyen örneğin özellikleri karar ağacında test edilerek sınıfı bulunur.

Bir Kredi Kartı Kampanyasında Yeni Bir Örneğin Sınıflandırılması Yanıtlamaz Düşük Borç Bayan X yüksek gelirli. Düşük Yanıtlar Yüksek Gelir Yanıtlar Çok Çocuk Bay Yüksek Cinsiyet Az Yanıtlamaz Bayan Yanıtlamaz Ağaç bayan X’in kredi kampanyasına yanıt vermeyeceğini öngörür. 14

Bayes Sınıflandırması İstatistiksel bir sınıflandırıcıdır. Sınıf üyelik olasılıklarını öngörür. İstatistikteki bayes teoremine dayanır. Basit bir yöntemdir.

Basit Bayes Sınıflandırma Yöntemi Girdi : Öğrenme seti C1, C2, …, Cm adlı m sınıfımız olsun . Sınıflandırma maksimum posteriori olasılığını bulmaya dayanır. P(X) is bütün sınıflar için sabittir. olasılığının maksimum değeri bulunmalıdır. Yeni bir örnek X, maximum P(X|Ci)*P(Ci) değerine sahip olan sınıfa atanır.

Tenis oynama örneği: P(xi|C) değerlerinin bulunması outlook P(sunny|p) = 2/9 P(sunny|n) = 3/5 P(overcast|p) = 4/9 P(overcast|n) = 0 P(rain|p) = 3/9 P(rain|n) = 2/5 temperature P(hot|p) = 2/9 P(hot|n) = 2/5 P(mild|p) = 4/9 P(mild|n) = 2/5 P(cool|p) = 3/9 P(cool|n) = 1/5 humidity P(high|p) = 3/9 P(high|n) = 4/5 P(normal|p) = 6/9 P(normal|n) = 1/5 windy P(true|p) = 3/9 P(true|n) = 3/5 P(false|p) = 6/9 P(false|n) = 2/5 P(p) = 9/14 P(n) = 5/14

Tenis oynama örneği: Yeni X Örneğinin Sınıflandırılması Yeni örnek X = <rain, hot, high, false> P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 Örnek X’in sınıfı n (don’t play) olarak öngörülür.

Zaman Serisi Analizi Örnek: Borsa Gelecek menkul kıymet değerlerinin öngörülür. Zaman içinde benzer örüntüler belirlenir, ve öngörü yapılır.

Eğri Uydurma (Regression) Sürekli değişkenlerin öngörüsü regrasyon (eğri uydurma) olarak adlandırılan bir istatistiksel yöntemle tespit edilebilir. Regresyon analizinin amacı değişik girdi değişkenlerini çıktı değişkeni ile ilişkilendirecek en iyi modelin çıkarılmasıdır. Regresyon analizi bir Y değişkeninin diğer bir veya daha çok X1, X2, …, Xn değişkenleri ile ilişkisinin belirlenmesi sürecidir. Y, yanıt çıktısı veya bağımlı değişken olarak adlandırılır. Xi değişkenleri girdi veya bağımsız değişkenler olarak adlandırılır. Bir veri kümesindeki bulunan ilişki regrasyon denklemi (modeli) ile karakterize edilir. En çok yaygın regrasyon modeli denklemi

Örnek: Lineer regrasyon (eğri uydurma) B   1   3   8   9 11   4   5   2 Verilen örnek veri setindeki A ve B değişkenleri arasındaki ilişki aşağıdaki denklemele ifade edilebilir.              α ve β katsayılarının değerleri matematiksel olarak bulunur.           Optimal regrasyon denklemi:                    

Kümeleme (Demetleme) Kümeleme, veriyi sınıflara veya kümelere ayırma işlemidir. Birbirlerine benzeyen elemanlardan oluşan gruba küme denir. Farklı kümelere ait elemanlar arasında benzerlik azdır. Bir benzerlik ölçütü belirlenir. Değerler süreli ise öklid uzaklığıdır. Kümeleme algoritmaları küme için benzerliğin maksimize edilmesi Kümeler arası benzerliğin minimize edilmesi kavramına dayanır.

Kümeleme örneği Küme içi uzaklıklar minimize edilir. 3-Boyutlu uzayda öklid uzaklığına dayanan kümeleme. Küme içi uzaklıklar minimize edilir. Kümeler arası uzaklıklar maksimize edilir.

K-Ortalama(Means) Kümeleme Yöntemi 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 Update the cluster means 4 Assign each objects to most similar center 3 2 1 1 2 3 4 5 6 7 8 9 10 reassign reassign K=2 Arbitrarily choose K object as initial cluster center Update the cluster means

Birliktelik Analizi (Association Analysis) Birliktelik analizi büyük veri kümeleri arasında birliktelik ilişkilerini bulur. Market-Basket analizi ve işlem (transaction) veri analizi olarakta adlandırılır. Birliktelik analizi, belirli bir veri kümesinde yüksek sıklıkta birlikte görülen özellik değerlerine ait ilişkisel kuralların keşfidir. Sonuclar birliktelik kuralları (A B) olarak sunulur. Birliktelik kurallarının kullanıldıgı en yaygın örnek market sepeti uygulamasıdır. Market sepet analizi, müsterilerin yaptıkları alısverislerdeki ürünler arasındaki birliktelikleri bularak müsterilerin satın alma alıskanlıklarını belirlemeye çalışır .

Basket veri analizi

Marketlerde Birliktelik Kuralı Keşfi Örnek Bulunan kurallar: {Süt} --> {Kola} {Çocuk Bezi, Süt} --> {Bira}

İstisna Analizi (Outlier Analizi) Normal davranışlardan ve eğilimlerden çok farklı sapmaları belirlemede kullanılır. Uygulamalar: Kredi Kartı Yolsuzluğu Tesbiti Ağ Saldırı (Intrusion) Tesbiti

Referans Kitaplar (kaynak: Han & Kamber) S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002 R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006 D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 T. M. Mitchell, Machine Learning, McGraw Hill, 1997 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005 S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998 I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd ed. 2005

TBD Veri Madenciliği Günü TEŞEKKÜRLER http://www.akyokus.com/Presentations/