Veri Madenciliği Bölüm 1. Giriş.

Slides:



Advertisements
Benzer bir sunumlar
Dört Bölüm 1.Tanıtım ve Mevcut Durum 2.Hedefler 4.Demo 3.Yeni Sürüm Planlaması.
Advertisements

Unsupervised Learning (Kümeleme)
VERİ MADENCİLİĞİNE BAKIŞ
Ardesenmyo.wordpress.com.
PAZARLAMAYA GİRİŞ PAZARLAMANIN TANIMI
Göz Hareketlerini İzleme Yöntemiyle Üniversite Web Sayfalarının İncelenmesi Yaşadığımız çağda insanların elektronik ortamda sunulan bilgileri bulma ihtiyaçlarını.
TUVDBS VİDEO VERİTABANI YÖNETİM SİSTEMİ
Veri Madenciliğine Giriş
YRD.DOÇ.DR Turgay tugan bİlgİn
Copyright © The OWASP Foundation Permission is granted to copy, distribute and/or modify this document under the terms of the Creative Commons Attribution-ShareAlike.
Bir İş Planı Yazmanın Ne, Neden
İşletmeler için Veri Madenciliği
END3061 SİSTEM ANALİZİ VE MÜHENDİSLİĞİ
KIRKLARELİ ÜNİVERSİTESİ BABAESKİ MESLEK YÜKSEKOKULU DERS:E-TİCARET KONU:ELEKTRONİK TİCARETİN GELİŞİMİ VE GELENEKSEL TİCARET İLE KARŞILAŞTIRILMASI HAZIRLAYAN:DİLEK.
İşletmeler için Veri Madenciliği
HP HAVEn Herşeyin Analizi
Veri Madenciliği Temel Bilgiler
SİSTEM ANALİZİ VE TASARIMI
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
BÖLÜM 7 MÜŞTERİ İLİŞKİLERİ YÖNETİMİ
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
VERİ TABANI VE VERİ TOPLAMA YÖNTEMLERİ
Endüstride Veri Madenciliği Uygulamaları Yrd. Doç. Dr. Ayhan Demiriz 28/2/2006.
TBD Veri Madenciliği Günü
Bilişim Sistemleri Mühendisliği nedir? Neden ihtiyaç vardır?
Veri tabani nedir? Veritabanı basit olarak bilgi depolayan bir yazılımdır. Bir çok yazılım bilgi depolayabilir ama aradaki fark, veritabanın bu bilgiyi.
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
İ.İ.B.F. İngilizce İşletme Bölümü
MÜŞTERİ İLİŞKİLERİ YÖNETİMİ
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Yapay Zeka Teknikleriyle Tıbbi Verilerin İşlenmesi: VERİ MADENCİLİĞİ
Quest Atlantis Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel Bir Bilgisayar Oyununun Teknik Yapısı.
Kurumsal İçerik Yönetimi Kapsamında Bilgi Güvenliği
Türkiye’deki Üniversitelerde İnternet Tabanlı Akademik Kayıt ve Not Takip Sistemleri (IANTS) Y.Doç.Dr.Ender Özcan Yeditepe Üniversitesi.
VERİ AMBARI & VERİ MADENCİLİĞİ
WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ
Veri Tabanı Tasarım Süreci
Şahin BAYZAN Kocaeli Üniversitesi Teknik Eğitim Fakültesi
Veri Madenciliği Rümeysa İhvan
Yrd.Doç Dr. YILMAZ GÖKŞEN
Veri Madenciliği Giriş.
Veritabanı Yönetim Sistemleri
Pazarlama Bilgi Sistemi (PBS)
UNV13107 TEMEL BİLGİ TEKNOLOJİSİ KULLANIMI. Veri tabanı Bilgisayar ortamında saklanan düzenli verilerdir. Bilgisayar ve ağ ortamındaki bilginin temel.
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
BİL3112 Makine Öğrenimi (Machine Learning)
YENİ TÜRK TİCARET KANUNU SÜRECİNDE YOL HARİTASI Hazırlayan: Recep Aşır Temmuz 2012.
1 E-Ticaret ve Güvenli Ödeme Kısım I. E-Ticaret Kısım II. Güvenli Ödeme Umur YILMAZ Comtech Tic. Ltd
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
BİRLİKTELİK KURALLARI ( ASSOCIATION RULE MINING)
Hafta 1: Dizinleme ve Özler BBY 264 Dizinleme ve Sınıflama.
Sunum Planı 2 Veri Temelleri Veri & Bilgi Dijital Veri & Sayısallaştırma Dijital Veri Saklama Veritabanı Veri Saklama VTYS SQL Veri Yönetimi Veri Ambarı.
NOT: Bu slayt üzerindeki resmi değiştirmek için resmi seçin ve silin. Ardından, kendi resminizi eklemek için yer tutucudaki Resimler simgesini tıklatın.
İrem Soydal ~ Yurdagül Ünal
Bölüm 4 : VERİ MADENCİLİĞİ
Living in a Digital World Discovering Computers 2010 Bilgisayarların Keşfi Veritabanı Yönetimi Hafta 9.
Giriş.  Öğretim Üyesi: Cengiz Örencik  E-posta:  Ders Malzemeleri:  myweb.sabanciuniv.edu/cengizo/courses.
Temel Bilgi Teknolojileri
ELEKTRONİK TİCARET ÖNÜNDEKİ ZORLUKLAR VE RİSKLER
BİLİŞİM TEKNOLOJİLERİ VE YAZILIM DERSİ
VERİ MADENCİLİĞİ.
ERP Projesinin Aşamaları İzmir. ERP Projesinin Aşamaları SatışSatış - Başlangıç – Kurulum – Analiz – Plan – Uyarlama – Eğitim – Geliştirme.
Madenciyiz ERTAN YILMAZ.
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
İŞLETMEDE BİLGİ SİSTEMLERİ
Yapay Zeka Nadir Can KAVKAS
Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel
Hastane Bilgi Sistemlerinde Veri Madenciliği
Sunum transkripti:

Veri Madenciliği Bölüm 1. Giriş

Ders bilgileri http://ceng.gazi.edu.tr/~ozdemir/teaching/dm Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: suatozdemir@gazi.edu.tr Websayfası: http://ceng.gazi.edu.tr/~ozdemir/teaching/dm Bütün duyuru, ödev, vb. için ders web sayfasını haftada en az bir kez kontrol etmelisiniz

Ders Bilgileri Ders kitabı: Kaynak kitaplar: Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2005). Introduction to Data Mining. Addison Wesley, ISBN: 0-321-32136-7 Kaynak kitaplar: David J. Hand, Heikki Mannila, and Padhraic Smyth (2001). Principles of Data Mining. MIT Press. ISBN 026208290X. Data Mining, Second Edition Concepts and Techniques 2nd Edition Jiawei Han and Micheline Kamber ISBN: 978-1-55860-901-3 The Morgan Kaufmann Series, 2006.

Dersin Amacı Temel veri madenciliği konseptlerini öğrenmek Sınıflandırma, kümeleme, ilişkilendirme/birliktelik kuralları bulma gibi temel veri madenciliği konularında uygulama geliştirmek Geniş veri tabanlarında/veri ambarlarında bilgi keşfi yapabilmek.

Ders içeriği Giriş Veri önişleme Veri ambarları Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Veri madenciliğinde saldırı tespiti Metin madenciliği WEB madenciliği

Ders planı Motivasyon: Neden veri madenciliği? Tanım: Veri madenciliği nedir? Veri madenciliği konularının sınıflandırılması Veri ambarları Veri madenciliğinde sorunlar

Veritabanı teknolojisinin gelişimi

Neden veri madenciliği? Bilgisayarların ucuzlayıp aynı zamanda çok güçlü hale gelmeleri Teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının da artması (terabyte to petabyte) Yeni veri toplama yolları Otomatik veri toplama aletleri, veritabanı sistemleri, bilgisayar kullanımının artması Büyük veri kaynakları İş dünyası: Web, e-ticaret, alışveriş, hisse senetleri, … Bilim dünyası: Uzaktan algılama ve izleme, bioinformatik, simülasyonlar.. Toplum: haberler, digital kameralar, YouTube, Facebook… Ticari rekabet baskısının artması Kişiselleştirilmiş ürünler, CSR yönetimi Veri içinde boğuluyoruz, ancak bilgi elde edemiyoruz!!!

Neden veri madenciliği?

Veri Madenciliğinin Amacı Ne yapmak istemiyoruz? Büyük miktardaki veri içinde arama yapmak (Veritabanı yönetim sistemleri bu işi yapıyor) Telefon rehberinde arama yapmak Veri madenciliğinin amacı: Aradığımız veri mevcutsa bu veriden çıkarabileceğimiz sonuçlarını anlamak Telefon rehberindeki isimlere göre, hangi bölgemizde hangi isimlerin daha yaygın olduğunu bulmak

Veritabanı - Veri Madenciliği Karşılaştırması Sorgulama Tanımlı SQL Veri Canlı veri Dinamik Çıktı Belirli Verinin bir alt kümesi Sorgulama Tam tanımlı değil Yaygın sorgulama dili yok Veri Üzerinde işlem yapılmayan veri Statik Çıktı Belirli değil Verinin bir alt kümesi değil Veritabanı Veri Madenciliği

Sorgulama örnekleri Veritabanı uygulaması: Veri madenciliği uygulaması Adı Ahmet olan kredi kartı sahiplerini bul. Bir ayda 2000 YTL’den fazla harcama yapan kredi kartı sahiplerini bul. DVD satın alan tüm müşterileri bul. Veri madenciliği uygulaması Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (demetleme) DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme kuralları)

Veri madenciliği nedir? Basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılması Sorgulama ya da basit istatistik yöntemler veri madenciliği değildir. Veri madenciliği terimi ne kadar doğru? KNOWLEDGE DISCOVERY FROM DATA (KDD) (VERİDEN BİLGİ KEŞFİ) Alternatif isimler Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.

Veriden Bilgi Keşfi Knowledge Bilgi Teoride veri madenciliği bilgi keşfi işleminin bir parçasıdır Pratikte veri madenciliği ve veriden bilgi keşfi aynı anlamda kullanılır Pattern Evaluation Örüntü değerlendirme Data Mining Veri madenciliği Task-relevant Data Kullanım amaçlı veri Selection Seçme Data Warehouse Veri ambarı Data Cleaning Veri temizleme Data Integration Veri birleştirme Databases / Veri tabanları

Veriden Bilgi Keşfinin Aşamaları Uygulama alanını inceleme Konuyla ilgili bilgi ve uygulama amaçları Veri toplama ve birleştirme Amaca uygun veri kümesi oluşturma: Veri seçme Veri ayıklama ve önişleme Veri azaltma ve veri dönüşümü incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma, Veri madenciliği tekniği seçme Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme Veri madenciliği algoritmasını seçme Model değerlendirme ve bilgi sunumu Bulunan bilginin yorumlanması

Örnek: WEB madenciliği web sitesinin yapısını inceleme veri toplanması: log dosyaları, üye veri tabanı ve satış kayıtlarının toplanması verileri seçme: tarih aralığını belirleme veri ayıklama, önişleme: gereksiz kayıtları silme veri azaltma, veri dönüşümü: kullanıcı oturumları belirleme veri madenciliği tekniği seçme: demetleme veri madenciliği algoritması seçme: k-ortalama, EM, DBSCAN... Model değerlendirme/yorumlama: değişik kullanıcı grupları için sıkça izlenen yolu bulma Uygulama alanları: öneri modelleri, kişiselleştirme, ön belleğe alma

Veri madenciliği ve diğer disiplinler Veri tabanı teknolojisi İstatistik Makina Öğrenmesi Örüntü Tanıma Algoritma Diğer Disiplinler Görselleştirme

Veri Madenciliği Uygulamaları Veri analizi ve karar destek sistemleri Market analiz ve yönetimi Hedef market, müşteri ilişkileri yönetimi, market sepet analizi (basket analysis), çaprazlama satışlar, market ayrımı Risk analizi ve yönetimi Sahtekarlık tespiti (Fraud detection) ve normal olmayan desenlerin tespiti (outliers) Diğer uygulamalar Belgeler arası benzerlik Ağ güvenliği Text ve web madenciliği Sosyal ağ analizi Akan veri madenciliği

Örnekler 1. Market analizi Veri kaynağı: kredi kartı işlemleri, kuponlar.. Hedef merket belirleme Aynı özelliği taşıyan müşterilerin belirlenmesi, satış stratejisi geliştirilmesi Çapraz market analizi Ürün satışları arasındaki ilişkiyi bulma Müşteri profili çıkarma Hangi tip müşteri ne alıyor Müşteri grupları için en iyi ürünleri belirle

Örnekler (devam) 2. Risk analizi Gelir ve kaynak planlama Rekabet Bilanço değerlendirmesi Para akış analizi ve kestirimi Talep incelemesi Rekabet Diğer firmaların takibi, fiyatlandırma stratejisi geliştirme Kaynak planlaması Kaynakların incelenmesi ve uygun olarak dağıtılması

Örnekler (devam) 3. Sahtekarlık tespiti ve normal olmayan örüntülerin bulunması Sigorta, bankacılık, telekomünikasyon alanlarında Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme Örnek Araba sigortası Sağlık sigortası Kredi kartı başvurusu Ağ analizi

Veri madenciliği ve iş dünyası Increasing potential to support business decisions End User Decision Making Data Presentation Business Analyst Visualization Techniques Data Mining Data Analyst Information Discovery Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses DBA Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems

Veri madenciliği kaynakları Veri dosyaları İlişkisel veritabanları Veri ambarları Konu odaklı olarak, düzenlenmiş, birleştirilmiş, sabitlenmiş, büyük veritabanı Gelişmiş veritabanları nesneye dayalı veritabanları www

Veri madenciliği sınıflandırma Veri açısından İlişkisel, veri ambarı, zamana bağlı, akan, text, multimedia, web Bilgi açısından Kategorize, ayrım, ilişki, sınıflandırma, kümeleme, trend analizi, outlier analizi Kullanılacak teknik açısından Veri tabanı temelli, veri ambarı temelli (OLAP), istatistik,... Uygulanancak alan açısından Ticari, telekom, banka, sahtekarlık analizi, text madenciliği...

Veri madenciliği sınıflandırması Veri madenciliğinde veriyi belli bir modele uydurmak istiyoruz. Kestirime dayalı veri madenciliği (predictive) Kredi başvurularını risk gruplarına ayırma Bu işlemde dolandırıcılık var mıdır? Şirketle çalışmayı bırakacak müşterileri öngörme Borsa tahmini Tanımlayıcı veri madenciliği (descriptive) Veriler arasındaki gizli kalmış ilişkiyi ortaya çıkarırlar En iyi müşterilerim kimler? Hangi ürünler birlikte satılıyor? Hangi müşteri gruplarının alışveriş alışkanlıkları benzer?

Kestirime dayalı (predictive) veri madenciliği Sınıflandırma: Veriyi önceden belirlenmiş sınıflardan birine dahil eder. Gözetimli öğrenme Örüntü tanıma Kestirim Eğri uydurma: Veriyi gerçel değerli bir fonksiyona dönüştürür. Zaman serileri inceleme: Zaman içinde değişen verinin değerini öngörür.

Kestirime dayalı veri madenciliği örneği: Sınıflandırma Sınıflandırıcı Model Ögrenme kümesi Model Deneme kümesi

Tanımlayıcı (descriptive) veri madenciliği Demetleme/kümeleme: Benzer verileri aynı grupta toplama Gözetimsiz öğrenme Özetleme: Veriyi altgruplara ayırır. Her altgrubu temsil edecek özellikler bulur. Genelleştirme Nitelendirme İlişkilendirme kuralları / birliktelik kurallları Veriler arasındaki ilişkiyi belirler Sıralı diziler: Veri içinde sıralı örüntüler bulmak için kullanılır.

Tanımlayıcı veri madenciliği örneği: Demetleme/Kümeleme Doküman Kümeleme: Dökümanlar içlerinde geçen terimlere göre gruplanacak Yaklaşım: Her doküman içinde sık geçen terimleri bul. Bu terimlerden ve ağırlıklarından yararlanarak bir benzerlik ölçütü geliştir. Bu ölçüte göre demetleme yap Kullanımı: Yeni bir dokümanın hangi dokümanlarla benzer olduğu terimlere göre arama yapıldığında bu terimleri içeren dokümanları bulma

Tanımlayıcı veri madenciliği örneği: Birliktelik kuralları Veri kümesindeki nesneler arasındaki ilişkiyi bulma bir nesnenin (nesnelerin) varlığı ile diğer bir nesnenin (nesnelerin) de varlığını tahmin edebilecek kurallar TID Nesneler 1 Ekmek, kola, süt 2 Bira, ekmek 3 Bira, kola, çocuk bezi, süt 4 Bira, ekmek, çocuk bezi, süt 5 Kola, çocuk bezi, süt Kurallar {süt}  {kola} {çocuk bezi,süt}  {kola}

Hangi örüntü (kural)? Binlerce örüntü: Sadece bir kısmı önemli Veri madenciliği ile bulunan sonuç kümesi üzerinde tekrar veri madenciliği uygulanacak kadar büyük Bulunan örüntünün önemli olması için: insanlar tarafından kolayca anlaşılabilir sınama verisi veya yeni veriler üzerinde belli oranda geçerli yeni, yararlı ve kullanılabilir olması gerekir.

Tanımlayıcı veri madenciliği örneği: Sıralı diziler Zamana bağlı bir veri setinde veriler arasındaki sıra ilişkilerini bulur. Satış verileri içinde:, Bilgisayar ürünleri satan bir firma: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Spor malzemeleri satan bir firma: (Shoes) (Racket, Racketball) --> (Sports_Jacket)

Veri madenciliği sınıflandırması: Özet Sınıflandırma/Classification [Predictive] Demetleme/Clustering [Descriptive] İlişkilendirme kuralları bulma/Association Rule Discovery [Descriptive] Sıralı dizi bulma/Sequential Pattern Discovery [Descriptive] Eğri uydurma/Regression [Predictive] Anomali bulma/Deviation Detection [Predictive]

Veri Ambarları Çok fazla miktarda üzerinde işlem yapılan veri var Çoğunlukla farklı veritabanlarında ve farklı ortamlarda Veri farklı formatlarda ve yerlerde (heterojen ve dağıtık) Karar destek birimleri veriye sanal olarak tek biryerden ulaşabilmeli Ulaşım hızlı olmalı

Veri ambarları Belirli bir döneme ait, yapılacak çalışmaya göre konu odaklı olarak düzenlenmiş, birleştirilmiş ve sabitlenmiş büyük veritabanı Amaca yönelik, konu odaklı Birleştirilmiş Zaman değişkenli, belirli bir döneme ait Son 5 yıl, v.b. Değişken değil, statik Veri silinmez, eklenmez

Veri Ambarı Mimarisi Hizmet Veri madenciliği Veri ambarı Veritabanları Diğer Kaynaklar İzleme Birleştirme OLAP Server Metadata Veri çek İşle Yükle Yenile Hizmet Veri madenciliği Veri ambarı Veri “Mart”ları Veri kaynakları Veri depolama OLAP motoru Son kullanıcı

Veri Madenciliğinde Sorunlar Güvenlik ve sosyal haklar Kullanıcı arabirimi Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik Veri kaynağı

Veri Madenciliğinde Sorunlar Özellikle güvenlik ve sosyal haklar ile ilgili kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması, veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması, gizlilik ve veri madenciliği politikalarının düzenlenmesi gibi sorunlar hala çözülememiştir. Veri madenciliği genelde uygulamaya özgü çözümler içerdiğinden yaygın bir kullanıcı arabirimi ve oluşmamıştır. Kullanılan veri madenciliği yöntemine göre sonuçlar arasında çok büyük farklar çıkabilmektedir. Hangi yöntemin geçerli olduğu konusunda karar vermek uygulama alanına hakim kişiler tarafından verilmelidir. Başarım ve ölçeklenebilirlik için oluşturulan metriklerin geçerlilikleri konusunda ortak bir fikir yoktur. Başarım ve ölçeklenebilirlik konusu subjektiftir. %90 başarı bazı uygulamalar için iyi sayılabilirken, sağlık alanında çok kötü bir değer olarak nitelendirilebilir. Çoğu durumda veri kaynağından elde edilen bilgilerin güvenilirliği konusunda doğrulama yapılamamaktadır (kişisel bilgilerin gizliliği).

Veri Madenciliğinde Sorunlar: Güvenlik Gizlilik ve sosyal haklar Kişilere ait verilerin toplanarak, kişilerden habersiz ve izinsiz olarak kullanılması Veri madenciliği yöntemleri ile bulunan sonuçların izinsiz olarak açıklanması Gizlilik ve veri madenciliği politikalarının düzenlenmesi

Veri Madenciliğinde Sorunlar: Son kullanıcı Kullanıcı Arabirimi Görüntüleme Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi Bilginin sunulması Etkileşim Veri madenciliği ile elde edilen bilginin kullanılması Veri madenciliği yöntemine müdahele etmek Veri madenciliği yönteminin sonucuna müdahele etmek

Veri Madenciliğinde Sorunlar: Performans Başarım ve ölçeklenebilirlik Kullanabilirlik ve ölçeklenebilirlik Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir Örnekleme yapabilme Paralel ve dağıtık yöntemler Artımlı veri madenciliği Parçala ve çöz