VERİ MADENCİLİĞİ
VERİ MADENCİLİĞİ Daha önceden bilinmeyen, geçerli ve uygulanabilir bilgiler Veritabanları veya diğer bilgi depolarındaki bilgiler veri ambarlarındaki bilgiler
Veri Madenciliği İle Elde Edilen Bilgilere Ne Zaman Başvurulur? Sorgulama Karar Verme Süreç Kontrol Bilgi Yönetimi
Kuruluşlardaki depolanmış verilerden faydalı bilgiler Veri Madenciliği Kuruluşlardaki depolanmış verilerden faydalı bilgiler Sorgulama Karar Verme Süreç Vontrol Bilgi Yönetimi
Uygulama Alanları Bankacılık Ve Sigorta Dolandırıcılık Tespiti Kredi Kartı Dolandırıcılığı Kara Para Aklama
Uygulama Alanları Sağlık Tanı İçin Karar Destek Sistemi Olarak
Uygulama Alanları Spor Futbol Ve Basketbol
Uygulama Alanları Telekominasyon Firmaları Mevcut Müşterilerin Elde Tutulması (Churn) Dolandırıcılık Tespiti
Uygulama Alanları Astronomi Yeni Keşifler
Uygulama Alanları Üretim Tesisleri Üretimden Kaynaklanan Hataların Altında Yatan Gizli Nedenleri Ortaya Koyma
Perakende Satış Sektörü Müşterilerin Satın Alma Örüntüleri Çapraz Satış Pazar Sepeti Analizi
Satış Tahmini Fiyatlandırma ve İndirim Tahmini Üretim / Tedarik Kararı
Müşteri Profili Çıkarma Müşterilerin demografik özellikleri ile satın aldıkları ürünler arasındaki ilişki Kaç tip müşterim var? Müşteri Değerlendirme Müşteri İlişkileri Yönetimi
Diğer Genetik Mühendisliği Sinyal İşleme Telefon Görüşmelerindeki Kesintileri Tahmin Yöntemiyle Giderme
Özet Olarak Üretimimi nasıl planlarım? Üretimde gözden kaçan hatam var mı? Mevcut müşterilerime nasıl daha fazla satış yaparım? Hangi müşterilerim, iyi, uzun dönemli ve değerli? Hangileri değil? Hangi müşterim beni dolandırabilir? Ödemesini aksatabilir? Bana maliyet getiren müşterim var mı? Stratejik ve büyük işletme planlarımı tahmin edebilir miyim? Hangi müşterilerimi rakiplerime daha kolay kaptırabilirim? Daha etkin bir satış tekniği nasıl uygulayabilirm Fiyatlarımı nasıl belirlerim Üretimimi nasıl planlarım? Yeni müşteri potansiyeli oluşturabilir miyim?
Kullanan Firmalardan Bazıları
Değerlendirme ve Sunuş Temizleme ve Bütünleme Problemin belirlenmesi. Bilgi Değerlendirme ve Sunuş Önişlemler Sonuçlar (Kurallar) Verinin elde edilmesi Veri Madenciliği Seçme ve Dönüştürme Madencilik Veri Ambarı Temizleme ve Bütünleme Veri Tabanları Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları
Değerlendirme ve Sunuş Temizleme ve Bütünleme Bilgi Problemin belirlenmesi. Değerlendirme ve Sunuş Sonuçlar (Kurallar) Madencilik Önişlemler Veri Madenciliği Seçme ve Dönüştürme Veri Ambarı Temizleme ve Bütünleme Veri Tabanları Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları
VERİ AMBARI Belirli bir döneme ait Birleştirilmiş ve sabitlenmiş Dış çevreden elde edilen bilgiler Konu odaklı olarak düzenlenmiş Sadece okunabilir
Bilgiler kullanıma hazır hale getirilir. İşletmelerde kullanılan işlemsel veritabanlarından ve dış veri kaynaklarından elde edilir Bilgiler kullanıma hazır hale getirilir. Veri analizi ve sorgulama işlemleri gerçekleştirilir Karar verme aşamasında başvurulur
OLTP (İşlemsel Veritabanları) Ekle Güncelle OLTP Veritabanı Sil Oku Some Applications on Records
Veri Madenciliği teknikleri sayesinde Güncel Verilerin işlendiği veritabanlarındaki veriler Başvurulabilir Bilgi haline dönüştürülür
Güncel Verilerin işlendiği Veritabanı Sistemi Özellik Güncel Verilerin işlendiği Veritabanı Sistemi OLTP Analiz ve Sorgulama Sistemi OLAP Nitelik Günlük işlemler Bilgi Elde Etme İşlemleri Yönlendirme İşlem Kullanıcı Çalışanlar, Veritabanı Yöneticileri ve uzmanları Yöneticiler, Analistler ve Diğer Karar Verici Kişiler Yükümlülük Belli bir döneme ait bilgiler Veri Güncellenebilir günlük bilgiler Geçmiş dönemi kapsayan bilgiler Erişim Okunabilir/Güncellenebilir Çoğunlukla sadece okunabilir Odaklanma Kaydedilen veri Elde edilen bilgi
Veritabanı1 Müşteriler Tablosu Veritabanı2 Çalışanlar Tablosu Veritabanı3 Ürünler Tablosu Veritabanı4 Satışlar Tablosu Veri Ambarı Kesiti
Veritabanı1 (Müşteriler) Veritabanı2 Veritabanı3 (Ürünler) Müşteri ID İsim Soyad Doğum Tarihi 132 Anıl Arıkan 21.08.1991 234 Selen Akın 19.07.1973 Veritabanı2 (Çalışanlar) Çalışan ID İsim Soyad Doğum Tarihi 1 Esra Güney 25 .03.1970 2 Erdem Erkin 11 .02 .1969 Veritabanı3 (Ürünler) Ürün ID Tür Renk Kumaş 5 Etek Lacivert Keten 8 Bluz Pembe İpek 11 Pantolon Kahverengi Gabardin
Veritabanı4 (Satışlar) Müşteri ID Ürün ID Çalışan ID Miktar Tarih 132 5 1 08.08.2009 8 2 06.09.2009 ? 03.10.2009 234 05.10.2009 11 06.10.2009 3 --
Veri Ambarı Kesiti Burç Renk Gün Özel Gün E: evet H: hayır Sıcaklık Ürün Toplam Ürün Sayısı Aslan lacivert Salı E 12 etek 3 Yengeç kahverengi Perşembe H 13 pantolon 5 pembe Pazar 8 bluz 2 6 1 --
Örnek Veri Ambarı ZAMAN ÜRÜN ZAMAN ID ÜRÜN ID GÜN MARKA CİNS YIL ZAMAN ÜRÜN ZAMAN ID ÜRÜN ID GÜN MARKA CİNS YIL TEDARİKÇİ TİPİ HAFTANIN GÜNÜ SAAT ÖZEL GÜN MÜ ? KİŞİ SATIŞ ANA TABLO KİŞİ ID YAŞ BURÇ MESLEK YER ID YER ÜCRET DİLİMİ ORTALAMA SATIS (TL) CİNSİYET TOPLAM SATIS (ADET) CADDE ORT. SATIS (ADET) İLÇE HESAPLAMALAR İL
MUAYENE ANA TABLO ZAMAN ID KİŞİ ID TANI ID YER ID SEDİMANTASYON TRIGLISERİT ERİTROSİT KİŞİ YAŞ BURÇ MESLEK KAN GRUBU CİNSİYET TANI BELİRTİLER YANETKİ KLINIK SOKAK YER CADDE İLÇE İL ZAMAN GÜN AY YIL HAFTANIN GÜNÜ SAAT 23:00 – 07:00 ARASI MI? HESAPLAMALAR MUAYENE ANA TABLO
MUAYENE ANA TABLO SEDİMANTASYON TRIGLISERİT ERİTROSİT KAN GRUBU ZAMAN ID KİŞİ ID TANI ID YER ID SEDİMANTASYON TRIGLISERİT ERİTROSİT KİŞİ YAŞ BURÇ MESLEK KAN GRUBU CİNSİYET TANI BELİRTİ ID YANETKİ RECETE ID YER IL ID ZAMAN GÜN AY YIL HAFTANIN GÜNÜ SAAT 23:00 – 07:00 ARASI MI? HESAPLAMALAR REÇETE REÇETE ID ILAÇ ID İL İL ID İLÇE SEMT MUAYENE ANA TABLO BELİRTİ
MUAYENE ANA TABLO ATEŞ TANSİYON NABIZ SEDİMANTASYON TRIGLISERİT BELİRTİ BELİRTİ ID ZAMAN ID KİŞİ ID BELİRTİ ID TANI ID ATEŞ TANSİYON NABIZ MUAYENE ANA TABLO TANI TANI ID BELİRTİ ID YANETKİ RECETE ID ZAMAN ID KİŞİ ID TANI ID YER ID SEDİMANTASYON TRIGLISERİT ERİTROSİT REÇETE REÇETE ID ILAÇ ID YER YER ID IL ID İL İL ID İLÇE SEMT HESAPLAMALAR
Veri Dönüşümü ve Bütünleştirme Veri Ambarı Mimarisi Kaynak Kullanıcı Kaynak Veri Dönüşümü ve Bütünleştirme Veri Ambarı Kullanıcı Kaynak Kaynak Kullanıcı
Değerlendirme ve Sunuş Temizleme ve Bütünleme Bilgi Değerlendirme ve Sunuş Sonuçlar (Kurallar) Madencilik Önişlemler Veri Madenciliği Seçme ve Dönüştürme Veri Ambarı Temizleme ve Bütünleme Veri Tabanları Bilgi Keşfinde Veri Madenciliği Aşamaları ve Adımları
Veri Madenciliği Modelleri Sınıflandırma Satış Tahminleri Sipariş Tahminleri Üretim Hata Maliyetlerinin Tahmini ve Nedenleri Dolandırıcılık Tespiti Kümeleme Müşteri Profili Çıkarma Ürün Satış Profili Çıkarma Hata Yer ve Zamanlarının Kümelenmesi Birliktelik Analizi Pazar Sepeti Analizi Zamana Bağlı Ardışık Satış
Veri Madenciliği Modelleri Algoritmaları Sınıflandırma C5 C&R Tree CHAID Kümeleme Analizi En Yakın Komşu Algoritması K-Mean Birliktelik Analizi Gri Appriori
Veri Madenciliği Modelleri Veri tabanlarındaki gizli örüntülerin varlığını ortaya koyma Tahmin yapma Belirli ortak özelliklere göre verileri gruplara ayırma Sınıflandırma
Veri Madenciliği Modelleri Veri Madenciliğinde Örüntü Nedir? Bir varlık hakkında sayısal ortamda kayıtlı olan gözlemlenebilir ve ölçülebilir bilgilerdir.
Veri Madenciliği Modelleri Örüntü Tanıma İşlemi Ele alınan bir örüntünün veritabanlarındaki benzerlerini araştırmaktır. Örüntü tanımada yapılan işlemler bir çeşit sınıflandırmadır.
Sınıflandırma Yöntemleri Karar Ağaçlarına Dayalı Algoritmalar İstatistiğe Dayalı Algoritmalar - Bayesyen Sınıflandırma - Regresyon Mesafeye Dayalı Algoritmalar - K-En Yakın Komşu Algoritması Yapay Sinir Ağları
Classification Process Renk A Kahve Pembe Burç Ürün B C Aslan Yengeç Bluz Etek D E F G 2 ürün Satış 2 ürün Satış 1 ürün satış 3 ürün Satış
Karar Ağacı İle Çıkartılan Kural Örnekleri Kural 1: If renk = kahverengi Then If burç=“aslan” Then karar = 3 ürün satış ; if burç = “yengeç” then karar = 2 ürün satış; Kural 2: If renk =pembe Then If ürün=“Bluz” Then If ürün=“Etek” Then karar = 1 ürün satış;
Kümeleme Kümeleme, veriyi benzerlikleri ile doğru oranda kümelere ayırma işlemidir. benzerlik benzemezlik
Kümeleme Tekniğinin Kullanıldığı Alanlar İstatistik Biyoloji Makine Öğrenimi Astronomi Grupların Alışveriş Örüntüleri Farklı Müşteri Grupları Coğrafik Yerleşim
KullanılanYöntemler: Kümeleme Tekniği KullanılanYöntemler: Çeşitli uzaklık ölçüleri kullanılarak benzerlikler ortaya konur. “ İzmit bölgesinde yaşayan kişiler giyim tercihi açısından Karadeniz Bölgesinde yaşayan kişilere Yalova’da yaşayan kişilerden daha çok benzerler.”
Veri Madenciliği Modelleri Birliktelik Kuralları (İlişki Analizi) Veritabanındaki bir dizi bilgi ya da kaydın diğer kayıtlarla olan bağlantısını açıklayan işlemlerdir.
Birliktelik Kuralları Pazar – Sepet Çözümlemesi Müşterilerin bir alışverişte satın aldığı tüm ürünleri ele alarak, satın alma eğilimini ortaya koyan bir uygulamadır. “Çocuk bezi alan bir müşterinin, mama alma olasılığı diğer müşterilerden 3 kat daha fazladır.”
Kullanılan Programlardan Bazıları SPSS Clementine (IBM Modeller) Weka Data Miner KNIME Answer Tree SEE5 Oracle Business Suite SQL Server Business Intelligence Module
Örnek Uygulama Problem: Üretim planı ve promosyon çalışmalarının piyasa beklentileriyle uyum göstermemesi Amaç: Satışı yapılan ürünlerin, hangi renk ve hangi parça olmalarının belli bir kurala bağlı olup olmadığının araştırılması Veriler? İşletmenin elindeki klasik ilişkisel veri tabanını veri ambarı haline dönüştürdük. Kullanılan parametreler şöyledir.
Veri Ambarı Gün Özel Gün Özel Gün Öncesi Ürün Renk Beden Sıcaklık Alınan Ürün Sayısı X Dizisindeki Ana Renk Pazar E 1 Etek Siyah M 12 BEYAZ Cuma 3 Ceket Erkek 2 Salı H 300 Hırka kadın yeşil S 15 YEŞİL ............. ....... .......... ...... ........ .........