Karar Ağaçları Destekli Vadeli Mevduat Analizi DOKUZ EYLÜL ÜNİVERSİTESİ – BİLGİSAYAR MÜHENDİSLİĞİ Karar Ağaçları Destekli Vadeli Mevduat Analizi Hakan Dalkılıç Feriştah Dalkılıç 05.02.2015
İçerik 1 Veri Madenciliği C4.5 Karar Ağacı 2 Vadeli Mevduat Analizi 3 Sonuçlar 5
Veri Madenciliği Kullanım Alanları Market zincirleri Gayrimenkul şirketleri On-line satış sistemleri Hava yolu şirketleri Bankacılık Sektörü
Veri Madenciliği Veri Madenciliği Sınıflandırma Karar Ağacı Naive Bayes Kstar Destekçi Vektör Makinesi K-En Yakın Komşu Regresyon Kümeleme Birliktelik Kuralları Ardışık Zamanlı Örüntüler
Kullanılan Veri madenciliği Modelleri Karar Ağacı (C4.5) Naive Bayes Kstar
C4.5 Algoritması Quinlan tarafından ID3 algoritması geliştirilerek tasarlanmıştır. Basit, verimli ve güvenilirdir. Budama işlemi ile gürültülü veriler elenebilir. Dezavantajları Yapılandırılmış ağacı yeniden yapılandırmak ve iyileştirmek zordur.
Metinlerin Kategorilenmesi Tıbbi Tanı üretilmesi Spam Testleri C4.5 Kullanım Alanları Metinlerin Kategorilenmesi Tıbbi Tanı üretilmesi Spam Testleri Uydu Görüntülerinin Sınıflandırılması
Vadeli Mevduat Analizi Kullanılan Veri Seti 45211 Kayıt (39922 Hayır, 5289 Evet) 17 Özellik Kullanılan Sınıflandırma Araçları Weka Accord .Net Framework Özellik Tür Değer Yaş (Age) Sayısal İş (Job) Kategorik Retired Student Technician Etc. Medeni Durum (Marital Status) Divorced Married Single Unknown Eğitim (Education) Kredi Ödüyor mu? (Default) Yes, No, Bakiye (Balance) Konut Kredisi Ödüyor mu? (Housing) Borcu Var mı? (Loan) İletişim Şekli (Contact) Cellular, Telephone Son İletişim Sağlanan Gün (Day) Monday- Friday Son İletişim Sağlanan Ay (Month) January- December Görüşme Süresi (Duration) Görüşme Sayısı (Campaign) Son Görüşmenin Üzerinden Geçen Gün Sayısı (Pdays) Eski Kampanyalar için Görüşme Sayısı (Previous) Bir Önceki Pazarlama Kampanyasının Sonucu (Poutcome) Failure Nonexistent Success Vadeli mevduata abone olma Yes, No
Weka (J48, Naive Bayes, Kstar) 10-kat çapraz doğrulama Yapılan Testler 1.000, 5.000, 10.000, 20.000, 40.000 adetlik veri grupları oluşturulmuştur. Weka (J48, Naive Bayes, Kstar) 10-kat çapraz doğrulama Accord .Net (C4.5) Karışıklık Matrisi
Başarı Değerlendirme Ölçekleri Öngörülen Sınıf (Predicted Class) Doğru Sınıf (Actual Class) Sınıf=1 Sınıf=0 TP FN FP TN TP (True Positive) FN (False Negative) FP (False Positive) TN (True Negative)
Accord.NET Ekran Görüntüsü
Weka Ekran Görüntüsü
Sınıflandırma Sonuçları Accord.Net sonuçları – C 4.5 Karar Ağacı Veri Seti TP TN FP FN Doğruluk Kesinlik Anma F-Ölçütü 1.000 126 865 9 0,991 1,000 0,933 0,966 5.000 472 4.397 3 128 0,974 0,994 0,787 0,878 10.000 878 8.767 33 322 0,965 0,964 0,732 0,832 20.000 1.572 17.414 186 828 0,949 0,894 0,655 0,756 40.000 2.079 34.553 647 2.721 0,916 0,763 0,433 0,552 Weka Sonuçları – J48 Veri Seti TP TN FP FN Doğruluk Kesinlik Anma F-Ölçütü 1.000 103 879 1 17 0,982 0,990 0,858 0,920 5.000 484 4.370 30 116 0,971 0,942 0,807 0,869 10.000 946 8.711 89 254 0,966 0,914 0,788 0,847 20.000 1.826 17.354 246 574 0,959 0,881 0,761 0,817 40.000 3.055 34.167 1.033 1.745 0,931 0,747 0,636 0,687
Sınıflandırma Sonuçları Weka Sonuçları – Naive Bayes Veri Seti TP TN FP FN Doğruluk Kesinlik Anma F-Ölçütü 1.000 106 862 18 14 0,968 0,855 0,883 0,869 5.000 517 4.311 89 83 0,966 0,853 0,862 0,857 10.000 962 8.647 153 238 0,961 0,863 0,802 0,831 20.000 1.572 17.451 149 828 0,951 0,913 0,655 0,763 40.000 2.763 32.363 2.837 2.037 0,878 0,493 0,576 0,531 Weka Sonuçları – Kstar Veri Seti TP TN FP FN Doğruluk Kesinlik Anma F-Ölçütü 1.000 60 873 7 0,933 0,896 0,500 0,642 5.000 356 4.358 42 244 0,943 0,894 0,593 0,713 10.000 786 8.707 93 414 0,949 0,655 0,756 20.000 1.311 17.340 260 1.089 0,835 0,546 0,660 40.000 1.831 34.369 831 2.969 0,905 0,688 0,381 0,491
Sınıflandırma Sonuçları Karar ağacı algoritmalarının başarısı, kullanılan veri seti, bu veri setinin büyüklüğü ve algoritmanın gerçekleştirimine göre farklılıklar göstermektedir. Bu çalışmada, karar ağaçları, Naive Bayes ve Kstar algoritmalarına göre daha başarılı sonuçlar üretmişlerdir.
Bulgular Sınıflandırma algoritmaları, bu çalışmada değinilen örnek problemde olduğu gibi, kampanyaların hedeflediği potansiyel müşterilerin tespit edilmesinde ve doğru kitleye hitap edilmesinde önemli bir yol göstericidir. Farklı algoritmalar bir arada kullanılarak yüksek başarı oranlarına ulaşmak mümkündür.
Teşekkürler!