Alman Kredi Analizi Veri Kümesinin Veri Madenciliği Teknikleri ile İncelenmesi
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır Özellikle, pazarlama bankacılık ve sigortacılık sektörlerinde yaygın olarak kullanılmaktadır.
Bankacılık Sigortacılık Farklı finansal göstergeler arasında gizli korelasyonların bulunması, Kredi kartı dolandırıcılıklarının tespiti, Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, Kredi taleplerinin değerlendirilmesi. Sigortacılık Yeni poliçe talep edecek müşterilerin tahmin edilmesi, Sigorta dolandırıcılıklarının tespiti, Riskli müşteri örüntülerinin belirlenmesi.
Kredi Skor Hesabı Kredi, bir finansal kurum tarafından bir müşteriye ödünç verilen ve faiz eklendikten sonra genelde düzenli aralıklı taksitler halinde geri ödenmesi gereken paradır. Bir kredi başvurusunda müşterinin krediyi geri ödeyememesi olasılığını hesaplamaya kredi skorlama denir. Skorlama yaparak yüksek riskli müşterilere kredi vermeyi reddetmek finansal kurumun olası zararını azaltacak, düşük riskli müşterilere kredi vermek ise firma kârını arttıracaktır. Üstelik skorlama ile müşterilerin ödeyemeyecekleri kredilerden dolayı firmada oluşabilecek rahatsızlık azalacaktır.
Kredi Skor Hesabı Skorkartı (score-card) denilen bir istatistiksel model, müşterinin başvuru formundaki bilgilere ve diğer —örneğin kredi izleme bürosundan gelen— bilgilere dayanarak kredinin geriye ödenememesi olasılığını hesaplar Bu değer uygun bir eşik değeri ile karşılaştırılarak kredi talebi kabul veya red edilir. Skorkartı geçmiş müşterilerin verilerinden oluşturulur ve genelde basit bir ağırlıklı toplamadır.
Skorkartında tipik olarak kullanılan alanlar şunlardır: • İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl • Ev durumu: Sahip, kiracı, diğer • Postakodu: Kodlanmış • Telefon: Evet, hayır • Yıllık gelir: Kodlanmış • Kredi kartı: Evet, hayır • Yaş: 18-25, 26-40, 41-55, 55+ yıl • Meslek: Memur, işçi, serbest, işsiz, • Medeni hali: Evli, bekar, diğer • Bankanın müşterisi olduğu zaman: yıl • Çalıştığı kurumda çalışma zamanı: yıl
Skorkart Skorkartının oluşturulabilmesi için geçmiş müşterilerin iyi risk ve kötü risk olarak guruplanabilmesi gerekir. İyi risk, örneğin hiç geç ödemesi olmayan müşteri, kötü risk de örneğin üç veya daha fazla arka arkaya geç ödeme yapmış müşteriler olabilir; bir veya iki defa arka arkaya geç ödemesi olan müşteriler belirsizdir ve skor kartı oluşturmada kullanılmaz. Kötü riski tanımlamak kolay değildir; belki geç ödemeler daha yüksek faiz nedeniyle kurum için kârlı olabilir. Gerçekte tanımlamak istediğimiz, zarara neden olan müşteridir.
Skorcard Yapılmak istenen kârlı ve zararlı müşterileri birbirinden ayırabilmektir. kârlı ve zararlı müşterilerin bilgileri iki gurup olarak verildikten sonra genelde doğrusal regresyon veya doğrusal ayırıcı (linear discriminant) kullanılarak alanların ağırlıkları hesaplanır. Bu ağırlıklar hesaplandıktan sonra kabul/red eşiği hesaplanır. Bunun için her iyi müşterinin kuruma kaç birim kârlı, her kötü müşterinin kuruma kaç birim zararlı olduğunun verilebilmesi gerekir. Hangi değerin üstünde beklenen toplam kâr beklenen toplam zararı aşarsa o değer eşik olarak kabul edilir.
Alman Kredi Veri Kümesi Alman Kredi veri kümesi, 1000 kişiye ait 30 öznitelikten oluşan bir veri kümesidir. Bu 30 öznitelik sınıflandırma yapmak için kullanılacak olan tahmin değişkenleridir. Her bir kredi başvuranı krediskor kartlarındaki verilere göre iyi risk ve kötü risk olarak sınıflandırılmıştır. İyi riske ait 700, kötü riske ait 300 kayıt bulunmaktadır.
Veri
Çalışmanın amacı İyi ve kötü risk taşıyan kayıtların en doğru şekilde sınıflandırılması, Firmada yanlış sınıflandırılmadan ötürü oluşacak kayıpların en aza indirgenmesi.
İzlenen Adımlar
Sınıflayıcılar i) Karar Ağaçları ii)MLP iii)Logistic regression
Tahmin Parametrelerinin İncelenmesi 30 tahminözniteliğinin hepsi sınıflama için eşit önem derecesine sahip değildir. Bu önem derecelerini tespit etmek için özellik seçim algoritmaları kullanılmaktadır: GainRatio vb. Bu şekilde algoritmaların çalışma süresi kısalır ve çoğu zaman özellik sayısının azalması algoritma performansını arttırır.
Gain Ratio Uygulaması Tps : Tahmin Paremetre Sayısı Tps1 : Bu durumda 13,26,28 nolu tahmin parametreleri alınmadı Tps2: Bu durumda 16,6,19,24,4,18,12,14,15,9,29,27,13,26,28 nolu tahmin prametreleri alınmadı. Tps3: En yüksek kazanç değerine sahip altı özellik alındı.
Confusion Martis ve Net Kazançlar: