VERİ MADENCİLİĞİ.

Slides:



Advertisements
Benzer bir sunumlar
Microsoft Access Bu program Microsoft program paketinin içerisinde yer alan; çok büyük miktarlardaki verilerin depolanabileceği veritabanı oluşturmamıza.
Advertisements

Dört Bölüm 1.Tanıtım ve Mevcut Durum 2.Hedefler 4.Demo 3.Yeni Sürüm Planlaması.
VERİTABANI YÖNETİM SİSTEMLERİ
Unsupervised Learning (Kümeleme)
VERİ TABANI VE YÖNETİM SİSTEMLERİ
Sistem Analizi ve Planlama
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
Veri ve Veri Yapıları Genel olarak bilgisayarlar.
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Yrd. Doç. Dr. Altan MESUT Trakya Üniversitesi Bilgisayar Mühendisliği
E-R Çizelgelerini İVTYS’ye Dönüştürme
Veri Tabanı Normalizasyonu Devrim ALTINKURT
VERİTABANI ve YÖNETİMİ
Bilgi Teknolojisinin Temel Kavramları
İşletmeler için Veri Madenciliği
Bölüm 6 Örgütsel Yönlendirme
VERİ TABANI ve YÖNETİMİ
VERİ TABANI VE YÖNETİM SİSTEMLERİ  Birincil Anahtar Türleri  Access Veri Tabanında Bulunan İlişkiler  İlişkileri Tanımlama Bir – Çok İlişkisi Çok –
SİSTEM ANALİZİ VE TASARIMI
VERİ TABANI VE VERİ TOPLAMA YÖNTEMLERİ
VERİ TABANI VE YÖNETİM SİSTEMLERİ
FMEA Failure Mode and Effects Analysis-Hata Türü ve Etkileri Analizi
Bilişim Sistemleri Mühendisliği nedir? Neden ihtiyaç vardır?
Veri tabani nedir? Veritabanı basit olarak bilgi depolayan bir yazılımdır. Bir çok yazılım bilgi depolayabilir ama aradaki fark, veritabanın bu bilgiyi.
VERİTABANI ve YÖNETİMİ
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
Veri Tabanı Yönetim Sistemleri I
Bilgisayar II
Microsoft Office Access
Şahin BAYZAN Kocaeli Üniversitesi Teknik Eğitim Fakültesi
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Veri Madenciliği Rümeysa İhvan
VERİ KAYNAKLARI YÖNETİMİ 5. ÜNİTE. GİRİŞ Bilgi sisteminin öğelerinden biride “veri yönetimidir”. Geleneksel yada çağdaş, birinci yada ikinci elden derlenen.
Veri Madenciliği Giriş.
Bilgi Yönetimi Araçları
İnsan Kaynakları Bilgi Sistemleri
Veritabanı Kavramları
BİLGİSAYAR NEDİR?.
ŞEKİL 13.1 “Temel Dönüşüm” “İmalat Şirketine Yönelik Süreç”
İstatistik Bilimine Giriş
Veritabanı Yönetim Sistemleri
İnsan Kaynakları Bilgi Sistemleri
UNV13107 TEMEL BİLGİ TEKNOLOJİSİ KULLANIMI. Veri tabanı Bilgisayar ortamında saklanan düzenli verilerdir. Bilgisayar ve ağ ortamındaki bilginin temel.
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
ÖRGÜTLERDE BİLGİ YÖNETİMİ, KARAR VERME VE BİLİŞİM SİSTEMLERİNDEKİ HİYERARŞİK YAPININ MİMARİSİ Kısım 2.
 Bir projeyi yönetmek üzere görevlendirilen ve projeyi, mümkün olan en yüksek üretkenlik, en düşük belirsizlik ve risk ile yürütmekten sorumlu kişidir.
VERİ MADENCİLİĞİ ISE 302 Dr. Tuğrul TAŞCI.
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
Bölüm 4 : VERİ MADENCİLİĞİ
Living in a Digital World Discovering Computers 2010 Bilgisayarların Keşfi Veritabanı Yönetimi Hafta 9.
Ders 4: Sistem Çözümleme
ÖĞRETİM TEKNOLOJİLERİ
VERİ MADENCİLİĞİ.
SİSTEM ANALİZİ VE TASARIMI
Active Directory.
E-R Çizelgelerini İVTYS’ye Dönüştürme
SİSTEM ANALİZİ VE TASARIMI
Bölüm 2 ÖRGÜTLERDE BİLGİ YÖNETİMİ, KARAR VERME VE BİLİŞİM SİSTEMLERİNDEKİ HİYERARŞİK YAPININ MİMARİSİ Kısım 2.
Ocak, 2013 Akdeniz Üniversitesi
Fırat Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Müh.
NİŞANTAŞI ÜNİVERSİTESİ
Öğretim Görevlisi Alper Talha Karadeniz Veri Tabanı 1
İŞLETMEDE BİLGİ SİSTEMLERİ
Bilgi Okuryazarlığı Öğr. Gör. Seda AKIN GÜRDAL
İLERİ VERİ TABANI UYGULAMALARI
Elektronik-Ticaret’te Arama Motoru Optimizasyonu ve Sosyal Medya
Hastane Bilgi Sistemlerinde Veri Madenciliği
KAVRAM HARİTALARI.
Sunum transkripti:

VERİ MADENCİLİĞİ

Veri, Enformasyon, Bilgi ve Bilgelik VERİ:Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Veri, oldukça esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş,ham haldeki kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş,düzenlenmemiş yani anlamlandırılmamışlardır.

Enformasyon (Information): verilerin ilişkilendirilmiş, düzenlenmiş, anlamlandırılmış, işlenmiş halidir. Bu haliyle enformasyon, potansiyel olarak içinde bilgi barından bir veri halindedir. Enformasyonun, bilgiye dönüşmesi, bireyin onu algılaması, özümsemesi ve sonuç çıkarmasıyla gerçekleşir.

Bilgelik; bu kavramların zirvesinde yer alır Bilgelik; bu kavramların zirvesinde yer alır. Bilgilerin kişi tarafından toplanıp bir sentez haline getirilmesiyle ortaya çıkan bir olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır. BİLGELİK BİLGİ ENFORMASYON VERİ

Günümüzde bilgelik en değerli varlıktır. Bilginin bu denli değerli olması, bilişim teknolojilerinin gelişmesine ön ayak olmuştur. Bilgisayarların bilgi yönetiminde ve üretimde faal olarak yer almaya başlaması kaçınılmaz bir durum haline gelmiştir.

Günümüze bakıldığında bir bilgi patlaması söz konusudur Günümüze bakıldığında bir bilgi patlaması söz konusudur. Çevremizin verilerle dolu olması peşi sıra enformasyon ve bilgiyi beraberinde getirmektedir. Internet gibi etkili bir iletişim ortamının varlığı bu durumu körüklemektedir. Makro düzeyde bakıldığında hemen hemen herkes bu veri dağına bir katkıda bulunmakta ve de bundan yararlanmaktadır. Ancak bunun yanında bazı sorunlar da getirmektedir

Bu kadar çok veri arasından gereken bilgiyi çıkartabilmek gerekmektedir. Bu aşamada yeni bir kavram karşımıza çıkmaktadır; VERİ MADENCİLİĞİ

Günümüzde sadece bilgiye ulaşmak değil, gerekli koşullarda bilgi üretmek de önemli bir konu halini almıştır. Çığ gibi büyüyen sayısal veri ortamları arasından yararlı ve de gerekli olan bilgiye ulaşmayı sağlamak gerçek bir çaba haline gelmiştir. Veri madenciliği bu safhada göze çarpan bir olgudur.

Frawley veri madenciliğini “Daha önceden bilinmeyen ve potansiyel olarak yararlı olma durumuna sahip verinin keşfedilmesi” olarak tanımlamıştır. Berry ve Linoff bu kavrama “Anlamlı kuralların ve örüntülerin bulunması için geniş veri yığınları üzerine yapılan keşif ve analiz işlemleri” şeklinde bir açıklama getirmiş.

Sever ve Oğuz çalışmalarında veri madenciliği hakkında “Önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan veri tabanlarında bilgi keşfi süreci içerisinde bir adımdır.” tanımını kullanmışlardır.

Bilgi Keşfi sürecinde veri madenciliğinin yeri Nihayetinde amaç bilgiyi keşfederek ona ulaşmak ve bu yolla fayda sağlamaktır. Bilgi Keşfi sürecinde veri madenciliğinin yeri

TEMEL KAVRAMLAR Geleneksel veri saklama yöntemleri a)Klasik Dosya Yapıları b)Kayıt ve Alan c)Sıralı dosyalar d)Dizinli dosyalar e)Hesaba dayalı dosyalar

VERİ TABANI SİSTEMLERİ Karmaşık dosya yapıları,çok sayıda dosya arası ilişki ve kullanıcıların dosyalara erişimi söz konusu olduğunda geleneksel dosya sisteminin yetersiz kaldığı görülmektedir.Bu sorunu çözmek üzere veriyi saklama ve erişim konusunda yeni yazılım teknolojilerine yönelme başlamış ve veri tabanı sistemlerini oluşturmak ve veriyi yönetmek üzere veri tabanı yönetim sistemleri (VYS) ortaya çıkmıştır.

Veri tabanı yönetim sistemleri, birbiriyle ilişkili veri ve programlar topluluğundan oluşmaktadır.Veri topluluğu bir veritabanı olarak değerlendirilir. Veritabanı bir kuruluşa ilişkin bilgilerin yer aldığı ortamdır. Veritabanı sistemlerini, veri kümelerinin düzenli biçimde tutulduğu ve bu verinin çeşitli yazılımlar aracılığıyla yönetildiği bir ortam olarak düşünebiliriz.

Veri tabanı ile kullanıcı arasındaki ilişki Veri tabanı yönetim sistemi Uygulama programları VERİ TABANI KULLANICI

Veritabanı Sistemlerinin Üstünlükleri Verinin tekrarlanmasını önler Verinin tutarlı olmasını sağlar Aynı andaki erişimlerde tutarsızlıkların ortaya çıkmasını önler Verinin güvenliğini sağlar

VERİ MODELLERİ VYS belirli bir veri modeline dayanır.Bir veri tabanı yapısının temelini veri modeli kavramı oluşturmaktadır. Veriyi mantıksal düzeyde düzenlemek için kullanılan kavramlar, yapılar ve işlemler topluluğuna veri modeli denir.

Veri modellerini 4 ana grupta toplamak mümkündür; a)Sıradüzensel (Hiyerarşik) veri modeli b)Ağ (Network) veri modeli c) İlişkisel veri modeli d) Nesneye yönelik veri modelidir Günümüzde en yaygın biçimde kullanılanı ilişkisel modeldir.

İLİŞKİSEL MODEL İlişkisel model, varlıklar arasındaki bağlantının, içerdiği değerlere göre sağlanması esasına dayanır. İlişkisel model, varlıklar arasında oluşan karmaşık ilişkileri basite indirgemek amacıyla geliştirilmiştir. Bu yaklaşımda, veritabanındaki tüm ilişkiler tablolar biçiminde tanımlanmaktadır.

İlişkisel veritabanlarında tablolar birbiriyle ilişkilendirilmiştir No Adı Bölüm no Bölüm No Bölüm Adı Tablolar

İLİŞKİSEL VERİTABANI İlişkisel veritabanı, her biri özel isimlere sahip tablolardan oluşur.Burada her tablo bir varlığa veya bir ilişkiye karşılık gelmektedir. Tablonun sütunları nitelikleri; satırlar ise bu niteliklerin değerlerini ifade eder.Herbir satır ‘kayıt’ olarak da düşünülebilir. Anahtar alan tablonun tamamlayıcısıdır.

Sütunlar (nitelikler) No Adı Bölüm No 25 AHMET 10 13 SENEM 28 ORKUN 30 Satırlar (Kayıtlar) ANAHTAR

TABLOLARIN ÖZELLİKLERİ Tablolar sütunlardan oluşur Her bir sütunun ayrı bir adı vardır Her bir sütun, aynı etki alanının belirlediği değerleri içerir Her bir satır birbirinden farklıdır Satırların sırası önemsizdir Sütunların sırası önemsizdir

VERİ TABANI ŞEMASI Veritabanının mantıksal tasarımına ‘veritabanı şeması’ adı verilir. Tablolar ve onların nitelikleri veritabanı şemasını oluşturur. Veritabanı şemalarını iki ana grup altında incelenir. -Fiziksel şema -Kavramsal şema

Fiziksel şema; veritabanının fiziksel çevresi ile ilgili tanımları içerir. Örneğin:veritabanı bilgisayarda bir disk dosyası biçiminde yer alacaktır.Bu dosyanın disk üzerindeki adresi ve özellikleri ile ilgili tanımlar fiziksel şemayı oluşturur. Kavramsal şema ise tüm veritabanının mantıksal tasarımıdır.Veritabanına kaydedilmesine karar verilen veriler arasındaki mantıksal ilişkilerin belirlenebilmesi için veritabanı şeması oluşturulur. Bu şemada veri alanları,kayıtlar dosyalar vb. gibi ne tür veri elemanlarının bulunacağı, veri elemanları arasındaki ilişkiler ve veritabanının yapısı hakkında bilgiler yer alır.

Fiziksel veritabanı Veri tabanı dosyası Veri tabanı dosyası Veri tabanı dosyası Fiziksel şema Veritabanı Şeması ve Alt şemalar Kavramsal şema Alt Şema A Alt Şema B Kullanıcılar Uygulama Programı 1 Uygulama Programı 2 Uygulama Programı 3 Uygulama Programı 4

Veri Ambarları ve Veri Madenciliği Veri madenciliği büyük miktarda veri inceleme amacı üzerine kurulmuş olduğu için veri tabanları ile yakından ilişkilidir. Gerekli verinin hızla ulaşılabilecek şekilde amaca uygun bir şekilde saklanması ve gerektiğinde hızla ulaşılabilmesi gerekir. Normal bir veritabanındaki veriler bir çok ayrıntıyı içermektedir ve analiz işlemleri normal bir veritabanı üzerinde uygulandığı takdirde bir takım zorluklar ortaya çıkacaktır.

Günümüzdeki veritabanlarının çok farklı kaynaklarda bulunması, çok büyük hacimlerde veriler içermesi ve farklı yapılara sahip olması dikkate alınırsa; Veri Ambarları, bu zorlukların üstesinden gelmek amacıyla normal veritabanından farklı olarak, analiz ve raporlama işlemlerinde kullanılmak üzere hazırlanmış verileri içermektedir. Günümüzde yaygın olarak kullanılmaya başlanan veri ambarları günlük kullanılan veri tabanlarının birleştirilmiş ve işlemeye daha uygun bir özetini saklamayı amaçlar.

OLTP Sistemler Bir kurumun verilerinin işlendiği ortamlara OLTP (Online Transaction Processing) sistemler adı verilmektedir. Örneğin bir işletmenin sahip olduğu stok sistemi ile depoya giren ve çıkan ürünleri ve ödemeleri izlenebilir. OLTP sistemlerine ilişkin veritabanlarına veri kaydedilebilir,veriye erişilerek raporlanabilir ve istendiğinde veri silinebilir.

Bir OLTP veritabanında yapılabilecek işlemler Kayıt ekleme Güncelleştirme OLTP Veri tabanı Kayıt okuma Kayıt silme Bir OLTP veritabanında yapılabilecek işlemler

Karar Destek Sistemleri 1990’ lı yıllara değin bilgisayarın karar alma süreci üzerindeki etkisini arttırmak üzere çok çaba harcanmıştır.Karar Destek Sistemleri ve Üst Yönetici Sistemleri bu amaçla ortaya atılmıştır. Karar Destek Sistemleri, yöneticilerin programlanamayan türden karar verme işlemlerine yardımcı olmak üzere geliştirilmiştir. Yöneticinin herhangi bir anda, daha önceden öngörülmemiş bir bilgiye aniden gereksinimi olabilir.Karar ve destek sisitemleri bu gibi durumlar için tasarlanır.

Üst yönetici sistemleri temel olarak karar destek sistemlerine benzer Üst yönetici sistemleri temel olarak karar destek sistemlerine benzer.Ancak bu tür sistemler sadece stratejik düzeydeki yönetici personel için tasarlanır.Bu sistemler yapısal olmayan, yani önceden programlanamayan karar türlerine destek veren sistemlerdir. Karar destek sistemleri çoğunlukla model bazlı olarak tanımlanır.Bunlar basit karar modellerinin yanı sıra,karmaşık matematiksel yada istatiksel modelleri de içerir.Üst yönetici sistemlerinde ise karmaşık modellere yer verilmez.Çoğunlukla sistemin sorgulama olanaklarından yararlanılır.

VERİ AMBARI NEDİR? Veri ambarı, bir zaman boyutu içinde analitik işlemlerin yapılması için ihtiyaç duyulan bilgi temelini sağlar. Veri ambarı, karar verme sürecinde yöneticilere destek vermek üzere hazırlanmış; a)konuya yönelik b)bütünleşik c)zaman boyutu olan d)sadece okunabilen veri topluluğudur.

Karar Destek Sistemi Kullanıcısı Şirket içi veriler Karar Destek Sistemi VERİ AMBARI Dış kaynaklı veriler Karar Destek Sistemi Kullanıcısı Veri ambarı,karar destek sistemleri ve üst yönetici sistemleri arasındaki ilişki

İşletme konularına yöneliktir. a) Konuya yöneliktir Veri ambarının konuya yönelik olmasının anlamı, veri ambarının işletmedeki yüksek seviyeli varlıklar üzerinde odaklanmış olmasıdır.Bu varlıklar bir okul ortamı için öğrenciler, dersler,notlar vb. olabilir. OLTP VERİ AMBARI Perakende satışlar sistemi Satışlar konu alanı Seri sonu satışlar sistemi Katalog satışlar sistemi Uygulama alanlarına yöneliktir. İşletme konularına yöneliktir.

b) bütünleşiktir Veri ambarı ortamındaki verinin en belirgin görünümü, bütünleşik durumda olmasıdır.Verinin kodlanmasında görüş birliğine varılması, ölçü birimlerinin seçiminde tutarlılık,sayısal değerlerin fiziksel gösterimindeki tutarlılık vb gibi bütünleştirme kavramlarından söz edilir. Bazı uygulamalarda uzunluk ölçüsü olarak cm,bazılarında inç,bazılarında ise metre kullanılmış olabilir.Bu tür verinin veri ambarına taşınması esnasında birimlerin ortak bir uzunluk ölçüsü birimine dönüştürülmesi söz konusu olacaktır.

Aynı bilgi farklı sistemlerde farklı biçimde kodlanmış olabilir OLTP VERİ AMBARI Ürün kodu 99999999 Perakende Satışlar sistemi Satışlar Konu alanı Ürün kodu 000009999 Seri sonu Satışlar sistemi Ürün kodu XXXXXXXX Katalog Satışlar sistemi Ürün kodu XXXX9999 Aynı bilgi farklı sistemlerde farklı biçimde kodlanmış olabilir Farklı biçimde kodlanmış alanlar ortak kodlama biçimine dönüştürülür.

c) Zaman boyutu vardır OLTP VERİ AMBARI 2004 Perakende satışlar 2005 Ocak 2007 Perakende satışlar 2005 Perakende satışlar 2006 Perakende satışlar 2007 Perakende satışlar Veri tabanında o döneme ilişkin Verilere yer verilir. Veri ambarında önceki dönemlere ait Verilere de yer verilir.

d) Sadece okunabilirdir Veri ambarındaki veri sadece okunabilir yapıdadır. Veri ambarındaki veri yönetimin gereksinimlerine yanıt vermek üzere tasarlandığı için günlük işlemlere tabi tutulmaz; yani silinemez veya güncelleştirilemez. OLTP Veri ambarı KULLANICI KULLANICI okuma güncelleştirme yazma Okuma VERİ TABANI VERİ TABANI

Veri Ambarının Özellikleri Veri ambarına aktarılan yeni veriler, veri ambarında mevcut bulunan verilerin güncellenmesi için kullanılmazlar. Bu yüzden veri ambarındaki veriler değiştirilmemeli, güncellenmemelidir . Operasyonel sistemlerdeki veriler güncellenip, temizlenip, entegre edildikten ve toplulaştırıldıktan sonra veri ambarına aktarılırlar. Veriler son şekillerini almadan veri ambarına aktarılmazlar.

Veri Ambarının Özellikleri Veri ambarına uygun bir şekilde aktarılan veri, operasyonel sistemlerde bulunan ve değişime sıklıkla uğrayan veriden farklı olarak daha sonra herhangi bir değişime konu değildir Veri ambarına giren veriler burada kronolojik olarak saklanırlar. Operasyonel sistemlerde tutulan veri çoğunlukla 60 gün ile 90 gün arasındaki zaman dilimini kapsarken veri ambarlarında veri genellikle 3 ile 10 yıllık zaman dilimini kapsamaktadır

Veri Modelleme Veri ambarlarının kurulmasında, çalışmasında en önemli hususlardan birisi veri modelinin oluşturulmasıdır Gerçeğin soyutlanmış hali olan modelleme ile verilerin analizler için en etkin şekilde veri ambarlarında yerlerini alması hedeflenmektedir. Veri modellemenin amacı; verinin taşıdığı anlamı, veriler arasındaki ilişkileri, verilerin niteliklerini ve verilerin net tanımlarını açıkça belirlemektir.

Tipik bir çok-boyutlu model ZAMAN BOYUTU ANA TABLO MAĞAZA BOYUTU Zaman Gün Ay Yıl Zaman Mağaza Mağaza adı Bölge Ürün Mağaza ÜRÜN BOYUTU Ürün Sınıf Marka Tipik bir çok-boyutlu model

VERİ AMBARI MİMARİSİ Veri mabarı mimarisinin genel karakteristikleri şu şekilde sıralanabilir. a)Kaynaklardan alınan veri dönüştürülür b) Veri ambarı oluşturulur c)Kullanıcıların veri ambarına erişimi sağlanır. Kullanıcı Kaynak Kaynak Veri Bütünleştirme Kullanıcı VERİ AMBARI Kaynak Kullanıcı

VERİ MADENCİLİĞİ Kurumlarda biriken veri içerisinden kurum için yararlı olanlarını bulup ortaya çıkarma işine veri madenciliği adı verilir. Veri madenciliği büyük ölçekli veriler arasından ‘değeri olan’ bir bilgiyi elde etme işidir.Bu sayede veriler arasındaki ilişkileri ortaya koymak ve gerektiğinde de ileriye yönelik kestirimlerde bulunmak mümkün görülmektedir. Veri madenciliği bir kurumda üretilen tüm verilerin belirli yöntemler kullanarak var olan yada gelecekte ortaya çıkabilecek gizli bilgiyi su yüzüne çıkarma süreci olarak değerlendirilebilir. Bu açıdan bakıldığında veri madenciliği, kurumların karar destek sistemleri için önemli bir yere sahip olabilmektedir.

Veri Madenciliğinin Kullanım Alanları Pazarlama Bankacılık Sigortacılık Elektronik Ticaret Eğitim-Öğretim Taşımacılık-Ulaşım-Konaklama Finansal servisler

Veri Madenciliği Süreci A) Veri temizleme B)Veri bütünleştirme C) Veri indirgeme D)Veri dönüştürme E)Veri madenciliği algoritmasını uygulama F)Sonuçları sunum ve değerlendirme

A) Veri temizleme Bazı uygulamalarda, üzerinde çözümleme yapılacak verilerin istenen özelliklere sahip olmadığı görülebilir.Örneğin;eksik verilerle ve uygun olmayan verilerin oluşturduğu tutarsız verilerle karşılaşılabilir. Veritabanında yer alan tutarsız ve hatalı veriler gürültü olarak değerlendirilir.Bu gibi durumlarda verinin söz konusu sorunlardan temizlenmesi gerekir. Eksik verilerin yerine yenileri belirlenerek konulmalıdır.

B) Veri bütünleştirme Farklı veri tabanlarından yada veri kaynaklarından elde edilen verilerin birlikte değerlendirilmeye alınabilmesi için farklı türdeki verilerin tek türe dönüştürülmesi yani bütünleştirilmesi söz konusu olacaktır.

C) Veri İndirgeme Veri madenciliği uygulamalarında bazen çözümleme işlemi uzun süre alabilir.Eğer çözümlemeden elde edilecek sonucun değişmeyeceğine inanılıyorsa veri sayısı ya da değişkenlerin sayısı azaltılabilir. Veri indirgeme değişik boyutlarda yapılabilir; a)Veriyi birleştirme veya veri küpü b)Boyut indirgeme c)Veri sıkıştırma d)Örnekleme e)Genelleme

Birleştirme Veya Veri küpü Genelleme Veri İndirgeme yöntemleri Boyut indirgeme Örnekleme Veri sıkıştırma

Veriyi indirgeme aşamasında verilen çok boyutlu veri küpleri biçiminde dönüştürmek söz konusu olabilir.Böylece çözümlemeler sadece belirlenen boyutlara göre yapılır.Veriler arasında bir seçme işlemi yapılarak, gereksiz veriler veritabanından çıkarılır ve boyut azaltılması sağlanabilir. Veri sıkıştırma aşamasında, büyük veri kümelerinin sıkıştırılarak daha az işgal etmeleri sağlanır. Örnekleme aşamasında ise, büyük veri topluluğu yerine onu temsil eden daha küçük veri kümelerinin oluşturulması amaçlanır. Genelleme verilerin tek tek değil genel kavramlarla ifade edilmesi sağlanır.

d) Veri dönüştürme Veriyi bazı durumlarda veri madenciliği çözümlemelerine aynen katmak uygun olmayabilir.Değişkenlerin ortalama ve varyansları birbirinden önemli ölçüde farklı olduğu taktirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların önemli rollerini önemli ölçüde azaltır. Bu nedenle bir dönüşüm yöntemi uygulanarak söz konusu değişkenlerin normalleştirilmesi veya standartlaştırılması uygun bir yol olacaktır.

e) Veri madenciliği algoritmasını uygulama Veri madenciliği yöntemlerini uygulayabilmek için yukarıda sıralanan işlemlerin uygun görülenleri yapılır.Veri hazır hale getirildikten sonra konuyla ilgili veri madenciliği algoritmaları uygulanır. Söz konusu algoritmalar sınıflama, kümeleme ve birliktelik kuralları konusunda incelenecektir.

f) Sonuçları sunum ve değerlendirme Veri madenciliği algoritması veriler üzerinde uygulandıktan sonra, sonuçlar düzenlenerek ilgili yerlere sunulur. Sonuçlar çoğu kez grafiklerle desteklenir.

VERİ MADENCİLİĞİ YÖNTEMLERİ Veri madenciliği konusunda çok sayıda yöntem ve algoritma geliştirilmiştir.Bu yöntemlerin bir çoğu istatistiksel tabanlıdır. Söz konusu veri madenciliği modellerini temel olarak şu şekilde gruplandırabiliriz; a)Sınıflama b)Kümeleme c)Birliktelik kuralları

a) Sınıflama Veri madenciliğinde sıkça kullanılan bir yöntem olan sınıflandırma,veri tabanlarındaki gizli örüntüleri ortaya çıkarmakta kullanılır. Verilerin sınıflandırılmasında belirli bir süreç izlenir.Öncelikle var olan veri tabanının bir kısmı eğitim amacıyla kullanılarak sınıflandırma kurallarının oluşturulması sağlanır. Daha sonra bu kurallar yardımıyla yeni bir durum ortaya çıktığında nasıl karar verileceği belirlenir.

ÖRNEK: Bir bankanın kredi verdiği müşterilerinin risk durumunu karar ağaçları yardımıyla ortaya koymak istediğini varsayalım.Bu sayede belirli özelliklere sahip müşterilerinden kredi talebi geldiğinde, karar ağacı bilgilerine dayanarak kredi verip vermeme konusunda karar verecektir. Eğitim verileri MÜŞTERİ BORÇ GELİR STATÜ RİSK 1 YÜKSEK İŞVEREN KÖTÜ 2 ÜCRETLİ 3 DÜŞÜK 4 İYİ 5 Tablodaki veriler karar ağacının oluşturulması amacıyla eğitim verisi olarak kullanılacaktır.

Eğitim verilerine uygun karar ağacı Düğümü BORÇ:YÜKSEK BORÇ:DÜŞÜK B Düğümü KÖTÜ GELİR:YÜKSEK GELİR:DÜŞÜK İYİ C Düğümü STATÜ:İŞVEREN STATÜ:ÜCRETLİ KÖTÜ İYİ Eğitim verilerine uygun karar ağacı

Elde edilen karar ağacı karar kuralları oluşturulmasında kullanılabilir. Eğer BORÇ:YÜKSEK ise RİSK:KÖTÜ KURAL2 Eğer BORÇ:DÜŞÜK ise ve Eğer GELİR:YÜKSEK ise RİSK:İYİ KURAL3 Eğer GELİR:DÜŞÜK ise ve Eğer STATÜ:İŞVEREN ise RİSK:KÖTÜ KURAL4 BORÇ:DÜŞÜK,GELİR:DÜŞÜK,STATÜ:ÜCRETLİ ise RİSK:İYİ

b) Kümeleme Kümeleme, verilerin kendi aralarındaki benzerliklerin göz önüne alınarak gruplandırılması işlemidir.Bu özelliği nedeniyle pek çok alanda kullanılır. Örneğin pazarlamada,desen tanımlamada,resim işleme ve uzaysal harita verilerinin analizlerinde kullanılmaktadır.

c) Birliktelik Kuralları Veri tabanı içinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan veri madenciliği yöntemleri bulunmaktadır.Bu ilişkilerin belirlenmesiyle birliktelik kuralları elde edilir. Birliktelik kuralları özellikle pazarlama alanında uygulama alanı bulmuştur. ‘Pazar sepet analizleri’ adı verilen uygulamalar bu tür veri madenciliği yöntemlerine dayanmaktadır. Bu tür çözümlemelerden müşterilerin alışveriş alışkanlıkları belirlenmeye çalışılmaktadır.

Pazar sepet analizleri yardımıyla bir müşteri herhangi bir ürünü aldığında, sepetine başka hangi ürünleri de koyduğu belirli bir olasılığa göre ortaya konur. Birlikte satın alınan ürünler belirlendiğinde,mağazalarda raflar ona göre düzenlenerek müşterilerin bu tür ürünlere daha kolayca erişmeleri sağlanabilir.

Özet Kurumlarda biriken veri içinden kurum için yararlı olanlarını bulup ortaya çıkarma işine veri madenciliği denir. Veri madenciliği uygulamalarında altyapı gereksinimini ise veri ambarı sağlar. Veri madenciliği bir süreçtir.Verinin temizlenmesinden başlar;bütünleştirilmesi,indirgenmesi,dönüştürülmesi,veri madenciliği yöntemlerinin uygulanması ve sonuçların değerlendirilmesi gibi adımlardan oluşur.

Veri madenciliğinde temel olarak üç modelden bahsedilir Veri madenciliğinde temel olarak üç modelden bahsedilir.Sınıflama,kümeleme ve birliktelik kuralları. Veri içindeki gizli örüntülerin ortaya çıkarılması amacıyla sınıflandırma modelleri kullanılır. Verinin kendi aralarındaki benzerliklerinden yola çıkarak gruplandırılması kümeleme yöntemleri ile gerçekleşir. Gözlemlerin birbiriyle olan ilişkisi ele alınarak hangi olayların birlikte gerçekleştiği birliktelik kuralları yöntemi ile ortaya konur.

KAYNAKÇA httpwww.sertacogut.comblogwp-contentuploads200903sertac_ogut_-_veri_madenciligi_kavrami_ve_gelisim_sureci.pdf VERİ MADENCİLİĞİ YÖNTEMLERİ , DR. Yalçın ÖZKAN, PAPATYA YAYINLARI ,2008,İSTANBUL