VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Kısa Sınav Çözümleri (1 – 2)  1. Veri ve Bilgiye birer örnek veriniz. (5)  Veri: 170  Bilgi: Boyum 170 cm.

Slides:



Advertisements
Benzer bir sunumlar
Dört Bölüm 1.Tanıtım ve Mevcut Durum 2.Hedefler 4.Demo 3.Yeni Sürüm Planlaması.
Advertisements

Unsupervised Learning (Kümeleme)
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
ALPER LAÇİN SERDAR TAŞAN
VERİ MADENCİLİĞİNE BAKIŞ
Dijital Dünyada Yaşamak
İstatistik Tahmin ve Güven aralıkları
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
İşletmeler için Veri Madenciliği
Veri Madenciliği Temel Bilgiler
İş Zekası ve Veri Ambarı Sistemleri
EDM Araç Kiralama Paketi. EDM Web Paketi EDM Web Paketini satın alan müşterilerimiz kendi web sitelerini hem de en gelişmiş dizayn özellikleri ve en zengin.
SİSTEM ANALİZİ VE TASARIMI
VERİ TABANI VE VERİ TOPLAMA YÖNTEMLERİ
Bilişim Sistemleri Mühendisliği nedir? Neden ihtiyaç vardır?
VERİTABANI ve YÖNETİMİ
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
PAZARLAMA BİLGİ YÖNETİMİ
PAZARLAMA BİLGİ YÖNETİMİ
MÜŞTERİ İLİŞKİLERİ YÖNETİMİ
Merkezi Eğilim (Yer) Ölçüleri
CUSTOMER RELATIONSHIP MANAGEMENT
Merkezi Eğilim (Yer) Ölçüleri
KESİKLİ ŞANS DEĞİŞKENLERİNİN OLASILIK DAĞILIMLARI
VERİ AMBARI & VERİ MADENCİLİĞİ
WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ
Veri Tabanı Tasarım Süreci
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
Microsoft Office Access
Meta Analizinde Son Gelişmeler
Yrd.Doç Dr. YILMAZ GÖKŞEN
İş Zekası Business Intelligence Sunum
KARAR DESTEK SİSTEMLERİ BİLEŞENLERİ
VERİ KAYNAKLARI YÖNETİMİ 5. ÜNİTE. GİRİŞ Bilgi sisteminin öğelerinden biride “veri yönetimidir”. Geleneksel yada çağdaş, birinci yada ikinci elden derlenen.
Veri Madenciliği Giriş.
İşletmelerde Bilişim Sistemleri
Bölgesel Yatırım Ortamı Değerlendirmesi 21 Ocak 2015 Ankara, Türkiye Finansman ve Küresel Bilgi: Türkiye’ye En İyiyi Getirmek ve Türkiye’nin En İyilerini.
İnsan Kaynakları Bilgi Sistemleri
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
İstatistik Bilimine Giriş
Veritabanı Yönetim Sistemleri
MÜŞTERİ İÇİN DEĞER YARATMA
İnsan Kaynakları Bilgi Sistemleri
Kurumsal ve Gelişmiş Stratejik Planlama Çözümü.
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
ÖĞRENME AMAÇLARI Tahmin kavramını anlamak Pazarlama araştırmacılarının regresyon analizinden nasıl faydalandığını öğrenmek Pazarlama araştırmacılarının.
MÜŞTERİ İÇİN DEĞER YARATMA. “Müşteri değeri olgusu, müşteri tatmini unsurlarına ek olarak, ürünün rakipler arasından nasıl seçildiğini, seçim kriterlerinin.
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
BİRLİKTELİK KURALLARI ( ASSOCIATION RULE MINING)
Parametrik ve Parametrik Olmayan Testler Ortalamaların karşılaştırılması t testleri, ANOVA Mann-Whitney U Testi Wilcoxon İşaretli Sıra Testi Kruskal Wallis.
Sunum Planı 2 Veri Temelleri Veri & Bilgi Dijital Veri & Sayısallaştırma Dijital Veri Saklama Veritabanı Veri Saklama VTYS SQL Veri Yönetimi Veri Ambarı.
VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3.
VERİ MADENCİLİĞİ ISE 302 Dr. Tuğrul TAŞCI.
Analitik olmayan ortalamalar Bu gruptaki ortalamalar serinin bütün değerlerini dikkate almayıp, sadece belli birkaç değerini, özellikle ortadaki değerleri.
KURUMSAL BİLİŞİM SİSTEMLERİ
Bölüm 4 : VERİ MADENCİLİĞİ
Living in a Digital World Discovering Computers 2010 Bilgisayarların Keşfi Veritabanı Yönetimi Hafta 9.
Veri Tabanı Yönetim Sistemleri 1 Ders 13 Veri Ambarı & OLAP
Merkezi Eğilim Ölçüleri
Veri Düzenleme Grafiksel Gösterimler ve Merkezi Eğilim Ölçüleri
Süreç Yönetimi.
VERİ MADENCİLİĞİ.
NİŞANTAŞI ÜNİVERSİTESİ
Öğretim Görevlisi Alper Talha Karadeniz Veri Tabanı 1
İŞLETMEDE BİLGİ SİSTEMLERİ
PAZARLAMA BİLGİ YÖNETİMİ
İLERİ VERİ TABANI UYGULAMALARI
Hastane Bilgi Sistemlerinde Veri Madenciliği
Sunum transkripti:

VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI

Kısa Sınav Çözümleri (1 – 2)  1. Veri ve Bilgiye birer örnek veriniz. (5)  Veri: 170  Bilgi: Boyum 170 cm.  Veri: Kısa  Bilgi: 150 cm’den küçük boy kısadır.  2. Veri madenciliği nedir? Tanımlayınız. (10) Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.

Kısa Sınav Çözümleri (3) 8 bit 1 byte 1024 byte 1 kilobyte (KB) byte 1 megabyte ( MB) byte 1 gigabyte ( GB) byte 1 terabyte (TB) byte 1 petabyte (PB)

Kısa Sınav Çözümleri (4 – 5)  4. Veri madenciliğini tetikleyen etkenlerden 2 tanesini yazınız. (5)  Küresel Pazarlarda rekabet baskısının artması  Bilimsel araştırmalarda yeni bulgular elde etme isteği  Ürün / Hizmet Kalitesini artırma isteği  5. Veri madenciliğinin önemini gösteren 3 uygulama yazınız. (5)  İşletmelerde verimlilik / karlılık artışı  Giderlerinin azaltılması  Zarar oluşmadan tahmin edip ortadan kaldırılması  Risk Yönetimi / Hilekarlık Tespiti  Bilimsel araştırmalarda hız ve etkinlik artışı

Kısa Sınav Çözümleri (6 – 7)  6. Veri kaynakları nelerdir? 4 tane örnek yazınız. (5)  Müşteri Alış-veriş Kayıtları  Müşteri İşlem Kayıtları  Bilimsel Araştırma Verileri  Güvenlik ve Gözetleme Sistemleri  Uydu ve Haberleşme Sistemleri  Dijital Medya ve Kütüphaneler  Web Siteleri ve Mobil Uygulamalar  E-Posta & Sosyal Medya  Tıbbi Kayıtlar ve Kişisel Veriler  7. Veri madenciliği ile yapılabilecek uygulama türlerine 3 örnek veriniz. (5)  Karakterizasyon : Belli bir sınıfa ait karakteristik özellikler  Ayrıştırma : Belli sınıfları birbirinden ayırmak  Evrilme ve Sapma : Zamanla değişen verilerle ilgili yapılan çalışmalardır.  Sınıflandırma : Verinin önceden belirlenmiş sınıflara bölümlenmesidir.  Kümeleme : Verilerin benzerliklerine göre gruplanması  Tahmin : Bilinmeyen değerlerin tahmin edilmesi  Aykırılık Analizi : Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi  Birliktelik Analizi : Veriler arasındaki karşılıklı ilişkilerin analizi.

Kısa Sınav Çözümleri (8 – 9)  8. Veri madenciliği uygulamalarının kullanıldığı 4 sektör ismi yazınız. (5)  Müşteri İlişkileri Yönetimi  Tıp & Eczacılık  Bankacılık ve Sigortacılık  Güvenlik ve Hukuk  Eğlence  9. Bilgi keşfi sürecindeki adımları yazınız. (10)  Seçim & Örnekleme  Veri Temizleme & Ön-İşleme  Veri Dönüştürme & Azaltma  Veri Madenciliği  Bilgi Çıkarımı

Kısa Sınav Çözümleri (10 – 11)  10. Veri tiplerine 3 örnek veriniz. (5)  Kayıtlar  İlişkisel kayıtlar, Çapraz kayıtlar, Metin, İşlemler  Çoklu Ortam Verileri  Ses, Resim, Video  Web ve Sosyal Ağlar  Site İçerikleri, Sosyal Ağ Profil Bilgileri, Paylaşımlar  Sıralanmış Veri Setleri  Zaman serileri, Sıralı işlem Verileri, Genetik Kod Dizileri  Konum Verileri  Haritalar ve GPS verileri  Alana Özel Veriler  Dil, Kimya, Tıp, Jeoloji vb.  11. Sürekli ve kesikli değişkenlere birer örnek veriniz. (5)  Sürekli Değişken  Boy, Ağırlık  Kesikli Değişken  Aylık satış miktarı, günlük cevaplanan şikayet sayısı

Kısa Sınav Çözümleri (12 – 13)  Kategorik ve sıralı değişkenlere birer örnek veriniz. (5)  Kategorik Değişken  {Erkek, Bayan}  Sıralı Değişken  {Kısa, Orta, Uzun} mesafe  Merkezi eğilim ölçülerinin isimlerini yazınız? Bir tanesini açıklayınız. (5)  Ortalama  Bir değişkenin beklenen değeri olarak ya da bir veri dizini temsil eden tek bir orta değer olarak düşünülebilir.  Medyan (Ortanca)  Veri setindeki sıralamada ortada bir yerde bulunan eleman  Mod  Veri setinde en çok tekrar eden eleman

Kısa Sınav Çözümleri (14 – 15)  A dizisinin ağırlıklı ortalamasını hesaplayınız? (10)  Veri ön-işleme sürecinin adımlarını yazınız. (5)  Veri Temizleme (Data Cleaning)  Veri Bütünleştirme (Data Integration)  Veri Dönüştürme (Data Transformation)  Veri Azaltma (Data Reduction)  Veriyi Kesikli Hale Getirme (Data Discretization) Dizi A 1,320,62,83,1340,9 Toplam Ağırlık Çarpım 10,4181,219,618,615129,9 104,7 Ağırlıklı Ortalama

Kısa Sınav Çözümleri (16 – 17)  Veri temizleme işleminin adımlarını yazınız. (5)  Veri Temizleme (Data Cleaning)  Eksik Değerleri Doldurma  Gürültülü Veri Düzleştirme (Smoothing)  Aykırı Değerleri Tespit Etme ve Ortadan Kaldırma  Tutarsızlıkları Giderme  Tekrarlı Verileri Silme  Veri düzleştirme için kullanılabilecek yöntemlerden 2 tanesini yazınız. (5)  Kova Yöntemi (Binning): Sıralanmış değerleri komşuluğundaki değerlerle değiştirerek daha makul veriler elde etme işlemi.  Kümeleme (Clustering): Aykırı değerleri tespit ederek ortadan kaldırma  Regresyon (Regression): Verileri bir fonksiyona uydurarak düzleştirme

Veri Ambarı (Data Warehouse)  Veri ambarı, çeşitli iç ve dış veri kaynaklarından elde edilen verilerin uygun dönüşümler yapılarak birleştirilmesiyle oluşturulan veri kaynağıdır.  Aktif veri kaynağı en son haliyle veri ambarına yansıtılır. Veri ambarına girmiş veriler üzerinde değişiklik yapılamaz.  Veri ambarı raporlama, analiz ve veri madenciliği amaçlı olarak kullanılır.  Veri ambarı, kritik kararlar için üst yöneticilere bilgi sağlayan karar destek sisteminin veri kaynağıdır.  Veri ambarı hedef yönelimlidir.  Veri ambarı belli bir konuyu analiz etmek üzere kullanılır.  ( Data Mart ) Satış verileri gibi.  Veri ambarı bütünleşiktir.  Veri ambarı farklı kaynakların birleştirilmesiyle elde edilir.  A ve B veri kaynaklarında belli bir ürünün öznitelikleri farklı olabilir, ancak veri ambarında bunlar tek olmalıdır.  Veri ambarının zaman boyutu vardır.  Tarihsel veriler veri ambarında tutulur.  Online sistemde müşterinin son adresi tutulurken, veri ambarında önceki adresleri de tutulur.  Veri ambarındaki veriler kalıcıdır. Veri ambarına giren bir veri değiştirilemez.

Veri Ambarı – Veri Kaynakları İç Veri Kaynakları  Kurumsal kaynak planlama sistemi  Envanter ve lojistik veritabanları  Çağrı merkezi verileri  Pazarlama ve kampanya verileri  Anketler  E-Ticaret sistemi ve Web sitesi erişim kayıtları  Kişisel veri kaynakları (Çalışanlar tarafından tutulan kayıtlar) Dış Veri Kaynakları  Siyasal, Ekonomik, Sosyal ve Demografik veriler  Rekabet ve pazar verileri  Coğrafi bilgi sistemleri  Diğer ulusal ve uluslararası istatistiki veriler (TÜİK)

Raporlama Veri Madenciliği OLAP Veri Ambarı – Geliştirme & Uygulama Süreçleri Veri Kaynakları ERP POS WEB Dış Veri … Seç Çıkar Dönüştür Birleştir Yükle Veri Ambarı Üretim Pazarlama … Finans API / Ara Yazılımlar ETL Erişim Uygulama

Meta Veri  Veri hakkında veri demektir.  Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu bir kütüktür.  Kullanımına göre ikiye ayrılır:  İşletme Açısından Meta Veri : Verinin ne anlama geldiğini izah eder. Bir sözlük gibi düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim? sorularının cevabıdır.  Teknik Açıdan Meta Veri : Teknik personel için gerekli bilgilerin bulunduğu kütüktür.  Biçim, uzunluk, tanım aralığı, veritabanı  Bir müşterinin tarih bazında aldığı ürün sayıları ve bu ürünlerin birim fiyatları tutuluyor olsun.  Bu veriler veri ambarına aktarılırken ürün adedi ve birim fiyatı çarpılarak aktarılsın.  Meta Veri : MH1 = Müşteri 1. Ay Hasılatı, Yöntem= Fiyat * Adet, Pazarlama Data Martı Sipariş Tarihi Ürün Adedi Birim Fiyat MüşteriMH1MH2MH3 Mus Mus Mus

ETL (Extraction – Transformation – Loading) İşlemleri  Çıkarım (Extraction): Bir veya daha fazla veri kaynağından verinin çıkarılması, alınması işlemidir.  Veri ambarının ilk oluşturulması sürecinde eski sistemlerdeki tüm veriler tümüyle veri ambarına aktarılır.  Aktarım işlemleri daha sonraki zamanlarda aktif sistemlerdeki verilerin güncellenmesine bağlı olarak yapılır.  Dönüşüm (Transformation): Çekilen verinin dönüştürülmesidir.  Dönüştürmedeki amaç, verilerin kalitesinin arttırılmasıdır. Tekrarlar, eksiklikler, tutarsızlıklar giderilir, normalleştirme ve birleştirme yapılır.  Yükleme (Loading): Verilerin fiziksel olarak veri ambarına yüklenmesi işlemidir.

OLAP – OLTP (Online Analytical Processing – Online Transactional Processing)  Veri ambarı ile sağlanan veri kaynağı temelinde karar vermeye yardımcı olacak şekilde yapılan veri analizi ve sorgulama işlemlerine OLAP denir.  OLAP analitik işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin tutulduğu veri tabanlarıdır.  OLAP sistemlerinin en önemli özelliği verilerin mutlaka zaman boyutu olmasıdır.  OLAP temelde OLTP sistemlerinden beslenerek organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi sağlanması amacıyla oluşturulmuş yapılardır.  OLTP tarzı veri depolama sistemleri genelde ilişkisel verileri tutmak için dizayn edilmiştir.  Günlük hayatta kullandığımız uygulamalarımızın veri tabanları çoğunlukla OLTP tarzı sistemlerdir.  Firmalar için günlük bütün işlem kayıtları ilişkisel tablolar halinde OLTP veri tabanlarında tutulur.  Örneğin bir firmanın yaptığı bütün satışlara ait detaylı bilgilerin yer aldığı sistemler OLTP, bu verilerin satış zamanı, yeri gibi özel boyutlar bazında gruplanarak özet olarak tutulduğu sistemler ise OLAP olarak adlandırılır.

OLAP – Temel Kavramlar  Küp : Herhangi bir OLAP veritabanı içinde kaydetme ve geri alma işlemleri için kullanılan temel veri yapısıdır.  Boyut : Bağımsız mantıksal bölümlerle veriyi organize etme yolunu sağlar.  Boyutu bir bilgi kategorisi gibi düşünmek uygundur.  Zaman, Yerleşim, Ürün  Eleman : Boyutun alt kategorisi olarak düşünülebilir.  Asya, Türkiye, İstanbul  Ölçü (Measure) : Analiz edilmek istenen verilerdir..  Satış sayısı, k â r, çalışan sayısı  Ölçü kendi başına anlam ifade etmeyen bir değerdir. Ancak boyutlarla kullanıldığında anlamlı hale gelir.  K â r = 300 | Asya 2015 K â rı 300  Öznitelik : Boyutun iç hiyerarşiye sahip olmayan bir özelliğidir. (Müşteri – Şehir)  Bu ilişki başka durumlarda da kullanılabilir. (Kıta – Ülke – Şehir, Şehir – Cinsiyet – Eğitim)

OLAP  Klasik raporlardan farklı olarak, OLAP ile kuruluşa ilişkin bilgiler hızlı ve etkileşimli bir şekilde incelenebilir.  OLAP, paylaşılan çok boyutlu bilginin hızlı analizi ( FASMI ) olarak da tanımlanır.  F ast (Hızlı)  A nalysis (Analiz)  S hared (Paylaşımlı)  M ultidimensional (Çok Boyutlu)  I nformation (Bilgi) Bir OLAP küpü üzerinde aşağıdaki işlemler yapılabilir:  Dice (Çevir)  Yer – Zaman  Ürün – Zaman  Slice (Dilimle)  Son 1 yılın verileri  Drill Up / Down (Birleştir / Detaylandır)  Yıl  Ay, Kıta  Ülke  Şehir

OLAP Tipleri  Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer kaplamaz.  İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek hacimli işlemlerin etkili kurulumu zordur.  Hibrid OLAP (HOLAP): Açık bir tanımı olmamakla birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük miktarda veri için özel depoları kullanabilir.

OLAP / OLTP Karşılaştırması KriterOLTPOLAP AmaçGünlük iş fonksiyonlarını yerine getirmek Karar vermeyi desteklemek ve iş ve yönetim sorgularını cevaplamak Veri kaynağı İşlem veri tabanı (etkinlik ve tutarlılığa dayanan normalize edilmiş veri deposu) Veri ambarı veya özel veri tabanı (doğruluk ve tamlığa dayanan normalize edilmemiş veri deposu) RaporlamaRutin, periyodik, odaklanılmış raporlar Özel amaçlı, çok boyutlu, geniş odaklı sorgular ve raporlar Kaynak ihtiyaçlarıOlağan ilişkisel veri tabanları Çok işlemcili, yüksek-kapasiteli, özel veri tabanları Sistem yönelimi Müşteri odaklıdır, işlemler ve sorgular IT personeli veya müşteriler tarafından yapılır. Konu odaklıdır ve karar vericiler, yöneticiler, analistler tarafından kullanılır. TasarımVarlık-ilişki modeliYıldız, Kar Tanesi veya Galaksi modeli

İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme Çok Boyutlu Veri Modeli – Veri Küpü

İki Boyutlu TabloÜç Boyutlu Tablo Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme Ankara Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme

Yıldız & Kar Tanesi Şemaları Yıldız ŞemasıKar Tanesi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte Fact Tablosu Ölçü Boyutlar Bağlı Boyut

Galaksi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte AktDers OgrID AktID Not Devam Aktivite AktID Tip  Yıldız Şeması her bir boyutu için geniş bir merkezi tablo ve ona bağlı küçük yardımcı tabloları (boyut tabloları) bulunduran şema tasarımıdır.  Kar Tanesi Şeması, yıldız şema modelinin bir çeşididir. Yıldız şemasına göre en önemli farklılık boyutların normalize değerlerden oluşmasıdır.  Galaksi Şeması, karmaşık uygulamalarda boyut tablolarını paylaşmak için birden çok gerçek tabloya gerek duyulan tasarımdır. Fact Tablosu

Birliktelik Kuralları (Association Rules)  Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya çıkarılması ve aralarındaki bağlantının büyüklüğünün tespit edilmesine yöneliktir.  Uygulama Alanları  Pazarlama  Tıbbi tanı  Bilimsel veri analizi  Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar sayesinde tahmin gerçekleştirilmesi  Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi ürünü almayı tercih ediyorlar.  Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar Sepet Analizi)  Satış ve Satın alma Tahminleri, Reyon organizasyonu, kampanyalar ve promosyonlar

Birliktelik Kuralları – Ölçüler  Birliktelik kuralları, veri seti içindeki kayıtlara ait birlikte bulunma ve/veya bulunmama sıklığı ve/veya olasılığı gibi çeşitli istatistiki ölçü değerlerini hesaplayıp bunlar arasında oransal bir ilişki kuran çeşitli algoritma ve yöntemler ile oluşturulur.  Birliktelik kuralları oluşturmada en çok kullanılan ölçüler Destek (Support) ve Güven (Confidence) ölçüleridir.  Destek, bir ilişkinin tüm veri seti içinde hangi oranda tekrarlandığını belirler.  Güven, X değişkeninin Y değişkeni ile birlikte bulunma olasılığını ortaya koyar.  Birliktelik kurallarının geçerli olabilmesi için minimum destek ve güven (eşik) değerlerini sağlaması gereklidir.  Birliktelik kurallarının oluşturulmasında destek ve güven dışında çok sayıda farklı istatistiki ölçüler de kullanılır. Bu ölçülerin çoğu destek ve güvene dayalı olarak hesaplanır.

Birliktelik Kurallarının Yorumlanması

Birliktelik Kuralları / Destek  Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi RamsesYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter

Birliktelik Kuralları / Güven  Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin Efendisi DVD sini almıştır. (Şartlı Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter

 Bütün Destek değerleri aynı olmasına rağmen güven değerleri farklılık gösterebilir. Birliktelik Kuralları / Örnek İşlemParçalar 1A, B 2A, C, D, E 3 B, C, D, F 4 A, B, C, D 5 A, B, C, F ParçaGüven 2/3 = 0,67 1/1 = 1,00 2/3 = 0,67 2/4 = 0,50 ParçaDestek 2/5 = 0,40

Birliktelik Kuralları / Kaldıraç (Lift) İşlem NoSütEkmekTereyağıÇayPeynir  X ve Y nin bağımsız olup olmadığını gösteren oransal destek değeri  Eğer iki değişken birbirinden bağımsız ise, bunlarla ilişkili bir kural çıkarılmaz.  Eğer Kaldıraç değeri 1’den büyük ise değişkenler birbirine bağımlıdır ve bunlarla ilişkili kural oluşturulabilir.

Birliktelik Kuralları / İnanç (Conviction) İşlem NoSütEkmekTereyağıÇayPeynir  X’ in Y ‘nin olmadığı durumdaki oransal frekans değeri  Eğer İnanç değeri 1 ise X ve Y değişkenleri birbirinden bağımsızdır.  Eğer İnanç değeri 1’den uzak ise ilişkili kural oluşturulabilir.

Birliktelik Kuralları / Diğer Ölçüler Difference of ConfidenceExample and Counterexample RateFisher's Exact TestGini IndexHyper-ConfidenceHyper-LiftImbalance RatioJaccard coefficientJ-MeasureKappaKlosgenKulczynskiGoodman-KruskalLaplace Corrected Confidence Least ContradictionLerman SimilarityLeverage, Piatetsky-Shapiro MeasureMutual InformationOdds Ratio Correlation CoefficientRalambrodrainy MeasureRelative Linkage DisequilibriumSebag-Schoenauer measureVarying Rates LiaisonYule's Q and Yule's Y Added Value (AV), Centered ConfidenceAll-confidence Casual ConfidenceCasual SupportCertainty FactorChi-Squared Cross-Support RatioCollective StrengthCosine CoverageDescriptive Confirmed Confidence

Birliktelik Kuralı Oluşturma Yöntemleri Brute-Force YöntemiApriori Yöntemi  Destek ve güven ölçülerini karşılaştırmak için eşik değerleri belirlenir.  Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile karşılaştırılan destek değerlerinin içinden eşik değerinden düşük olanlar çıkarılır.  Kalan ürünler ikişerli gruplanarak, grup destek sayıları hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek değerlerinden eşik değerinin altında kalanlar iptal edilir.  Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik değerlere uygun olduğu sürece işlemler sürdürülür.  Belirlenen ürün grubunun destek ölçülerine bakarak birliktelik kuralları türetilir ve bu kurallarının her biri için güven ölçüleri belirlenir.

Birliktelik Kuralı Oluşturma Yöntemleri ECLAT Yöntemi  Dikey yönlü veri seti üzerinde işleyen bir yapıya sahiptir.  İlişki kuralları çıkarmak için küme kesişimleri kullanılır.  Küçük boyutlu veri setleri için uygundur ve Apriori yöntemine göre daha az zaman gerektirir.  Veri setinin büyük olduğu durumlarda geçici kümeler için depolama ihtiyacı çok yüksek olur ve kesişim kümelerinin üretilmesi oldukça fazla zaman alır. FP-Growth Yöntemi  Her bir ürün için destek değeri hesaplanır. Eşik değerinin altında desteğe sahip ürünler çıkarılır.  Sık tekrar eden ürünler destek değerlerine göre büyükten küçüğe sıralanır.  Bir ağaç yapısı oluşturularak ürünler bu ağaç üzerinde yerleştirilir.  Veri setinin büyük olması durumunda çok yüksek bellek ihtiyacı oluşur.  Karmaşık veri yapısından dolayı çok fazla zamana gereksinim duyar.