Hafta 02: Verinin Görsel Analizi (Yrd.Doç.Dr. Levent AKSOY) İstatistik eİKT-203 Hafta 02: Verinin Görsel Analizi (Yrd.Doç.Dr. Levent AKSOY)
Konular Verinin görsel özetlenmesi ve histogram. Ortalama, standart sapma ve diğer tanımlayıcı istatistikler. Kombinasyon, Permutasyon ve Olasılık. Olasılık kuramı. Kesikli rassal değişkenler. Sürekli rassal değişkenler. Normal dağılım. Örneklem dağılımı eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Frekans Dağılım Tablosu Okula geç gelme sebepleri Sebep Mazeret Sayısı Yüzdesi Trafik sıkışıklığı 45 15 Ailevi sebepler 39 13 Otobüsün gecikmesi 57 19 Uyuya kalma 111 37 Hava durumu 33 11 Acil durum 15 5 Toplam: 300 100 (Kategorik değişkenler) eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Frekans Dağılım Grafiği Okula Geç Gelme Sebepleri eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Pasta Grafik eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Çapraz Çizelge İki kategorik ve sıralı (ordinal) değişkenin bütün kombinasyonlarını sıralayan tanlolara Çapraz Çizelge adı verilir. Eğer birinci değişken için r kategori (satır) ve ikinci değişken için de c kategori (sütun) bulunuyorsa, tabloya r x c boyutlarında çapraz çizelge denir. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Çapraz Çizelge Hisse Senedi 46 55 27 128 Tahvil 32 44 19 95 Yatırımcıların tercihlerini gösteren (1.000 TL olarak) 3 x 3 lük Çapraz Çizelge Yatırım Aracı 1. Yatırımcı 2. Yatırımcı 3. Yatırımcı Toplam (Kategori) Hisse Senedi 46 55 27 128 Tahvil 32 44 19 95 Nakit 15 20 33 68 Toplam 93 119 79 291 eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Çok Değişkenli Grafikler Kümelenmiş Çubuk Grafik Yatırım Tercihleri eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Çok Değişkenli Grafikler Yığılmış Sütun Grafik Yatırım Tercihleri eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Çok Değişkenli Grafikler Kümelenmiş Sütun Grafik Yatırım Tercihleri eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Pareto Diyagramı Kategorik veriyi tanımlamak için kullanılır. Kategorileri frekansları azalacak şekilde sıralanmış bir çubuk grafik ve birikimli (kümülatif) frekansları gösteren bir çizgi grafikten oluşur. “önemli azınlık” ile “sıradan çoğunluk” arasındaki farkı göstermek için kullanılır. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
İşletim Sistemi Kaynaklı Pareto Diyagramı Örnek: 400 Çağrı sebeplerine göre ayrılmıştır: Hataların Kaynağı Çağrı Sayısı Donanım Hatası 34 Kullanıcı Hatası 223 Yazılım Hatası 25 İşletim Sistemi Kaynaklı 78 Çevre Birimi Kaynaklı 19 Network Kaynaklı 21 Total 400 eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
İşletim Sistemi Kaynaklı Pareto Diyagramı 1. Adım: Hataların kaynağını azalan çağrı sayılarına göre sırala 2. Adım: Her kategorinin toplama göre %’sini hesapla Hataların Kaynağı Çağrı Sayısı Toplamın %'si Kullanıcı Hatası 223 55,75 İşletim Sistemi Kaynaklı 78 19,50 Donanım Hatası 34 8,50 Yazılım Hatası 25 6,25 Network Kaynaklı 21 5,25 Çevre Birimi Kaynaklı 19 4,75 Total 400 100,00 eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Pareto Diyagramı Pareto Diyagramı Örneği eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Zaman Serisi Diyagramı Bir değişkenin zaman içerisindeki değerlerini göstermek için Çizgi Grafik şeklinde zaman serisi diyagramı kullanılır. Yatay eksen zamanı gösterir. İlgili değişkenler de dikey eksende ölçülür. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Zaman Serisi Diyagramı Yıllara Göre Ziyaretçi Sayısı 1000 Ziyaretçi eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Sayısal Verinin Gösterimi Neden Frekans Dağılımı Kullanılır? Frekans dağılımı veriyi özetlemenin bir yoludur. Dağılım ham veriyi daha kullanışlı bir forma sıkıştırır. Verinin hızlı görsel yorumlanmasını sağlar. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Her sınıf gruplandırması eşit aralıktadır Her aralığın genişliği şu formülle belirlenir: w = (en büyük gözlem – en küçük gözlem) / istenen aralık sayısı Gözlem sayısına göre en az 5 en çok 15-20 aralık oluşturun. Aralıklar örtüşmez veya boşluk bırakmazlar. Aralık genişliğini istenen uç noktalarına ulaşmak için yuvarlayın. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Örnek: Kışın 20 günün sıcaklıkları (Fahrenheit cinsinden) ölçülmüş ve aşağıdaki veriler toplanmıştır. 24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27 eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Ham veriyi artan şekilde sıralayın: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Aralığı hesaplayın: 58 - 12 = 46 Sınıfların (aralıkların) sayısını belirleyin: 5 (genellikle 5 – 15 arası) Aralık genişliğini hesaplayın: 10 (46/5=9,2 ve yuvarlayın) Aralıkların sınırlarını belirleyin: 10 – 20 arası (10 dahil 20 değil), 20 – 30 arası, . . . , 60 – 70 arası Gözlemleri sayın ve sınıfların frekanslarını bulun. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Aralık Frekans Yüzde 10 – 20 arası 3 .15 15 Göreli Aralık Aralık Frekans Yüzde 10 – 20 arası 3 .15 15 20 – 30 arası 6 .30 30 30 – 40 arası 5 .25 25 40 – 50 arası 4 .20 20 50 – 60 arası 2 .10 10 Toplam 20 1.00 100 eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
(Çubuklar arası boşluk yok) Histogram Aralık Frekans 10 – 20 arası 3 20 – 30 arası 6 30 – 40 arası 5 40 – 50 arası 4 50 – 60 arası 2 (Çubuklar arası boşluk yok) 0 10 20 30 40 50 60 70 Sıcaklıklar (derece Fahrenheit) eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Kaç aralık kullanılmalıdır? Çok (Dar sınıf aralıkları) Aralarında boş sınıfların olduğu düzensiz görüntü verebilir. Sınıflar arasındaki frekans dağılımını iyi anlatamaz. Az (Geniş sınıf aralıkları) Değişimi çok sıkıştırıp mozaiklenmiş görüntü oluşturabilir. Önemli değişim şekillerini silebilir. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Aralıkların uç noktaları nasıl belirlenmelidir? Görsellik ve kullanıcı beğenisine bağlı olması nedeniyle kesin bir cevabı yoktur. Deneme-yanılma yoluyla belirlenir. Amaç "güzel," «göze hoş gözüken" dağılımlar ortaya çıkartmaktır. Nihayetinde verideki değişimleri gösterebilmelidir. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Dal-Yaprak Diyagramı Bir veri kümesindeki dağılım detaylarını kolayca ortaya seren bir yöntemdir. YÖNTEM: Sıralanmış veri dizisini öncül (dal) ve takip eden (yapraklar) basamaklara ayırmaktır. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Dal-Yaprak Diyagramı Sıralı Veri: 21 şu şeklilde 38 bu şekilde 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 Onluk basamaklarını DAL olarak kullanın: Dal Yaprak 2 1 3 8 21 şu şeklilde 38 bu şekilde gösterilir eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Histogram Sıralı Veri: 2 1 4 4 6 7 7 3 0 2 8 4 1 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 Tamamlanmış Dal-Yaprak diyagramı: Dal Yapraklar 2 1 4 4 6 7 7 3 0 2 8 4 1 eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi
Hatalar Yüksekliği ayarlanmamış eşit olmayan veri aralıkları. Düşey ekseni sıkıştırmak ya da çarpıtmak. Sıfır noktasının belirtilmemesi. Verilmek istenenden farklı bir mesajın ortaya çıkması. eİKT 203 – İstatistik Hafta: 02 – Verinin Görsel Analizi