DERS 4: Sayısal Verileri Anlamlandırma ve Anlatma Akın Şahin
Bu derste 3 konu başlığı işlenecektir: 1. Verilerin Sınıflandırılması ve Tablolama 2. Sınıflandırılmış Verilerin Grafik Gösterimi 3. Özet Göstergelerle Toplu Verileri Anlamlandırma (Basic Descriptives)
Veri (Data): Belirli bir amaç ya da amaçlar doğrultusunda sistematik olarak derlenmiş sayısal (nicel) bilgilerdir (enformasyon) (quantitative information) ◦ Bilgi (Information): İki türü vardır. 1. Sayısal (nicel) bilgi (quantitative information) = ölçüm verileri (measurement data) Nominal Ordinal Interval Ratio 2. Sayısal Olmayan (nitel) bilgi (qualitative information): Ölçüme dayalı olmayan (örn. Sistematik olmayan gözlem) verilere dayalı bilgi 1. Verilerin Sınıflandırılması ve Tablolama
Veri, “sözel ifadeler” kullanılarak açıklanabilir: “Öğrencilerin çoğu sınavda başarılı oldu” gibi. Diğer yöntemler ise: ◦ Tablolaştırma (frekans ve yüzde tabloları) ◦ Grafikleştirme ◦ İstatistik hesaplamalarla gösterge (orta nokta) değerleri bulma (basic descriptive statistics) 1. Verilerin Sınıflandırılması ve Tablolama
Sayısal veriler karşımıza çok farklı şekillerde çıkar. Dolayısıyla bu verileri anlamlı hale getirmek için bazı düzenleme ve/veya işlemlere ihtiyaç vardır. ◦ Düzenlenmiş istatistiksel verilerin oluşturduğu tabloya “frekans tablosu” adı verilir. 50 öğrencinin “100’lük not sisteminde aldıkları notlar 1. Verilerin Sınıflandırılması ve Tablolama
Öğrencilerin öğrenci numaralarına göre aldıkları notları gösteren bir tabloya “frekans tablosu” adı verilebilir mi? Bu tablodaki verilerden “hangi anlamı” çıkartabiliriz? 1. Verilerin Sınıflandırılması ve Tablolama
Notları sadece büyükten küçüğe sıralamakla tabloyu anlamlandırma gücümüz ve hızımız artmadı mı? En yüksek not 96, en düşük not ise Verilerin Sınıflandırılması ve Tablolama
Değişim aralığı, bir gözlemin değerleri içinde en büyük ve en küçük değer arasındaki farktır. X = gözlem değerleri için kullanılan matematiksel sembol Değişim Aralığı (Range) = X en büyük – X en küçük Örneğimizde; 96 – 27 = 69 Bu sonuç, elimizdeki dağılım hakkında biraz fikir verir. Kaç kişinin hangi notları aldığına dair bir bilgi vermez. Ancak, değişim aralığına bakarak yüksek bir sapma oranı olduğu bilgisine ulaşabiliriz. Bu fark 96 – 91 = 5 olsaydı, çok düşük bir sapma olduğunu söyleyebilirdik. Bu gibi sonuçlara 69 veya 5 sayılarına dayanarak değil, 100’lük not sisteminde olduğumuzu ve değişim aralığını bildiğimiz için ulaşabildik. 1. Verilerin Sınıflandırılması ve Tablolama
Öğrencilerin öğrenci numaralarına göre aldıkları notları gösteren bir tabloya “frekans tablosu” adı verilebilir mi? Bu tablodaki verilerden “hangi anlamı” çıkartabiliriz? 1. Verilerin Sınıflandırılması ve Tablolama
Sıralasak bile elimizde hala 50 tane rakamdan oluşan bir tablo bulunuyor. ◦ En yüksek notun 96, en düşük notun ise 27 olduğunu bilmemiz bize bütün hakkında ne kadar doğru bilgi verebilir? Şöyle bir tablo olabilir mi: En yüksek not 96, en düşük not ise Verilerin Sınıflandırılması ve Tablolama
Acaba sıraladığımız verileri daha az rakamla gösterebilir miyiz? ◦ Anahtar kelime: Frekans Frekans (frequency): Tekrarlanma, gözlenme sıklığı. Gözlemlerin hepsinin kaçar defa tekrarlandığını belirten tabloya frekans tablosu adı verilir. Elimizdeki tabloda çok sayıda gözlem var. Böyle durumlarda, bütünü hangi detayda görmek istediğimize dair bir karar almamız gerekiyor. 39 farklı not ve hangi notun kaç kişi tarafından alındığı bilgisi eklendi: 1. Verilerin Sınıflandırılması ve Tablolama
Gözlem sayısına bağlı olarak, verileri sıralamak ve frekans tabloları elimizdeki veri setini küçültse de bütünü anlamlandırmak hala çok kolay değil. ◦ Bir frekans tablosunu özetlemenin yollarından bir tanesi o gözlemleri gruplandırmaktır. ◦ Gruplandırdığımızda detayları göremeyebiliriz, ama bütün hakkında daha iyi bir fikir verir. ◦ Beşlik sistemde gruplandırdık. Bunlara sınıf aralığı adı verilir. Onluk sistemde de yapabilirdik. Sınıf aralıklarını nasıl seçeceğimiz, elimizdeki verilerin dışında bazı bilgilere de dayanabilir. Örneğin, geçme notu 50 ise, bunu baz alarak yapabiliriz. 1. Verilerin Sınıflandırılması ve Tablolama
Verileri gruplandırırken bazı şeyeri “doğru” kabul etmek / varsaymak gerekir (assumptions). Gruplandırma ile ilgili aşağıdaki 2 temel varsayım ileriki bölümlerde sıklıkla kullanılacaktır: ◦ Bir aralığa rastlayan tüm gözlemler o aralık içerisinde eşit dağılır. arasında not alanlar, buradaki gerçek aralık içinde eşit dağılmıştır. Gerçek aralık, 70.5 ile 71.5 arasına düşen ayırt etme noktalarıdır. Örneğin 3 gözlem varsa bu aralıkta, bunların 71, 73 ve 75 değerini aldıkları varsayılır. ◦ Aralığa rastlayan ölçümlerin tümü aralığın orta noktasına yığılır. arasında not alan 8 kişi de 73 notu almıştır. Çünkü gruplandırılmış bir tabloda gerçek notları bilmiyoruz. Ortalama alırken, herkesin 73 aldığını kabul etmek zorundayız. 1. Verilerin Sınıflandırılması ve Tablolama
Gözlenen frekansların toplam gözlem sayısına oranına yüzde adı verilir. Her bir gözlem aralığının yüzdesi veya kümüle yüzde şeklinde gösterim yapılabilir. Çok yüksek sayıda nüfuslar olduğunda, yüzde kullanılması elimizdeki tabloyu daha anlaşılır kılar. 1. Verilerin Sınıflandırılması ve Tablolama
Örneğin, 700 kişinin katıldığı bir araştırma yapıyoruz yaş arasındaki bir evreni temsil etmek üzere seçilmiş bir örneklem var elimizde. ◦ Evren (Population): Toplam nüfus. Ölçmek istediğimiz konunun kapsadığı kitlenin tamamıdır. Bunun hepsini sayarsak buna nüfus sayımı denir (census). Araştırmayı ilgilendiren nüfus sayısına o araştırmanın evreni denir. ◦ Örneklem (Sample): Toplam nüfusun içerisinden, o nüfusun özelliklerini en iyi yansıtacak şekilde seçilmiş örnek bir kitledir. ◦ Araştırmanın Yaş ve Sosyo-Ekonomik Statü (SES) dağılımları aşağıda görülebilir: YAŞN% TOTAL SESN% AB33948 C TOTAL Verilerin Sınıflandırılması ve Tablolama
Evren, büyük N harfi ile ifade edilir. Küçük n ise örneklemi ifade eder. Örneğin, Türkiye nüfusunun %26’sı yaş arasında ise, bizim 700 kişilik örneklemimizde de bu orana yakın bir yüzde olması gerekir. YAŞN% TOTAL SESN% AB33948 C TOTAL Verilerin Sınıflandırılması ve Tablolama
Verilerin gruplandırılmasında dikkat edilmesi gereken bir diğer nokta da grupların karşılıklı ayrık (mutually exclusive) olma zorunluluğudur. ◦ Örneğimizdeki 18-24, gibi gruplar karşılıklı ayrıktır. Fakat bazen gazetelerde benzer örneklerin 18-25, 25-30, gibi verildiğine rastlayabiliriz. Burada 25 yaşında olan bir kişi hangi grupta yer almalı? İki grupta da yer alabilir. Demek ki, gruplandırmayı yanlış yapıyoruz. ◦ Gruplandırılmış bir frekans tablosunda her gözlem sadece 1 tane grupta yer alabilir ve 1 kez sayılmalıdır. Karşılıklı ayrık olmasından kastedilen budur.
Daha önceki tablomuzun bar grafik (histogram) ile frekanslarının gösterimi
Yüzde dağılımının gösterimi
Kesişim ve bileşim kümeleri ile bir reklam kampanyasının farklı mecralarda bilinirlik oranları, birbirinin üzerine eklenerek aşağıda gösterilmiştir %
... + OOH 41% TV 54% 61%...+ print 65%...+ CLP 69%...+ Radio 70%..+Indoor
Zaman içinde ölçümlenen değişkenin gösterdiği değişim (trend) Volume: Kullanım miktarı (kaç ton olduğu) Penetrasyon: Pazardaki yaygınlık (kaç hanede kullanıldığı)
Bir bütünün (100%) parçalarını göstermek Advertisement Recognition Q12a. Have you seen the following advertisement?
Q13a. Which BRAND was this ad for?