Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler
Merkezi Eğilim Ölçüleri
Merkezi eğilim ölçüsü, bir veri setindeki merkezi, yada tipik, tek bir değeri ifade eder. Nicel veriler için, reel sayı çizgisindeki yerini belirtir. Verinin merkezi, veri setinin ortalama değeridir. Aritmetik ortalama, medyan, mod, merkezi eğilim ölçüleridir.
Ortalamanın Hesaplanması En sık kullanılan merkezi eğilim ölçüsüdür. Veriler toplanır ve veri setindeki gözlem sayısına bölünür. Aritmetik ortalama, veri setinde olmayan bir değer olabilir.
Notasyon Popülasyon Örneklem Büyüklük N n A. Ortalama
Örnek 1 10 yıllık bir dönemde AAA hisse senedinin yıllık ortalama getirileri sırasıyla şöyledir: %14; %17,3; %29; %-11,1; %-4,5; %3,7; %13,3; %9,5; %6,1; %10 x 14 17,3 29 (-11,1) (-4,5) 3,7 13,3 9,5 6,1 10 10 87,3 8,73 10
Ağırlıklı Ortalama Veri setinde farklı relatif öneme sahip gözlemlerin olması durumunda kullanılır. Ağırlıklı Ortalama= Toplam(xi*wi) / Toplam(wi), xi , veri setindeki değerler wi , ağırlıklar, i , 1 den toplam gözlem sayısına kadar olan değerler
Ağırlıklı Ortalama (Örnek) Kategori Ağırlık Puan Vize Sınavı 30% 80 Final Sınavı 75 Ödevler 90 Sunumlar 10% 70 Ağırlıklı Ortalama = (80*0.3 + 75*0.3 + 90*0.3 + 70*0.1) / (0.3 + 0.3+ 0.3 + 0.1)=(24 + 22.5 + 27 + 7) / 1= 80.5
Örnek 2: Olasılık Satışlar Güzel hava 30% $10,000 Orta derecede güzel hava 50% $8,000 Kötü hava 19% $2,000 Kasırga 1% $0 Tahmin edilen satışları hesaplayınız…
Medyanın Hesaplanması Medyan, sıralanmış bir veri setinin ortasındaki değerdir. Önce veri setindeki gözlemler sıralanır. Sonra, n tek sayı ise, medyan ortadaki sayıdır. n çift sayı ise, medyan ortadaki iki değerin aritmetik ortalamasıdır. Medyan, veri setinde olmayan bir değer olabilir.
Örnek 2 Aşağıdaki veri setlerinin medyan değerlerini hesaplayınız. 15, 16, 11, 22, 19, 10, 17, 22 2.6, 3.3, 5.0, 1.8, 0.7, 2.2, 4.1, 6.1, 6.7
Neden Medyan? Amaç Aykırı değerlerin yaratabileceği tehlikeleri bertaraf etmek. Örnek: • 0, 2,1,2,0,1,2,0,”7” • Ar. Ort. (0,2,1,2,0,1,2,0) = 1 • Ar. Ort. (0,2,1,2,0,1,2,0,”7”) = 1.6 • Artış = (1.6-1) / 1 = 60% • Medyan (0,2,1,2,0,1,2,0) = (0,0,0,1,1,2,2,2) = 1 • Medyan (0,2,1,2,0,1,2,0,7) = (0,0,0,1,1,2,2,2,7) = 1
Modun Hesaplanması Veri setinde en sık gözlemlenen değer(ler)dir. Bir veri setinde bir tane, iki tane yada birçok mod değeri bulunabilir. Veri setindeki tüm değerler bir kere meydana geldiyse, yada her bir değer aynı sayıda tekrarlandıysa, o veri setinde mod yoktur. Mod daima veri setinde yer alan bir değerdir.
Örnek 3 Aşağıdaki veri setleri için mod değerlerini hesaplayınız. (b) 51, 77, 54, 51, 68, 70, 54, 65, 51 (c) 2, 2, 7, 7, 0, 0
Soru: Hangi eğilim ölçüsü en iyisidir? Cevap: Veriye göre değişir. Nitel veriler için mod kullanılmalıdır. Yani en sık gözlemlenen yada yaygın olan değer. Nicel veriler için, veri seti aykırı değer(ler) içermedikçe, aritmetik ortalama kullanılmalıdır. Aykırı değer(ler) bulunan veri setlerinde medyan kullanılmalıdır..
Örnek: Aşağıdaki veri setleri için en iyi merkezi eğilim ölçüsünü seçiniz. KMÜ öğrencilerinin ortalama beden ölçüsü (XS, S, M, L, XL, XXL). Futbol takımı oyuncularının aldıkları ortalama yıllık gelir. Belli bir muhitteki benzer evlerin fiyat ortalaması.
Merkezi Dağılım Ölçüleri
Merkezi eğilim ölçüleri verilerin sayı eksenindeki konumunu belirtir. Merkezi dağılım ölçüleri verilerin ne kadar yayıldıkları hakkında ipucu verir. Açıklık, varyans ve standart sapma en yaygın merkezi dağılım ölçüleridir.
Açıklığın Hesaplanması En basit dağılım ölçüsü açıklıktır. Açıklık Maksimum değer Minimum değer Aşağıdaki veri setlerinin açıklıklarını hesaplayınız: a. 12 8 9 3 Çözüm: 12 3 5 10 11 10 b. 3 3 12 3 Çözüm: 12 3 3 3 3 3
Ortalamadan Sapma Veri setindeki her bir değer ortalamadan ne kadar değişiklik göstermektedir? Ortalamadan sapma = Sapmalar toplamı her zaman sıfırdır (pozitif sapmalar negatif sapmaları götürür) Bu etki nasıl ortadan kaldırılır? Varyans
Varyansın Hesaplanması Varyans, ortalamadan sapmaların karelerinin ortalamasıdır. Formül: Örnek varyansı Popülasyon varyansı
Örnek: Aşağıdaki veri setinin varyansını hesaplayınız: 4.2 5.3 2.9 6.7 1.5 Çözüm: Önce verinin ortalamasını hesaplayın. Ortalama = 4.12. Örnek Varyansı xi 4.2 4.2 – 4.12 = 0.08 0.0064 5.3 5.3 – 4.12 = 1.18 1.3924 2.9 2.9 – 4.12 = –1.22 1.4884 6.7 6.7 – 4.12 = 2.58 6.6564 1.5 1.5 – 4.12 = –2.62 6.8644
Çözüm (devamı): Örnek varyansı ise,
Standart Sapmanın Hesaplanması Standart sapma her bir veri değerinin ortalamadan, ortalama olarak ne kadar uzaklıkta olduğunu ifade eder. Formula: Örnek standart sapması Popülasyon standart sapması
Örnek: Örnek verisinin standart sapmasını hesaplayınız. 5,8,7,6,9 Önce ortalama = Toplam (5,8,7,6,9) / 5 = 35 / 5 = 7 Xi 5 5-7=-2 4 8 8-7=1 1 7 7-7=0 6 6-7=-1 1 9 9-7=2 4 s2=Toplam (4+1+0+1+4) / (5-1) = 10 / 4 = 2.5 s = 1.58
Kısayol: Bir önceki veri seti: 5,8,7,6,9 – Toplam (x) = 5+8+7+6+9 = 35 = 25+64+49+36+81 = 255 – [Toplam (x)]2 = (35)2=1225 – s2 = [255-1225/5] / (5-1) = (255-245) / 4 = 10/4 = 2.5 – s = 1.58
Örnek: Aşağıdaki veri seti için açıklık, varyans ve standart sapmayı hesaplayınız. 1,2,3,2,3,4,5,35
Örnek: Aşağıdaki veri seti için açıklık, varyans ve standart sapmayı hesaplayınız. 15, 12, 13, 14, 15, 17, 18, 11, 12, 15
Örnek: 20 Karamanlı girişimcinin yaşları – 28, 39, 43, 53, 35, 32, 34, 29, 33, 31, 32, 31, 25, 22, 30, 29, 41, 36, 23, 47
Değişim Katsayısı İki veya daha fazla sayıdaki veri setinin göreli dağılımı veya yayılımını gösterir. Aşağıdaki veri setlerinden hangisinin daha büyük standart sapması vardır? Değişim katsayısı = (s / ) . 100%
Değişim Katsayısı Aşağıdaki veri setlerinden hangisinin daha büyük standart sapması vardır? Veri seti A Ort. = 35 cm.; St. Sap. = 6 cm. Veri seti B Ort. = $892,000; St. Sap. = $14,546.81
Değişim Katsayısı Veri seti A – Değişim katsayısı Veri seti B – Değişim katsayısı
Gruplandırılmış Veri Setleri İçin Standart Sapma ve Varyans Final Notları Not Frekans (f) n = Örnek sayısı f = Frekans x = Orta nokta
Gruplandırılmış Veri Setleri İçin Standart Sapma ve Varyans Not Frekans (f) Orta nokta (x) f . x f . x2
Ampirik Kuralı Veri seti yaklaşık olarak çan şeklinde olduğunda kullanılır. Bir setteki verilerin yaklaşık olarak %68’i 1 standart sapma aralığında ( %95’i 2 standart sapma aralığında ( - 2s), - s), %99.7’si ise 3 standart sapma aralığında ( - 3s)yer almaktadır.
Örnek (Ampirik Kuralının Kullanılması): Bir hastanede doğan bebeklerin ortalama ağırlıkları 3325 gram ve standart sapmaları 571 gramdır. Bebeklerin yüzde kaçının ağırlıkları 2183 ve 4467 gram aralığındadır? Çözüm: Veriler çan eğrisi özelliği gösterdiği için ampirik kuralı kullanılabilir. Öncelikle bu değerlerin ortalamadan kaç standart sapma uzak olduğu hesaplanır. 2183 – 3325 = – 1142/571= –2 and 4467 – 3325 = 1142/571= 2 Veriler, ortalamanın 2 standart sapma üstünde ve altında yer almaktadır. Bundan dolayı, bebeklerin %95’inin ağırlıkları 2183 ve 4467 gram aralığındadır.
Örnek (Ampirik Kuralının Kullanılması): KMÜ’den mezun olanların yıllık gelirlerinin çan eğrisi şeklinde dağıldığını, ortalamanın 25.400 TL ve standart sapmanın ise 1.300 TL olduğunu varsayalım. Mezun olanların yüzde kaçının yıllık gelirleri 24.100 TL ve 26.700 TL arasındadır?
Chebyshev Kuralı Ampirik kuralı kullanılamadığı durumlarda, Chebyshev Kuralı minimum düzeyde bir tahminleme yapılmasına olanak tanımaktadır Popülasyon üyelerinin en az yüzde ( ) lik bölümü, K > 1 olması koşulu ile ortalamanın K standart sapması etrafında toplanır. Buna göre, popülasyon üyelerinin lik bir bölümü ortalamanın 2 standart sapma luk bir bölümü ise ortalamanın 3 standart sapma etrafında yer almaktadır.
Örnek (Chebyshev Kuralı): Bir ilçede ortalama yıllık gelir 34.200 TL standart sapması ise 2.200 TL’dir. İlçe sakinlerinin yüzde kaçının 29.800 ve 38.600 TL arasında yıllık geliri vardır?
Relatif Pozisyon Ölçüleri
Relatif Pozisyon Ölçüleri Relatif pozisyon ölçüleri, verilerin sıralanmış bir setteki pozisyonunu ifade etmektedir. En sık karşılaşılan relatif pozisyon ölçüleri çeyrekler, yüzdelikler ve standart skorlardır.
Çeyrekler Çeyrekler bir veri setini 4 eşit parçaya böler. Bir veri setindeki çeyrekleri bulmak için, Veriyi ortadan ikiye bölmek için medyan değerini kullan (Q2). Veri sayısı tek ise, medyanı üst ve alt yarımlar için kullan. Veri sayısı çift ise, medyanı iki yarımda da kullanma. (2) Alt grubun medyanı Q1, ve üst grubun medyanı Q3 dür.
Örnek (Çeyrekler): 2, 3, 5, 7, 8, 9, 10, 12, 15 Q2 Q3 Q1
Örnek 2 (Çeyrekler): 10, 12, 14, 15, 14, 16, 17, 18, 10, 19, 17, 17
Örnek 3 (Çeyrekler): Aşağıdaki veri setinin Q1, Q2, ve Q3 değerlerini bulunuz. 11 14 15 16 17 19 22 25 26 27 31 34 36
5’li Sayısal Değerler Özeti 5’li sayısal değerler özeti aşağıdaki değerleri içermektedir: Minimum Q1 Medyan Q3 Maksimum Box grafiği, 5’li sayısal değerler özetini temsil eden bir grafiktir.
Box Grafiğinin Hazırlanması 8 9 10 2 5 3 7 12 15 Verileri sıraya diz. 2 3 5 7 8 9 10 12 15 Minimum Q1 Q2 Q3 Maksimum 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Yüzdelikler Yüzdelikler veri setinin 100 eşit parçaya böler. p’inci yüzdelik dilimdeki değerler, verilerin %p veya daha azını kapsamaktadır. Veri setindeki değerlerin yüzde kaçı belli bir değerin altında yer almaktadır? Formül: p l n 100 l verinin pozisyonu n örnek sayısı p tam sayı olarak yüzdelik değeri
Örnek (Yüzdelikler): 30. Yüzdelik dilimde hangi değer vardır? 11 14 15 16 17 19 22 25 26 27 31 34 36 Çözüm: Önce verileri sıraya diz. 11 11 14 15 16 16 17 19 22 25 26 27 31 34 36 Örnek sayısı: n 15. 30. Yüzdelik dilim: p 30. l = 4.5 olduğundan dolayı 5’e yuvarlanır ve 5. sıradaki değer, yani 30. yüzdelik dilimdeki değer 16’dır.
Veri setindeki bir değerin yüzdelik diliminin bulunması P=x*100/n P = tam sayı olarak yüzdelik dilim x = belirli bir değerin altındaki değer sayısı n = örnek sayısı En lezzetli tava yarışmasında 13 katılımcının skorları aşağıdaki gibidir: – 5,5,5,6,6,6,7,7,7,8,9,9,10 Soru: Ali Usta’nın skoru 9 ise, hangi yüzdelik dilimde yer almaktadır? Cevap – Yüzdelik = 10 * 100 / 13 = 77. yüzdelik dilim.
Standart Skor (z-değeri) Standart skor, yada z-değeri, veri setinde bulunan bir değerin ortalamadaki pozisyonu hakkında bilgi vermektedir. Formül: Popülasyon ortalaması Örnek ortalaması Popülasyon standart sapması Örnek standart sapması
Örnek Vize sınavındaki ortalamanın 80.1 ve standart sapmanın 6.3 olduğunu varsayalım. Ayşe 92.5 aldıysa standart skoru nedir? Çözüm: 80.1 6.3 x 92.5 z 92.5 80.1 1.97 6.3
Örnek: Sınavda, sınıfa göre kim daha başarılı oldu? Ahmet 87 aldı. x 80 s 5 Aslı 82 aldı. x 73 s 6