Yrd. Doç. Dr. Hamit ACEMOĞLU Numerik Veri Tek Grup Yrd. Doç. Dr. Hamit ACEMOĞLU
Amaç Bu konu sonunda öğrencilerin tek gruptan elde edilen numerik verilerin toplum ortalamasıyla karşılaştırılmasında kullanılan tek örnekleme t-testi (one-sample t-test) ve işaret testi (sign test) hakkında bilgi sahibi olması amaçlanmıştır.
Öğrenim Hedefleri Hedefler: Bu konu sonunda öğrencilerin aşağıdaki hedeflere ulaşması beklenmektedir: Tek örneklemde t-testi varsayımlarını açıklayabilmek SPSS ile tek örneklemde t-testi yapabilmek İşaret testinin kullanım yerini tartışabilmek İşaret testinin nasıl yapılacağını açıklayabilmek
Mahallemizdeki bireylerin boylarını ölçtüğümüzü düşünelim [mahalle=tek grup; boy=numerik veri]. Sonuçlarımızı il geneli ile karşılaştırmak istiyoruz. Daha önceki araştırmalardan ilimizdeki bireylerin boy ortalamasının 161,5 cm olduğunu biliyoruz. Bu karşılaştırmayı tek örneklemde t-testi (one-sample t-test) ile yapabiliriz. Tek örneklemde t-testini yapabilmemiz için verilerimizin bazı varsayımları karşılaması gerekir. Bu varsayımları karşılayamamız halinde alternatifimiz nonparametrik bir test olan işaret testi olabilir.
Tek örneklemde t-testi varsayımları Değişkenimizin toplumda normal dağılması ve Yeterli bir örnekleme sahip olmamızdır. Toplumun varyansını (σ) bilmememiz durumunda verilerimizin dağılımı teorik dağılımlardan t dağılımına uyacaktır. Eğer toplumun varyansını bilirsek veya örneklem sayımız çok yüksekse bu durumda normal dağılım bilgilerine dayanan z testini kullanabiliriz. Mahallemizdeki bireylerin boylarını ölçtüğümüzü düşünelim [mahalle=tek grup; boy=numerik veri]. Sonuçlarımızı il geneli ile karşılaştırmak istiyoruz. Daha önceki araştırmalardan ilimizdeki bireylerin boy ortalamasının 161,5 cm olduğunu biliyoruz. Bu karşılaştırmayı tek örneklemde t-testi (one-sample t-test) ile yapabiliriz. Tek örneklemde t-testini yapabilmemiz için verilerimizin bazı varsayımları karşılaması gerekir. Bu varsayımları karşılayamamız halinde alternatifimiz nonparametrik bir test olan işaret testi olabilir.
Ancak, her iki durumda da sonuçlar hemen hemen aynı çıkacaktır.
Örnek uygulama Diyabet.sav veri setini kullanarak bir uygulama yapalım: Öncelikle tek örneklemde t-testi varsayımlarını karşılayıp karşılamadığımızı test etmemiz gerekecek: Boy değişkeni toplumda normal dağılır. Örneklemimizde de boy değişkeninin histogram grafiğine baktığımızda normal dağılıma yakın olduğunu görüyoruz:
Örneklem sayımız da 406 olup yeterlidir. Skewness değerine de bakılacak olursa normal dağıldığı görülecektir:
Sıfır hipotezi (H0) ve alternatif hipotezin (H1) tanımlanması: Hipotez testleri için 5 basamaklı genel yaklaşımımızı uygulayacak olursak: Sıfır hipotezi (H0) ve alternatif hipotezin (H1) tanımlanması: H0: İlimizdeki bireylerin boy ortalaması ile mahallemizdeki bireylerin boy ortalaması arasında fark yoktur. H1: İlimizdeki bireylerin boy ortalaması ile mahallemizdeki bireylerin boy ortalaması farklıdır. Verilerin toplanması: Verilerimizi topladık ve SPSS’e girdik. Diyabet.sav verisetinde “boy” değişkenini oluşturduk.
İlgili sıfır hipotezi için test istatistiğinin hesaplanması: Tek örneklemde t testi için kullanacağımız formül: X= örneklemimizin aritmetik ortalaması. 160,0 µ1 = toplum ortalaması 161,5 s = örneklemimizin standart sapması 9,2 n = örmeklem sayısı 406 Buradan t = -3,285 olarak hesaplanır.
Test istatistiğinden elde edilen değerin bilinen bir olasılık dağılımı ile karşılaştırılması: Sonucumuzu t tablosu ile karşılaştıracak olursak t = 3,285 ve serbestlik derecesi = 405 için p değerinin 0,01’den küçük olduğunu görürüz.
P değerinin ve sonuçların yorumlanması P değeri 0,05’ten küçük olduğu için H0 hipotezini reddederiz. Dolayısıyla mahallemizin insanları ile il genelindeki bireyler arasında boy açısından istatistiksel olarak anlamlı bir fark vardır. Mahallemizdeki bireyler daha kısadır. Toplum ortalamasının %95 güven aralığını da hesaplayacak olursak: %95 GA = x ± t0,05 x (s/√n) = 160 ± 3,2 x 0,45 %95 GA: [158,56 – 161,44] Bulduğumuz güven aralığı toplum ortalamasını (161,5) içermediğinden aradaki farkın anlamlı olduğunu söyleyebiliriz.
SPSS ile yapacak olursak: Analyze>Compare Means >One-Sample T Test>[“boy” değişkenini “Test Variable(s)” alanına geçirelim]> “Test Value” kısmına 161,5 yazalım>ok %95 güven aralığına da baktığımızda iki ortalama arasındaki farkın -2,3 ile -0,58 arasında olabileceğini görüyoruz. Sonuçta fark %95 olasılıkla hep eksidir. Aradaki farkın sıfır veya artı olamayacağından istatistiksel olarak mahallemizdeki bireylerin il genelindeki bireylerden daha kısa olduğunu söyleyebiliriz.
Varsayımlar karşılanamıyorsa Tek örneklemde t-testi varsayımlarının karşılanamadığı durumlarda ya verilerimizin varsayımlarını karşılamasını sağlamalıyız (normal dağılıma uydurmak için veri dönüştürme veya örneklem sayısını artırma) ya da bu parametrik testin nonparametrik versiyonundan yani işaret testinden yararlanmamız gerekir. Bu noktada tek örneklemde t testinin normallikten küçük sapmalara dayanıklı olduğunu belirtmeliyiz.
İşaret testi İşaret testi, dağılımımızın ortancasını esas alarak hesaplanır. Eğer dağılımımızın toplum dağılımından farklı değilse o zaman verilerimizin yarısı toplum ortalamasının üstünde, yarısı da altında olmalıdır. İşaret testi, değişkenin gerçek değerlerini dikkate almayıp sadece toplum ortalamasından büyük mü küçük mü olduklarına baktığından zayıf ve basit bir testtir. Yukarıdaki örneğe benzer bir çalışma yaptığımızı ama daha küçük bir örneklemden veri topladığımızı düşünelim:
Sıfır hipotezi (H0) ve alternatif hipotezin (H1) tanımlanması H0: İlimizdeki bireylerin boy ortalaması ile örneklemimizdeki bireylerin boy ortalaması arasında fark yoktur. H1: İlimizdeki bireylerin boy ortalaması ile örneklemimizdeki bireylerin boy ortalaması farklıdır.
Verilerin toplanması Birey no Boy (cm) 1 151,0 15 176,0 2 170,0 16 169,0 3 17 167,0 4 164,0 18 160,0 5 165,0 19 173,0 6 20 172,0 7 162,0 21 8 22 158,0 9 161,0 23 10 . 24 11 25 12 26 13 157,0 27 174,0 14 28
İlgili sıfır hipotezi için test istatistiğinin hesaplanması Birey no Boy (cm) 10 - 26 165,0 1 151,0 17 167,0 13 157,0 11 169,0 22 158,0 16 28 2 170,0 6 160,0 3 18 12 9 161,0 14 172,0 7 162,0 20 25 19 173,0 4 164,0 21 8 23 5 27 174,0 24 15 176,0 Örneklemimizde 28 birey var. Boy değişkenimizi küçükten büyüğe doğru sıralayalım: 1 bireyin boyla ilgili verisinin girilmediğini görüyoruz.
7 bireyin boyunun toplum ortalamasından küçük, Toplum ortalamasına (örneğimizde 161,5 cm) eşit olan bireyleri hesaba katmayacağız. 161,5’e eşit olan birey olmadığını görüyoruz. Geriye kalan 27 bireye (n') baktığımızda sıralamaya göre 7 bireyin boyunun toplum ortalamasından küçük, 20 bireyin boyunun ise toplum ortalamasından büyük olduğunu görüyoruz. İşaret testinde bu iki değerden küçük olanı (r) dikkate alınır (örneğimizde 7). n' ≤ 10 olması durumunda işaret testi değeri r = n' olarak alınır. n' > 10 olması durumunda z hesabı yapılır Bizim örneğimizde n' = 27 değeri 10’dan büyük olduğuna göre z formülünü uygulamalıyız: z = [│7- (27/2)│-(1/2)] / [√(27/2)] = 1,632 Bizim örneğimizde n' = 27 değeri 10’dan büyük olduğuna göre z formülünü uygulamalıyız: z = [│7- (27/2)│-(1/2)] / [√(27/2)] = 1,632
z değerini tablo’ya bakarak p’yi bulabiliriz. Test istatistiğinden elde edilen değerin bilinen bir olasılık dağılımı ile karşılaştırılması z değerini tablo’ya bakarak p’yi bulabiliriz. z =1,6 için iki yönlü p değerinin 0,110 olduğunu görüyoruz. z =1,6 için iki yönlü p değerinin 0,110 olduğunu görüyoruz.
P değerinin ve sonuçların yorumlanması P değeri 0,05’ten büyük olduğundan sıfır hipotezini kabul etmemiz gerekir. Dolayısıyla örneklemimizle toplum ortalaması arasında boy açısından istatistiksel olarak anlamlı bir fark yoktur.