Sosyal Bilimlerde Araştırma Yöntemleri Çıkarımsal İstatistikler: Parametrik Testler I
Plan Denence testleri Tür 1 ve Tür 2 hataları Etki boyutu İstatistiksel güç t testleri
Giriş Bir önceki derste örneklem seçme mantığını işledik Evren ve örneklemden elde edilen değerleri tanımlamayı öğrendik Standart normal dağılım ve olasılık kuramının bize sadece bir örneklem seçerek evren hakkında nasıl genelleme yapma gücü verdiğini gördük Bu derste denence testlerini işleyeceğiz
Denence Testleri İstatistiksel testler denenceleri ispatlamak ya da yanlışlamak için tasarlanmaz Testlerin amacı bir fikrin/iddianın gerçekleşme olasılığının ne kadar düşük/yüksek olduğunu göstermektir Ör., rastgele seçilen bir örneklem ortalamasının evren parametresinin artı-eksi iki standart sapma sınırları içinde olma olasılığı %95’tir
Beş Adımda Denence Testi Araştırma sorusu araştırma denencesi (H1) olarak formüle edilir Test istatistiğine (T) karar verilir Kritik bölge seçilir 4. Kritik bölgenin büyüklüğü kararlaştırılır 5. Sonuç yorumlanır
Örnek Geçen ders gördüğümüz standart normal dağılım (SND) ve olasılık kuramıyla ilgili bilgilerimizi test edelim Bir fotokopi makinesinde günde en az 70 kopya çekilmezse o makine ekonomik değil Kütüphaneye alınan bir makinenin ekonomik olup olmadığını test etmek istediğimizi varsayalım Rastgele seçilen 40 günde yapılan ölçümlerde çekim sayısı ortalama 66, standart sapma 7 olarak bulunmuş olsun Veriler normal dağılmış olsun %95 güvenle fotokopi makinesinin kârlı olup olmadığına karar veriniz
1. Adım Araştırma denencesi (H1): “Fotokopi makinesi kârlıdır” Boş denence (H0): “Fotokopi makinesi kârlı değildir” Aslında (H1) ve (H0)teknik olarak: “Evren ortalaması (70) örneklem ortalamasından (66) küçüktür / büyüktür” iddiasını içeriyor
2. Adım: Z Testi Z tablosu ± 3,49 arasında değişir (kuramsal evrenin %99,96’sı) Özgün Z tablosu 1/10’luk aralarla standart sapmayı gösterir Z tablosundaki birkaç değer önemli (çoğunlukla %95 ve %99’luk alanlar) SND’de %95 güvenle örneklem ortalaması evren ortalamasından 1,96, %99 güvenle 2,575 standart hata uzaklıktadır
2. Adım: Z Testi (devamla) N=40, X=66, SS=7, =0,05 (, alfa, yanılma yüzdesi) Örneklemin standart hatasını (SH) bulalım: SH = 7/ 40 = 1,11 (SS örneklem büyüklüğünün kareköküne bölünür) %95 güven aralığını hesaplayalım: GA= X + (z * SH) = 66 + (1,96 * 1,11) = 66 + 2,18 = 68,18 GA= X - (z * SH) = 66 - (1,96 * 1,11) = 66 - 2,18 = 63,82
3. Adım: Kritik Bölge Seçimi 1. adımda üç farklı hipotez kurmuştuk Yönetici açısından örneklem ortalaması 66 olmasına rağmen makinenin kârlı olması önemli (yani 70 < 66, yani sol kuyruk testi) H1 : 70 < 66 (Sol kuyruk testi) H0 : 70 > 66 Ama denencenin yönüne göre sağ kuyruk testi ya da çift kuyruk testi tercih edilebilir (Sol kuyruk testi)
4. Adım: Kritik Bölgenin Büyüklüğüne Karar Verilmesi %95 güven aralığı 63,82 ile 68,12 Güven aralığı üst sınırı evren ortalamasından (70) düşük 64 66 68 70
5. Adım: Sonuç Örnek 1: T >= Tα ise H0 Red. Not: Sonuçtan önce hangi durumda boş hipotezin reddedileceğine karar verilmelidir. Parametrik testlerin çoğu normal dağılım varsayımıyla yapılır. Normal dağılım varsayımı parametrik olmayan testler için geçerli değildir.
5. Adım: Yorum Hangi durumda boş denencenin reddedileceğine karar verilir Yani seçilecek 100 örneklemden sadece beşi (aslında tek kuyruk testi yaptığımız için beşin yarısı) 68,12’den daha büyük bir örneklem ortalaması üretebilir Yani seçilecek bir başka örneklemin evren ortalamasından daha düşük örneklem ortalaması üretme olasılığı %95’ten fazla Bu durumda fotokopi makinesinin %95 güven düzeyinde kârlı olmadığına karar verilir. H1 reddedilir. Yani 70 < 66 değildir
Hata Yapmış Olabilir Miyiz? Olabiliriz, çünkü sadece bir örneklem seçtik ve %95 güvenle makine ekonomik değildir kararını verdik Ama 100 örneklemden 5’i böyle sonuç verebilir Belki bu 5 örneklemden 1’i bize rastladı Aslında kalan 95 örneklemde makine ekonomik sonucuna varılacak! Ya da tersini düşünelim: Makine ekonomik değil ama seçilen bir başka örneklem sonucuna göre makinenin ekonomik olduğuna karar verdik. Bu iki hatayı yapma olasılığımız her zaman var
Karar Bölgesi Durum H0 doğru H0 yanlış DOĞRU Tür 2 hatası Tür 1 hatası Durum H0 doğru H0 yanlış Karar H0 Kabul DOĞRU Tür 2 hatası H0 Red Tür 1 hatası Tür 1 Hatası: Boş denence doğru, araştırma denencesi yanlış olduğu halde boş denenceyi reddetme. Tür 1 hatası (alfa) ile gösterilir. Tür 2 Hatası: Boş denence yanlış, araştırma denencesi doğruyken boş denenceyi kabul etme. Tür 2 hatası (beta) ile gösterilir. Tür 1 hatası Tür 2 hatasından daha tehlikelidir
Tür 1 ve Tür 2 Hataları Denence testi örneklem istatistiğiyle evren parametresi arasında fark olup olmadığını test eder (66 70) İkisinin eşit olması nadiren rastlanan bir durum Bu durumda fark şans eseri mi oluştu yoksa ikisi birbirinden gerçekten farklı mı? Tür 1 Hatası: Doğru (66 = 70) olmasına karşın H0’ın reddedilme olasılığı Tür 2 Hatası: Yanlış (66 70) olmasına karşın H0’ın kabul edilme olasılığı
Anlamlılık Düzeyleri ve Tür 1-Tür 2 Hataları Anlamlılık düzeyi: 0,05 100 boş denenceden 5’inin gerçekte doğru olmasına karşın reddedilmesi anlamına gelir Aynı evrenden rastgele seçilen iki örneklemin şans eseri birbirinden farklı olması demektir Tür 1 Hatası: Doğru olmasına karşın boş denenceyi reddetme olasılığı (yani gerçekte araştırma denencesi yanlış) Anlamlılık düzeyi 0,01 olursa bu olasılık %1’e düşer Ama o zaman da yanlış olduğu halde boş denenceyi kabul etme olasılığı (Tür 2 hatası) artar Tür 1 hatalarından daha çok sakınılır
(Kaynak: http://bit.ly/oig79c) Etki Büyüklüğü Bir test sonucunu yorumlamak için sadece anlamlılık düzeyine bakmak yeterli değil Test sonucu anlamlı olabilir ama etkisi düşük olabilir Farklı testlerde etki büyüklüğü farklı şekillerde hesaplanır Örneğimizde ortalamalar arasındaki farkı SS’ye bölerek bulunan etki büyüklüğü katsayısı (Cohen’s d) 0,57 Yani orta düzeyde bir etkiye karşılık geliyor Etki büyüklüğü: 0-0,2 arası: düşük; 0,5 civarı: orta; ve 0,8 ve daha yukarısı: büyük (Kaynak: http://bit.ly/oig79c)
İstatistiksel Testlerin Gücü Bir test sonucunu yorumlamak için anlamlılık düzeyi ve etki büyüklüğünün yanı sıra yapılan istatistiksel testin gücüne de bakılmalı Bir istatistiksel testin gücü yanlış boş denenceyi reddetme olasılığı ile ölçülür Güçlü istatistiksel testler H0 yanlışken isabetli bir biçimde H0’ı reddetme olasılığı (1 - ) yüksek olan testlerdir Bu olasılık en az 0,8 olmalı Bir testin gücü (1 - ) örneklem büyüklüğü, varyans ve anlamlılık düzeyi () ile ilişkilidir Kaynak: Field ve Hole, 2008, s. 152-156
Parametrik Testler
Testler ve PASW ile İlgili Not Dersin bu kısmından itibaren istatistiksel testler için Predictive Analysis Software (PASW) yazılımı kullanılmaktadır (eski adı SPSS) PASW ile ilgili yardımcı belgeleri gözden geçirmek, yazılımla aşinalık sağlamak ve sağlanan örnek verileri kullanarak alıştırmaları yapmak gerekir PASW (ya da bir başka yazılım) sadece test istatistiğini hesaplamakta yardımcı olur Araştırmacı önceki slaytlarda söz edilen tüm adımları kendisi tasarlar ve yürütür
Parametrik Testler Hangi Durumlarda Kullanılır? Veriler eşit aralıklı ya da oranlı ölçme düzeyinde toplanmış olacak Karşılaştırılacak grupların varyansları birbirine benzer olmalı Veriler normal dağılmış olmalı Not: Veriler normal dağılıma uygunsa bazen sıralama düzeyinde toplanmış veriler üzerinde de parametrik testler uygulandığı görülmektedir
Hangi Parametrik Testler? t-testleri Tek örneklem t-testi Bağımsız örneklem t-testi Bağımlı örneklem t-testi Varyans analizi (ANOVA) Korelasyon Basit doğrusal regresyon Çoklu regresyon
t-testleri t-testleri iki grup arasında fark olup olmadığını karşılaştırmak için kullanılır t istatistik değeri ortalamalar arasındaki farkın standart hataya bölünmesiyle elde edilir
Veriler Aksi belirtilmedikçe testler için kullanılan veri dosyası: hsb2turkce.sav Veri dosyası 200 lise öğrencisine ait cinsiyet, ırk, sosyo-ekonomik statü, okul türü gibi demografik bilgileri ve öğrencilerin okuma, yazma, matematik, fen ve sosyal bilimler derslerinden aldıkları standart puanları içermektedir Veriler normal dağılıma uygundur
Veri Dosyasındaki Değişkenlerin Tanımları No: Denek numarası Cinsiyet: 0=erkek, 1=kadın (sınıflama) Irk: 1=Latin, 2=Asyalı, 3=Siyah, 4=Beyaz (sınıflama) Sosyo-ekonomik statü (sed): 1=düşük, 2=orta, 3=yüksek (sıralama) Okul türü: 1=devlet, 2=özel (sınıflama) Program türü: 1=genel, 2=akademik, 3=mesleki (sınıflama) Okuma puanı (okumanot): Bu dersten aldığı not (oranlı) Yazma puanı (yazmanot): Bu dersten aldığı not (oranlı) Matematik puanı (matnot): Bu dersten aldığı not (oranlı) Fen puanı (fennot): Bu dersten aldığı not (oranlı) Sosyal bilimler puanı (sosnot): Bu dersten aldığı not (oranlı)
Tek Örneklemli t-testi Örneği Öğrencilerin yazma puanlarının ortalaması geçme notu 50’den farklı mıdır? Araştırma denencesi (H1): “200 öğrencinin yazma puanlarının ortalaması 50’den farklıdır.” (çift kuyruk testi). Boş denence (H0): “200 öğrencinin yazma puanlarının ortalaması 50’ye eşittir” (50’den farklı değildir) H0 : ų = ų 0 H1: ų ų 0 (çift kuyruk testi)
Seçenek Denenceler Araştırma sorusu “Öğrencilerin yazma puanlarının ortalaması geçme notundan yüksek ya da düşük müdür?” şeklinde de sorulabilir O zaman araştırma denencesinin “büyüktür”/ “küçüktür” şeklinde kurulması gerekir. Büyüktür için sol kuyruk, küçüktür için sağ kuyruk testi yapılır Ör., araştırma denencesi (H1): “200 öğrencinin yazma puanlarının ortalaması 50’den küçüktür.” Boş denence (H0) “200 öğrencinin yazma puanlarının ortalaması 50’den büyüktür.” H1 : ų < ų 0 (sol kuyruk testi) H0 : ų > ų 0
Tek Örneklemli t-testi - PASW Mönüden Analyze -> Compare means-> one sample t-test’i seçin Değişken listesinden “yazma puanı”nı seçin ve test değeri olarak “50” girin (Options’a basarak güven aralığı yüzdesini görebilirsiniz /değiştirebilirsiniz: 0.95) OK seçeneğine basın
Tek Örneklemli t-testi Sonucu I Tanımlayıcı istatistikler PASW çıktısında önce tanımlayıcı istatistikler verilmiş: 200 öğrencinin yazma puanı ortalaması 52,78, standart sapması 9,479 ve ortalamanın standart hatası 0,670 Öğrencilerin not ortalama (52,78) test değerinden (50) 2,78 puan daha yüksek
Tek Örneklemli t-testi Sonucu II Tek örneklem t testi İkinci tabloda t-testi sonucu var: t değeri (t) 4,140, serbestlik derecesi (df) 199, çift kuyruklu test sonucu (Sig. (2-tailed)): 0,000, ortalamalar arasındaki fark (Mean difference) 2,78, Farkın %95 güven aralığı: Alt sınır (lower): 51,33 (52,78-1,45), üst sınır (Upper): 56,88 (52,78+4,10) t değeri farkın ortalamasının standart hataya bölünmesiyle elde edilir (2,775 / 0,670) p değeri Tür 1 hatası yapma olasılığını gösterir Serbestlik derecesi (SD): İstatistiksel bir modeldeki değişim olasılıkları demektir
Yorum t değeri (4,140) ve anlamlılık düzeyi () 0,000 bize 2,78 puan farkın istatistiksel açıdan anlamlı olduğunu, bu farkın şans eseri oluşma olasılığının binde birden az olduğunu gösteriyor. Yani öğrenciler 50’den daha yüksek puan almışlardır. Boş hipotez (“200 öğrencinin yazma puanlarının ortalaması 50’ye eşittir”) reddedilir
Kaynak: Field ve Hole, 2008, s. 166-167 Etkinin Büyüklüğü American Psychological Association (APA) sonuçlar rapor edilirken test sonucu (t), SD ve p değerine ek olarak etkinin büyüklüğü hakkında bir tahmin eklenmesini istiyor t testleri için etki büyüklüğünde r = √t2 / (t2 + SD) formülü kullanılır (r = 0,28) r = 0,28 orta düzeyde bir etki büyüklüğü anlamına geliyor (t testleri için yüksek düzeyde etki için eşik değeri 0,5) Kaynak: Field ve Hole, 2008, s. 166-167
Rapor Etme APA stiline göre bu bulgu şöyle rapor edilir: “Öğrencilerin yazma puanları ortalaması (52,78) geçme notu olan 50’den farklıdır ve bu fark istatistiksel açıdan anlamlıdır (t(199)=4,410, p < 0,001, r = 0,28).” t-testi sonucu “…(t(199)=4,410, p = 0,000).” biçiminde de ifade edilebilir
Bağımsız Örneklem t-testi “Bağımsız” ibaresi bir denekten sadece bir veri toplanması anlamına gelir “Erkek ve kız öğrencilerin yazma puanlarının ortalaması birbirinden farklıdır.” Araştırma denencesi (H1): “Erkek ve kız öğrencilerin yazma puanlarının ortalaması birbirinden farklıdır.” H1: ų ų 0 (çift kuyruk testi). Denence “Erkeklerin notu kızlarınkinden yüksektir/düşüktür şeklinde” de kurulabilir. Büyüktür için sol kuyruk, küçüktür için sağ kuyruk testi yapılır
Bağımsız Örneklem t-testi - PASW Mönüden Analyze -> Compare means-> independent sample T test’i seçin Değişken listesinden yazma puanını seçin ve sağ tarafa aktarın Değişken listesinden cinsiyeti seçin ve grup değişkenine aktarın Grupları tanımlayın: grup 1’i 0, grup 2’yi 1 olarak tanımlayın (yani ilk grup erkek, ikinci grup kız) OK’e tıklayın
Bağımsız Örneklem t-testi Sonucu I Tanımlayıcı istatistikler Karşılaştırılacak ortalamalar Standart sapmalar farklı Erkek (91) öğrencilerin yazma puanı ortalaması 50,12, standart sapması 10,305 ve ortalamanın standart hatası 1,080 Kız (109) öğrencilerin yazma puanı ortalaması 54,99, standart sapması 8,134 ve ortalamanın standart hatası 0,779 İki ortalama arasında yaklaşık 5 puan fark var ve SS’lar arasındaki fark yaklaşık 2 puan
Bağımsız Örneklem t-testi Sonucu II %95 güven aralığı SS’ler farklı İkinci tabloda iki test sonucu var: Levene testi ve t testi Levene testi erkeklerle kızların not ortalamalarının varyanslarının eşit olup olmadığı varsayımını test eder. F testi sonucu anlamlı değilse (yani Sig. 0,05’ten büyükse) varyansların eşit olduğu varsayımı ihlal edilmiyor demektir: İlk satırdaki t, SD ve p değerleri kullanılır Örnekte F testi anlamlı (yani Sig. 0,05’in altında, yani varyanslar -10,315 ve 8,134- eşit değil). O zaman 2. satırdaki t, SD ve p değerleri kullanılır
Bağımsız Örneklem t-testi Sonucu III t = -3,66, SD = 169,7, p = 0,000 Ortalamalar arasındaki fark (Mean difference) 4,87; standart hatalar arasındaki fark (Std Error Difference): 1,332; farkın %95 güven aralığı: Alt sınır (lower): -7,50, üst sınır (Upper): -2,24; yani ortalamalar bulunan değerlerden yaklaşık 7,5 ile 2,24 puan daha düşük olabilir Erkeklerin notuyla kızların notu arasındaki fark (yaklaşık 5 puan) istatistiksel açıdan anlamlı (p=0,000). Bu farkın şans eseri oluşma olasılığı binde birden az. Yani kızların notu erkeklerinkinden anlamlı düzeyde yüksek Boş hipotez (“Erkek ve kızların yazma puanları birbirine eşittir”) reddedilir %95 güven aralığı
Rapor Etme APA stiline göre bulgu şöyle rapor edilir: “Kızların yazma puanları ortalaması (Ortk = 54,99, SH=0,779) erkeklerinkinden (Orte = 50,1, SH=1,080) farklıdır ve bu fark istatistiksel açıdan anlamlıdır (t(169,7) =-3,66, p=0,000, r=0,27). Kızların notları erkeklerinkinden daha yüksektir. Etkinin büyüklüğü orta düzeydedir.” p değeri bazen “p <.001” şeklinde de rapor edilebilir Denence yönlü kurulmuş olsaydı rapor ederken “farklıdır” yerine “büyüktür” ya da “küçüktür” denilebilirdi. O zaman anlamlılık değerinin 2’ye bölünerek rapor edilmesi gerekir (ki p=0,000 olduğu için fark etmeyecekti)
Bağımlı Örneklem t-testi “Bağımlı” ibaresi bir denekten iki veri toplanması anlamına gelir Eşli ya da eşlenik örneklem t-testi olarak da bilinir Öğrencilerin okuma ve yazma puanlarının ortalamaları birbirinden farklı mıdır? Araştırma denencesi (H1): “Öğrencilerin okuma ve yazma puanlarının ortalamaları birbirinden farklıdır.” H1: ų ų 0 (çift kuyruk testi). Bu testte “bağımsız örneklem”den söz edilemez. Çünkü bütün öğrencilerin okuma ve yazma puanlarını aynı potaya atıp öğrencilerin okuma ve yazma puanları birbirine eşittir diyemeyiz. Muhtemelen okumadan iyi puan alanlar yazmadan da alıyorlardır. Bu nedenle aynı öğrencinin okuma ve yazma puanlarını karşılaştırmak gerekir. Bu nedenle “bağımlı”, “eşli” ya da “eşlenik örneklem” diyoruz.
Bağımlı Örneklem t-testi - PASW Mönüden Analyze -> Compare means-> paired sample T test’i seçin Okuma ve yazma puanlarını seçin ve çift değişkene aktarın OK’e tıklayın
Bağımlı Örneklem t-testi Sonucu I Tanımlayıcı istatistikler Öğrencilerin okuma puanı ortalaması 52,23, standart sapması 10,253 ve ortalamanın standart hatası 0,725 Öğrencilerin yazma puanı ortalaması 52,78, standart sapması 9,479 ve ortalamanın standart hatası 0,670 İki ortalama arasında yaklaşık yarım puan fark var ve SS’lar arasındaki fark 1 puandan az
Bağımlı Örneklem t-testi Sonucu II Korelasyon Okuma ve yazma puanlarıyla ilgili ekstra bilgi: ilişki katsayısı 0.597 ve bu ilişki istatistiksel açıdan anlamlı Öğrencilerin okuma ve yazma puanları arasındaki Pearson korelasyon katsayısı r =0,597 (orta düzeyde korelasyon) İkisi arasındaki fark istatistiksel açıdan anlamlıdır (Sig. = 0,000) Başka bir deyişle, korelasyon katsayısı temel alınacak olursa, okuma ve yazma puanları arasında pozitif bir ilişki vardır. Okuma puanı yüksek olan öğrencilerin yazma puanları da yüksektir.
Bağımlı Örneklem t-testi Sonucu III Öğrencilerin okuma ve yazma puanları ortalamaları arasındaki fark 0,545 puan, standart sapma 8,887 ve ortalamanın standart hatası 0,628 t testi sonucu t= -0,867, SD = 199, p = 0,387 (çift kuyruk) Okuma ve yazma puanları arasındaki yarım puanlık fark istatistiksel açıdan anlamlı değil (p=0,387) Boş hipotez (“Okuma ve yazma puanlarının ortalamaları birbirine eşittir”) kabul edilir.
Rapor Etme APA stiline göre bulgular şöyle rapor edilir: “Okuma puanları ortalaması (Orto = 52,23, SH=0,725) ile yazma puanları (Orty = 52,78, SH=0,670) arasında yaklaşık yarım puan fark vardır ve bu fark istatistiksel açıdan anlamlı değildir (t(199) =-0,867, p=0,387, r=0,06). Öğrencilerin okuma ve yazma puanları arasında istatistiksel açıdan anlamlı bir fark yoktur.” Boş denence kabul edilir. Tanımlayıcı istatistikler tablo olarak verilebilir
Korelasyon Testi ve t-testi Sonuçları Niçin Farklı? Okuma ve yazma notları arasında orta düzeyde ve anlamlı pozitif korelasyon var (r=0,597, p=0,000, r2 =0,36) (r’nin etki büyüklüğü r’nin karesi alınarak bulunur) Okuma notu yüksekse yazma notu da yüksek (en azından öğrencilerin %36’sı için bu geçerli) Oysa t-testine göre ikisi arasında bir ilişki yok. Niçin? Korelasyon testinde okuma notları ile yazma notları notların hangi deneğe ait olduğuna bakılmaksızın bir havuza atılıp aralarında ilişki olup olmadığı karşılaştırılıyor Oysa bağımlı t-testinde her deneğin okuma notu kendi yazma notuyla karşılaştırılıyor Korelasyon testinde var gözüken ilişkinin aslında olmadığı ortaya çıkıyor
Özet Denence testleri Tür 1 ve Tür 2 hataları Etki boyutu İstatistiksel güç t testleri