Kİ-KARE DAĞILIMI VE TESTİ Ki-kare testi, istatistiksel araştırmalarda kullanılan değişkenlerin genellikle hepsinin nitel (sayısal olmayan) ya da birinin nicel, diğerinin nitel olması durumlarında uygulanan ve uygulama kolaylığı nedeniyle tercih edilen bir testtir. Ki-kare testinin esası Karl Pearson tarafından 1900 yılında yazılan bir makalede ki-kare dağılımına dayandırılmıştır.
Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ Örnekleme yoluyla elde edilen rakamların, anakütle rakamlarına uygun olup olmadığı; bir başka ifadeyle gözlenen değerlerin teorik (beklenen) değerlere uygunluk gösterip göstermediği ki-kare testi ile belirlenir. Standart normal değişken Zİ değerlerinin; şeklinde karesi alındığında, Zi2 değerlerinin dağılımı ki-kare dağılımına dönüşür.
şeklinde standart hale dönüştürülsün X tesadüfi değişken dağılımından bir değer seçilip standart hale dönüştürülür ve karesi alınırsa X değişkeninin dağılımı ki-kare dağılımına dönüşür. Normal dağılım gösteren bir X tesadüfi değişken dağılımından tesadüfi ve birbirinden bağımsız olarak iki değer seçilsin.Seçilen değerleri; şeklinde standart hale dönüştürülsün
Bu Z değerlerinin kareleri alınıp toplanırsa elde edilen değişkeni ki-kare dağılımı gösterir. N adet örnek için bu prosedür takip edildiğinde; değişkeni de ki-kare dağımı gösterir.
Ki-kare dağılımı diğer ki-kare dağılımlarından serbestlik derecelerine göre ayrılır. Kareleri alınıp toplandığında , ki-kare dağılımı gösteren bağımsız standart normal değer sayısına serbestlik derecesi denir. Bir ki-kare dağılımının ortalaması, dağılımın serbestlik derecesine ve varyansı, serbestlik derecesinin iki katına eşittir. Mesela, serbestlik derecesi 10 olan bir ki-kare dağılımının ortalaması 10 ve varyansı 20’dir.
Ki-kare değişkeni, sembolü ile gösterilir Ki-kare değişkeni, sembolü ile gösterilir. Bir dağılımı diğerinden ayırmak için,bu sembole serbestlik derecesini gösteren bir indis eklenebilir. Böylece 1, 2 ve n serbestlik dereceleriyle ki-kare dağılım gösteren değişkenler, , ve şeklinde gösterilebilir.
Ki-kare dağılımı sağa çarpıktır ve normalden daha diktir Ki-kare dağılımı sağa çarpıktır ve normalden daha diktir. N büyüdükçe merkezi limit teoreminin bir sonucu olarak diklik ve asimetri azalır ve dağılım normale yaklaşır. Ki-kare değerleri 0 ile arasında değişir.
Ki-Kare Testleri İyi Uyum Testi Homojenlik Testi Bağımsızlık Testi Varsayımları: 1. Çok değerli kategorik veri 2. Tek bir örnek, birden çok ilgilenilen oran 3. Örnek oranları hakkında varsayılan oranların test edilmesi Homojenlik Testi 1. Tek bir kategorik değişken 2. Her gruptan alınan ayrı birer örnek 3. Varsayılan oran yok 4. Bir grup için oranın diğer grup veya gruplar için de aynı olup olmadığının test edilmesi Bağımsızlık Testi 1. İki kategorik değişken 2. Sadece tek örnek, oranlarla ilgili varsayım yok 3. Bir kategorik değişkenin diğeriyle ilişkili olup olmadığının test edilmesi Ki-Kare Testleri
OLAY 1: Genelde bir istatistik sınıfında, öğrencilerin %60’ının devamlı, %30’unun bazen, %10’unun ise çok az derse geldikleri düşünülmektedir. Sizin sınıfınızdan 30 kişilik bir örnek alınmış ve %65’inin devamlı, %20’sinin bazen, ve %15’inin çok az derse geldiği bulunmuştur. Bu sınıfın devam durumunun genel devam durumuna uyduğu söylenebilir mi? OLAY 2: Aynı öğretim üyesinin istatistik dersi verdiği 3 farklı sınıfta devam durumlarının aynı olup olmadığı araştırılmaktadır. Her üç sınıftan alınan ayrı örneklerin sonucu aşağıdaki tabloda görüldüğü gibidir. OLAY 3: Bu fakültedeki devam durumu ile geçme notu arasında bir ilişki olup olmadığı araştırılmak istenmektedir. Fakülte öğrencilerinden alınan 100 kişilik bir örneğe devam durumları ile geçme notları sorulmuş ve aşağıdaki tablo elde edilmiştir:
Ki-Kare İyi Uyum Testi Varsayımları: 1. Çok değerli kategorik veri (2’den fazla kategorisi olan kategorik değişken) 2. Tek bir örnek, birden çok ilgilenilen oran 3. Örnek oranları hakkında varsayılan oranların test edilmesi
Bilinen varsayılan oranlar Bilinmeyen varsayılan oranlar a)Belirli bir veri yapısına uygunluğun test edilmesi b)Belirli bir dağılıma uygunluğun test edilmesi
A) BELİRLİ BİR VERİ YAPISINA UYGUNLUĞUN TESTİ Belirli bir örnekteki verilerin belirli bir veri yapısına(genel yapıya) uygunluğunu belirlemek için; örnekten elde edilen verilerin (gözlenen verilerin) önceden elde edilen(varsayılan) yapıya uyup uymadığı test edilir.
Örnek Genelde bir istatistik sınıfında, öğrencilerin %60’ının devamlı, %30’unun bazen, %10’unun ise çok az derse geldikleri düşünülmektedir. Sizin sınıfınızdan 100 kişilik bir örnek alınmış ve %65’inin devamlı, %20’sinin bazen, ve %15’inin çok az derse geldiği bulunmuştur. Bu sınıfın devam durumunun genel devam durumuna uyduğu söylenebilir mi? H0: Pdevamlı=0.60, Pbazen=0.30, Pçok az=0.10 H1: En az bir oran varsayılandan farklıdır.
H0: Pdevamlı=0.60, Pbazen=0.30, Pçok az=0.10 H1: En az bir oran varsayılandan farklıdır. Bu hipotez testini uygulamak için gözlenen ve beklenen arasındaki farkların büyüklüğüne bakmak gerekir. Bu farkların mutlak değeri ne kadar büyükse, sıfır hipotezi hakkında o kadar kuşkuya düşeriz. Sıfır hipotezi doğruyken ve örnek orta büyüklükteyken (beklenen değerlerin (Ei) herbiri en az 5 ise), bu hipotez testi için aşağıdaki Ki-Kare test istatistiği kullanılır: O:Gözlenen değer E: Beklenen değer Bu test istatistiği, k-1 serbestlik dereceli tablo değeriyle karşılaştırılır. (Burada k: kategori sayısıdır. =3)
H0: Pdevamlı=0.60, Pbazen=0.30, Pçok az=0.10 H1: En az bir oran varsayılandan farklıdır. N=100 Beklenen değer = örnek hacmi x beklenen olasılık Ei = n x pi Gözlenen değer = örnek hacmi x gözlenen olasılık Oi = n x ri
H1: En az bir oran varsayılandan farklıdır. 1) H0: Pdevamlı=0.60, Pbazen=0.30, Pçok az=0.10 H1: En az bir oran varsayılandan farklıdır. 2) 3) 4) Yorum: %5 hata olasılığı ile, en az bir oran diğerlerinden farklı olduğu için, bu sınıfın devam durumu, genel devam durumu yapısına uymamaktadır.
B)BELİRLİ BİR DAĞILIŞA UYUM TESTLERİ Örnek verilerinden yola çıkarak populasyonun dağılımı hakkında ortaya atılan iddiayı test etmek için Dağılışa Uyum Testleri kullanılır. Hipotezler: H0: Örnek verileri ilgili dağılışa uygundur H1: Örnek verileri ilgili dağılışa uygun değildir. Test İstatistiği: Belirli bir anakütleden çekilen tesadüfi örnekler bu anakütlelerin karakteristiklerini yansıtır veya yansıtması beklenir. Bu yüzden belirli bir anakütleden bir örnek çekilirse gözlenen ve beklenen frekanslar arasında yakın bir ilişkinin olması beklenir.
Sıfır hipotezi doğruysa gözlenen ve beklenen frekanslar arasında yakın bir ilişki var demektir. Gözlenen ve beklenen frekanslar arasındaki uyumu ki kare testi ile ortaya koyarız. Parametre tahmini: Örnek verilerinden parametre tahmini yapmak zorunda kaldığımız her bir parametre için r-1 den 1 çıkarırız. Örnek verilerinden tahmin etmek zorunda kaldığımız parametre sayısını k ile gösterdiğimizde serbestlik derecesi v=r-k-1 olır. v = r -k –1 H0 reddedilebilir
I) BİNOM DAĞILIŞA UYGUNLUK TESTİ H0: Örnek verileri binom dağılışına uygundur H1: Örnek verileri binom dağılışına uygun değildir. Test İstatistiği: Binom formülü yardımı ile bir x olayının olasılığı; Binom dağılımının parametresi p’dir. Bu değer bilinmediğinde elimizdeki verilerden hareketle şeklinde tahmin edilir.
Tahmin edilen bu değer yardımıyla binom formülünden x değerlerine ait olasılıklar hesaplanır. Gözlenen frekanslar toplamı, hesaplanan bu olasılıklarla çarpılarak beklenen frekanslar hesaplanır. Gözlenen ve beklenen değerlerden yararlanılarak, test istatistiği bulunur. Karar: Binom dağılımının bir parametresi olduğu için (p) serbestlik derecesi, v = r- k -1 = v = r - 1 -1 olur. Bulunan test istatistiği v = r -2 serbestlik derecesi ve önem seviyesine göre tablodan bulunacak ki-kare değerine eşit veya bu değerden büyük ise önem seviyesinde sıfır hipotezi reddedilir.
ÖRNEK: Bir firma ürünlerini 5’er birimlik koliler halinde piyasaya sunmaktadır. İmalattan tesadüfi olarak seçilen 280 koli açılmış ve içlerindeki kusurlu ürün sayısına göre koliler aşağıdaki bibi sınıflandırılmıştır. Kusurlu ürün sayısı(x) 1 2 3 4 5 Koli Sayısı(f) 157 69 35 17 Bu verilere göre kusurlu ürün dağılımının binom dağılımına uygun olup olmadığını %1 önem seviyesinde test ediniz.
H0: Örnek verileri binom dağılışına uygundur ÇÖZÜM: H0: Örnek verileri binom dağılışına uygundur H1: Örnek verileri binom dağılışına uygun değildir. Araştırmaya konu olan toplam 5*280 = 1400 ürün vardır. Toplam kusurlu sayı ise; (0)(157)+(1)(69)+(2)(35)+(3)(17)+(4)(1)+(5)(1) = 199 Kusurlu mamul oranı:
5’den küçük oldukları için dördüncü beklenen değere eklenirler Formülünde sırasıyla x’ler yerine konursa; beklenen nispi frekanslar ve bu her bir nispi frekansı da 280 ile çarptığımızda beklenen frekansları elde ederiz. Kusurlu ürün sayısı Koli Sayısı(f) fx Nispi frekanslar Beklenen frekans 157 0*157 1 69 1*69 0.4704 280*0.4704=131.71 2 35 2*35 70 0.3829 280*0.3829=107.21 3 17 3*17 51 0.1247 280*0.1247=34.92 4 4*1 0.0203 280*0.0203=5.68 5 5*1 0.0017 280*0.0017=0.48 15 280 199 0.0001 280*0.0001=0.03 5’den küçük oldukları için dördüncü beklenen değere eklenirler
v = 4 – 1- 1=2 serbestlik dereceli = 0.01 önem düzeyinde 2 = 9.21 H0 reddedilebilir. Örnekteki verilerin binom dağılımı gösteren bir anakütleden çekilmemiş olduğuna karar verebiliriz.
II) POİSSON DAĞILIŞA UYGUNLUK TESTİ H0: Örnek verileri poisson dağılışına uygundur H1: Örnek verileri poisson dağılışına uygun değildir. Test İstatistiği: Poisson formülü yardımı ile bir x olayının olasılığı; Poisson dağılımının parametresi ’dir. Bu değer bilinmediğinde elimizdeki verilerden hareketle şeklinde tahmin edilir.
Tahmin edilen bu değer yardımıyla Poisson dağılımı formülüne göre x değerlerine ait olasılıklar hesaplanır. Çeşitli değerlerine göre x değerlerinin gözlenme olasılıkları Poisson tablosunda verilmiştir. Gözlenen frekanslar toplamı bu olasılıklarla çarpılarak beklenen frekanslar elde edilir. Gözlenen ve beklenen değerlere göre test istatistiği; formülü ile hesaplanır. KARAR: Poisson dağılımının bir parametresi vardır. Serbestlik derecesi v=r-1-k=r-1-1 =r-2 olur. Bulunan test istatistiği v= r – 2 serbestlik dereceli ve önem düzeyine göre tablodan bulunacak ki-kare değerine eşit veya bu değerden büyük ise önem seviyesinde H0 hipotezi reddedilir.
ÖRNEK: Belli bir zaman aralığında bir yurda giren öğrenciler sayılmış ve aşağıdaki sonuçlar elde edilmiştir. Müşahade Edilen Öğrenci Sayısı(xi) Zaman Aralığı Sayısı (Oi) Oi xi 1 54 2 93 186 3 67 201 4 45 180 5 25 125 6 11 66 7 28 Toplam 300 840 Bu verilen Poisson dağılımına uygunluğunu %1 önem seviyesinde test ediniz.
H0: Örnek verileri poisson dağılışına uygundur H1: Örnek verileri poisson dağılışına uygun değildir. Poisson parametresi bilinmediğinden, örnekteki veriler yardımıyla bu değeri olarak tahmin ederiz. 0, 1, 2, 3, 4, 5, 6, 7 öğrenci için beklenen nispi frekansları Fonksiyonu veya Poisson olasılıkları tablosundan yararlanarak hesaplanır. = 2.8 değerine göre tablodan x değerleri için olasılıklar bulunabilir. Bu olasılıklar 300 ile çarpılarak beklenen frekanslar elde edilebilir.
v = 8 – 2 =6 serbestlik dereceli = 0.01 önem düzeyinde 2 = 16.812 x Oi Ei Oi - Ei (Oi - Ei)2 (Oi - Ei)2 / Ei 1 18.24 -17.24 297.22 16.29 54 51.09 2.91 8.47 0.17 2 93 71.52 21.48 461.39 6.45 3 67 66.75 0.25 0.06 0.00 4 45 46.71 -1.71 2.92 5 25 26.16 -1.16 1.35 0.05 6 11 12.21 -1.21 1.46 0.12 7 7.32 -3.32 11.02 1.51 2 =24.65 v = 8 – 2 =6 serbestlik dereceli = 0.01 önem düzeyinde 2 = 16.812 H0 reddedilebilir. Örnekteki verilerin poisson dağılımı gösteren bir anakütleden çekilmemiş olduğuna karar verebiliriz.
III) UNİFORM (KESİKLİ) DAĞILIŞA UYGUNLUK Uniform dağılış,tanımlı olduğu değerleri eşit olasılıklar alan şans değişkenlerinin dağılışıdır. Bu dağılışı gösteren bir şans değişkeni N farklı değeri eşit olasılıklar ile alıyorsa her bir değeri alma olasılığı 1/N’e eşittir.
ÖRNEK Bir medya araştırma şirketi , 6 televizyon programının tercih edilme durumunu tesbit etmek istiyor. Bu amaçla 60 izleyiciden oluşan tesadüfi bir örnek çekiyor.Tercihler şöyledir: Program 1 2 3 4 5 6 Tercih Sayısı 5 8 10 12 12 13 Bu verilerden yola çıkarak 6 programın eşit olarak tercih edildiğini söyleyebilir miyiz? CEVAP: Eşit tercih edilme olup olmadığını anlayabilmek için izleyici tercihlerinin üniform dağılış göstermesini bekleriz.
H0: 6 program eşit olarak seyrediliyor. H1: 6 program eşit olarak seyredilmiyor Beklenen Değer: Ei: Toplam Gözlem Sayısı / Sınıf Sayısı Ei: 60 / 6 =10 Program 1 2 3 4 5 6 Gözlenen Tercih Sayısı (Oi) 5 8 10 12 12 13 Beklenen Tercih Sayısı (Ei) 10 10 10 10 10 10
Uniform dağılışta tahmin edilen parametre sayısı 0 olduğu için g, 0’dır. v = k-1-0 = k-1 H0 red edilemez, izleyiciler 6 programı eşit olarak seyretmektedir
Ki-Kare Homojenlik Testi Homojenlik testinde her bir anakütleden belirli hacimlerde örnekler çekilir ve bu örneklerin belirli bir karakteristiği taşımaları bakımından benzer değişim gösterip göstermediklerine karar verilir. Varsayımları: 1. Tek bir kategorik değişken 2. Her gruptan alınan ayrı birer örnek 3. Varsayılan oran yok 4. Bir grup için oranın diğer grup veya gruplar için de AYNI (HOMOJEN) olup olmadığının test edilmesi
Aynı öğretim üyesinin istatistik dersi verdiği 3 farklı sınıfta devam durumlarının aynı olup olmadığı araştırılmaktadır. Her üç sınıftan alınan ayrı örneklerin sonucu aşağıdaki tabloda görüldüğü gibidir. H0: sınıf1’in devam yapısı = sınıf2’nin devam yapısı = sınıf3’ün devam yapısı H1: En az bir sınıfın devam yapısı diğerlerinden farklıdır. Bu test istatistiği, (k-1)(r-1) serbestlik dereceli tablo değeriyle karşılaştırılır. Burada k: kategori sayısı (sütun sayısı), r: grup sayısı (satır sayısı)
H0: sınıf1’in devam yapısı = sınıf2’nin devam yapısı = sınıf3’ün devam yapısı H1: En az bir sınıfın devam yapısı diğerlerinden farklıdır. Hesaplamaları ayrı tablolarla yapılır.
15 - 13=2
H1: En az bir sınıfın devam yapısı diğerlerinden farklıdır. 2) 1) H0: sınıf1’in devam yapısı = sınıf2’nin devam yapısı = sınıf3’ün devam yapısı H1: En az bir sınıfın devam yapısı diğerlerinden farklıdır. 2) 3) 4) Yorum: %5 hata olasılığı ile, sınıfların devam yapısının birbirinden farklı olduğu söylenemez.
Ki-Kare Bağımsızlık Testi Sık sık karşılaşılan araştırma sorularından biri de iki değişkenin birbiri ile ilişkili olup olmadığıdır. Mesela, bir sosyolog okul aracılığıyla kazanılan eğitim seviyesinin gelirle ilişkili olup olmadığını araştırmak isteyebilir. Bir okulda çalışan beslenme uzmanı öğrencilerin beslenme seviyelerinin akademik performanslarıyla ilişkili olup olmadığını bilmek isteyebilir.
İki değişken arasında ilişki yoksa, birisinin dağılımı hiçbir şekilde diğerinin dağılımına bağımlı değilse bu iki değişken birbirinden bağımsızdır denir. İki değişken arasında ilişki yoksa , belirli bir değişkenin değerini bilmek, diğer değişkenin değerini belirlemeye imkan sağlamaz. Varsayımları: İki kategorik değişken 2. Sadece tek örnek, oranlarla ilgili varsayım yok 3. Bir kategorik değişkenin diğeriyle İLİŞKİLİ olup olmadığının test edilmesi
H0: Devam yapısı, geçme notu ile ilişkili değildir. Bu fakültedeki devam durumu ile geçme notu arasında bir ilişki olup olmadığı araştırılmak istenmektedir. Fakülte öğrencilerinden alınan 100 kişilik bir örneğe devam durumları ile geçme notları sorulmuş ve aşağıdaki tablo elde edilmiştir: H0: Devam yapısı, geçme notu ile ilişkili değildir. H1: Devam yapısı, geçme notu ile ilişkilidir. Bu test istatistiği, (k-1)(r-1) serbestlik dereceli tablo değeriyle karşılaştırılır. Burada k: sütun sayısı, r:satır sayısı
H0: Devam yapısı, geçme notu ile ilişkili değildir. H1: Devam yapısı, geçme notu ile ilişkilidir.
1) H0: Devam yapısı, geçme notu ile ilişkili değildir. H1: Devam yapısı, geçme notu ile ilişkilidir. 2) 3) 4) Yorum: %5 hata olasılığı ile, devam yapı ile geçme notu değişkenlerinin ilişkili olduğuna dair yeterli kanıt bulunamamıştır.