Bilişim Teknolojileri için İşletme İstatistiği Hipotez Testleri B Bilişim Teknolojileri için İşletme İstatistiği Yrd. Doç. Dr. Halil İbrahim CEBECİ
HİPOTEZ İstatistiksel hipotez, yığın hakkında bir varsayımdır. İstatistiksel hipotez, herhangi bir ana kütle parametresine ilişkin olarak ileri sürülen ve doğruluğu olasılık kurallarıyla araştırılabilen önermedir. Günlük ortalama 1220 kg üretim yapan bir kimya fabrikasında, kullanılan yeni karıştırma aracı sayesinde ortalama üretim miktarı artmıştır. Bir firma tarafından üretilen aile boyu cipslerin ortalama ağırlığı 100 gramdır. Serdivan ilçesinde oturanların %40 ı giyim alışverişlerini AVM den gerçekleştirmektedir.
HİPOTEZ TESTLERİ Bir hipotez ile ana kütle hakkında yapılan varsayımsal çıkarımların doğruluklarının araştırılmasıdır. Hipotez Testi, hipotezin örnekten elde edilen bilgilere bağlı olarak belirli bir hata payı ile doğrulanmasına denir Bir ana kütle ile ilgili bilgimiz 𝜃ise, ve bu bilginin tersi ispatlanmamışsa o bilginin doğruluğunu kabul ederiz. 𝜃 ortaya atılan hipotezdir. İki tür hipotez vardır. 𝐻 0 :𝑠𝚤𝑓𝚤𝑟 ℎ𝑖𝑝𝑜𝑡𝑒𝑧𝑖 𝐴𝑟𝑎ş𝑡𝚤𝑟𝚤𝑙𝑎𝑛 𝑔𝑒𝑟ç𝑒𝑘−𝜃 𝐻 1 :𝐾𝑎𝑟ş𝚤𝑡 ℎ𝑖𝑝𝑡𝑒𝑧 (𝐴𝑙𝑡𝑒𝑟𝑛𝑎𝑡𝑖𝑓 ℎ𝑖𝑝𝑜𝑡𝑒𝑧 −𝑔𝑒𝑟ç𝑒ğ𝑖𝑛 𝑟𝑒𝑑𝑑𝑖 𝑑𝑢𝑟𝑢𝑚𝑢)
HİPOTEZ TESTLERİ İki Yönlü Hipotez Testi: Örneklem ortalamasının Ana kütle ortalama değerinin altında veya üstünde olup olmadığının bilinmediği durumlarda 𝐻 0 :𝜇= 𝑥 𝐻 1 :𝜇≠ 𝑥 Tek Yönlü Hipotez Testi Örneklem ortalamasının Ana kütle ortalama değerinin altında veya üstünde olup olmadığı biliniyorsa 𝐻 1 :𝜇< 𝑥 𝑣𝑒𝑦𝑎 𝐻 1 :𝜇> 𝑥
ANLAMLILIK DÜZEYİ Eğer sıfır hipotezi doğru ise, örneklem için bulunan istatistiğin, bu kitleye ait olmama olasılığı belirlenmelidir Örneklem dağılımında belirlenen bu bölgeye red bölgesi denir. Bu bölge ile gösterilir ve anlamlılık düzeyi olarak isimlendirilir. Örneklem ortalamasından çok eminseniz o zaman anlamlılık düzeyi aşağı çekilebilir. Sağlık bilimlerinde 𝑎=0,01 Eğitim bilimlerinde 𝑎=0,05 Sosyal ve beşeri bilimlerde 𝑎=0,10
HATA TÜRLERİ Hipotez testleri yapılırken iki tip hata yapıldığı unutulmamalıdır. 𝐻 0 hipotezi gerçekte doğru iken hipotez testi sonucunda reddedilmesine I.tip hata denir. 𝐻 0 hipotezi gerçekte yanlış iken hipotez testi sonucunda kabul edilmesine II.tip hata adı verilir. Bu tip hata olasılığı ile gösterilir. 𝐻 0 hipotezi gerçekte doğru iken hipotez testi sonucunda kabul edilmiş veya gerçekte yanlış iken hipotez testi sonucunda reddedilmiş ise doğru bir karar verilmiş olur.
HATA TÜRLERİ
TESTİN GÜCÜ Populasyon parametresinin gerçek değeri Hipotezdeki parametre değeri ile parametrenin gerçek değeri arasındaki fark arttıkça da artar. Önem derecesi - azalırken artar. Populasyon standart sapması - arttıkça artar. Örnek hacmi - n n azaldıkça artar
TEST SÜRECİ Hipotezlerin belirlenmesi Anlamlılık düzeyinin belirlenmesi Test istatistiği seçilerek tablodan değerinin okunması Örneklem verilerinden test istatistiğinin hesaplanması Bu iki değerin karşılaştırılarak yorumlanması
KABUL OLASILIĞI (𝑝) Test istatistiği örnekten elde edilen bilgiler ışığında hesaplanır. H0 hipotezi gerçekten doğru ise hesaplanan test istatistiğinin gözlenme olasılığına p değeri denir. Eğer 𝑝 değeri anlamlılık düzeyi dan küçük ise 𝐻 0 hipotezi ret edilir. Eğer 𝑝 değeri anlamlılık düzeyi dan büyük ise 𝐻 0 hipotezi kabul edilir.
VERİ ANALİZİ SÜRECİ Hipotez testleri veri analizi sürecinin temelini oluşturur. Analiz süreçlerindeki en önemli nokta hangi analiz türünün veriye uygun olduğudur. Bir verinin analizine başlamadan aşağıdaki 4 karakteristik incelenmelidir. Veri Türü (Kategorik, Nümerik) Verilerin İlişkili Olması Durumu (Eşleştirilmiş, eşleştirilmemiş veri) Örneklem (grup) Sayısı (Tek, Çift, ikiden fazla) Verilerin Dağılımı (Parametrik – Parametrik olmayan)
TEK ÖRNEKLEM TESTLERİ Tek bir örneklemin ana kütle ortalaması ile farkları incelenir.
TEK ÖRNEKLEM T TESTİ Bir araştırmacı Sakarya Üniversitesindeki öğrencilerin boy ortalamasının 175 cm olduğunu düşünmektedir. Bu amaçla üniversite kantininde rastgele seçtiği 15 kişilik iki örneklem grubunun Sakarya Üniversitesi öğrencisi olup olmadıklarını (175 cmlik ana kütleden çekilip çekilmediklerini) değerlendirmek istemektedir. ÖRNEKLEM 1 175 169 177 180 168 183 178 193 179 186 171 196 ÖRNEKLEM 2 197 187 193 172 183 167 190 191 192 170 164 188 178 175
TEK ÖRNEKLEM T TESTİ 𝐻 0 : Ç𝑒𝑘𝑖𝑙𝑒𝑛 ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠ı 𝑖𝑙𝑒 𝑎𝑛𝑎 𝑘ü𝑡𝑙𝑒 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠ı 𝑏𝑖𝑟𝑏𝑖𝑟𝑖𝑛𝑒 𝑒ş𝑖𝑡𝑡𝑖𝑟 𝐻 1 : Ç𝑒𝑘𝑖𝑙𝑒𝑛 ö𝑟𝑛𝑒𝑘𝑙𝑒𝑚 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠ı 𝑖𝑙𝑒 𝑎𝑛𝑎 𝑘ü𝑡𝑙𝑒 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎𝑠ı 𝑏𝑖𝑟𝑏𝑖𝑟𝑖𝑛𝑑𝑒𝑛 𝑓𝑎𝑟𝑘𝑙ı𝑑ı𝑟
TEK ÖRNEKLEM T TESTİ Kabul olasılığı (2) anlamlılık düzeyinin üstünde olduğundan (0,318 > 0,05) 𝐻 0 hipotezi red edilmeyecek, yani başka bir deyişle kabul edilecektir. Bu durumda yapılacak yorum Örneklem 1 öğrencilerinin ortalama boyları 176,933 (sonuç tablosunda en üstte) ana kütle ortalaması olan 175 değerinden istatistiksel açıdan farklı değildir.
TEK ÖRNEKLEM T TESTİ Kabul olasılığı (2) anlamlılık düzeyinden (𝛼=0,05) daha azdır. Bu durumda Sıfır hipotezi ( 𝐻 0 ) red edilecek ve alternatif hipotez ( 𝐻 1 ) kabul edilecektir. Yani Örneklem ortalaması 182,267 ile ana kütle ortalaması 175 arasındaki fark istatistiksel açıdan anlamlıdır. Bir başka deyişle bu örneklem ortalaması 175 olan bir ana kütleden çekilmemiştir. (Misafir bir voleybol takımı olabilir.)
WİLCOXON İŞARETLİ SIRALAR TESTİ Bir yükseköğretim kurumu sayısal derslerde kullanılması amacı ile bir analiz programı geliştirmiştir. Kurum son beş yıl içerisinde mezun olan öğrencilerinin KPSS Genel Yetenek sınavının sayısal kısmında elde edilen puanları analiz etmiş ve 21,7 matematik neti medyan değeri belirlemiştir. 30 mezunun KPSS Genel Yetenek Testi netleri aşağıda verilmiştir. Alınan notların normal dağılmadığı biliniyorsa acaba bu yöntem başarıya ulaşmış mıdır?
WİLCOXON İŞARETLİ SIRALAR TESTİ 𝐻 0 : 𝑈𝑦𝑔𝑢𝑙𝑎𝑚𝑎 𝑠𝑜𝑛𝑢𝑐𝑢𝑛𝑑𝑎 𝑚𝑒𝑑𝑦𝑎𝑛 𝑑𝑒ğ𝑖ş𝑚𝑒𝑚𝑖ş𝑡𝑖𝑟. (𝑣𝑒𝑦𝑎 𝐻 0 :𝑀𝑒𝑑𝑦𝑎𝑛=21,7) 𝐻 1 : 𝑈𝑦𝑔𝑢𝑙𝑎𝑚𝑎 𝑠𝑜𝑛𝑢𝑐𝑢𝑛𝑑𝑎 𝑚𝑒𝑑𝑦𝑎𝑛 𝑑𝑒ğ𝑖ş𝑚𝑖ş𝑡𝑖𝑟. (𝑣𝑒𝑦𝑎 𝐻 1 :𝑀𝑒𝑑𝑦𝑎𝑛≠21,7) Parametreler Değerler Ana Kütle Medyan 21,70 Hesaplanan Medyan 26,00 Test Değeri 2,400 Kabul Olasılığı (𝑝) 0,016 Tek örneklem t testi ile benzer şekilde yorumlar yapılmalıdır. Burada sıfır hipotezinin kabul olasılığı 0,016 değeri anlamlılık düzeyi (𝛼=0,05) değerinden düşük olduğunda alternatif hipotez kabul edilecektir. Yani örnekleme ait medyan değeri ana kütle medyan değerinden farklıdır. Bu şekilde 26,00 değeri ile yeni uygulanan yöntemin, sayısal derslerde başarılı olduğu sonucuna ulaşabiliriz.
AMAN DİKKAT İstatistiksel Testler, hipotezleri ispatlamak ya da yanlışlamak için tasarlanmazlar; Bunlardan amaç bir fikrin/iddianın gerçekleşme olasılığının ne kadar düşük/yüksek olduğunu göstermektir. Yanlışlamaya çalıştığımız hipotez sıfır hipotezdir (H_0), yani fark yoktur hipotezidir. H_1 hipotezi genelde yapılan iddiayı ifade eder. Örnekten elde edilen bilgiler örnek değişkenliği nedeniyle az veya çok yığına ait değerlerden farklı olabilir. Dolayısıyla sıfır hipotezi hakkında yığından seçilen bir örnek gruba dayanarak vereceğimiz karar doğru olabileceği gibi bazı hatalarda yapılabilir.
AMAN DİKKAT Her analiz süreci veri türü, bağımsızlığı, dağılımı ve örneklem sayısı ile alakalıdır. Analizlere başlamadan bu değerleri doğruca belirlemek şarttır. Hipotezler belirlenirken alternatif hipotez çok doğru kurgulanmalıdır. Tek yönlü bir durum için, iki yönlü alternatif hipotez yazılması yanlış yorum yapma sonucunu doğurabilir. Anlatılan analizlerin sadece sayısal (sayılabilir, aralık) verilerinde yapıldığına dikkat ediniz.