Çıkarsamalı İstatistik Yöntemler Doç.Dr.Hayal BOYACIOĞLU Ege Üniversitesi Fen Fakültesi İstatistik Bölümü hayal.boyacioglu@ege.edu.tr
İçerik Çıkarsamalı İstatistik Yöntemlerin Kullanım Alanları İstatistiksel Testin Seçimini Etkileyen Faktörler Normal Dağılım Hipotez Testleri Varyans Analizi Regresyon Analizi
Çıkarsamalı İstatistik İlgili kitleden belirli yöntemlerle elde edilen örnek verilerinin uygun analizlere dayanarak kitle ile ilgili çıkarsamalar yapılmasıdır.
Çıkarsamalı İstatistiksel Yöntemlerin Kullanım Alanları Örneklemden elde edilen sonuçların tesadüfe bağlı olup olmadığını (önemli olup olmadığını) belirlemek amacıyla uygulanan testlerdir. Burada ifade edilen önemlilik (significancy) elde edilen sonuçların tesadüfe bağlı olmadığını, yani istatistiksel açıdan anlamlı olduğunu ifade eder
Çıkarsamalı İstatistiksel Yöntemlerin Kullanım Alanları İstatistiksel önemlilik testleri çeşitli durumlarda ve farklı amaçlarla uygulanır. Bu testlerin başlıca kullanım alanları : Kitleden seçilen tek örneklemden elde edilen veriler yardımıyla, kitle parametresinin belli bir değere eşit olup olmadığının test edilmesinde. Kitleden seçilen iki ya da daha fazla grup arasındaki farkın önemli olup olmadığının test edilmesinde. Aynı grupta farklı koşullar altında elde edilen veriler arasındaki farkın önemli olup olmadığının test edilmesinde. Bir örnek gruptan elde edilen dağılışın belli bir teorik dağılışa uygun olup olmadığının test edilmesinde
Önemlilik Testinin Seçimini Etkileyen Faktörler Önemlilik testlerinin uygulanmasında en önemli adım, uygulanacak testin doğru seçilmesidir. Uygun testin seçiminde göz önünde bulundurulması gereken çeşitli faktörler vardır. 1. Verinin karakteri Ölçümle ve sayımla belirtilen veriler farklı dağılış özellikleri gösterirler. Ölçümle belirtilen veriler sürekli, sayımla belirtilen veriler ise kesikli dağılış özelliğine sahiptir. Bu nedenle, genel olarak ölçümle ve sayımla belirtilen verilerde farklı testler kullanılır.
Önemlilik Testinin Seçimini Etkileyen Faktörler 2. Grup sayısı Test edilecek veriler; bir, iki veya ikiden fazla gruba ayrılmış olabilir. Grup sayısının ikiden fazla olması, çoklu karşılaştırma olarak kabul edilir. Grup sayısı uygulanacak testin seçimini etkiler.
Önemlilik Testinin Seçimini Etkileyen Faktörler 3. Örneklem büyüklüğü (veri sayısı) Gruplardaki veri sayısı hem uygulanacak testin seçimini hem de elde edilen test sonucunun güvenirliğini etkiler. Bazı testlerin uygulanabilmesi için gruplarda belli sayıda veri bulunması gerekir.
Önemlilik Testinin Seçimini Etkileyen Faktörler 4. Gruplarda bağımsızlık durumu Grupların ayrı ayrı bireylerden oluşması ve bir deneğin seçiminin diğeri ile bağlantılı olmaması durumunda gruplar bağımsızdır. Aynı bireyler üzerinde gözlemlerin tekrarlanması ya da bireylerin tek tek birbirinin eşi olarak seçildiği durumlarda ise gruplar bağımlıdır.
Önemlilik Testinin Seçimini Etkileyen Faktörler 5. Örneklemin alındığı kitlenin dağılımı Kitlenin dağılımının normal dağılıma uygunluğu kullanılacak istatistik analiz yönteminin önemli belirleyicilerindendir.
Normal Dağılım Gaussian Dağılımı Simetrik bir dağılımdır. Normal Dağılımın Parametreleri E(x)=μ Var(x)=σ2
Normal Dağılım
Normal Dağılım Aritmetik Ortalama ve Medyan birbirine yakın değer almalı Histogram grafiği simetrik olmalı. Box plot grafiği simetrik olmalı. Normal probability plot grafiği doğrusal olmalıdır.
Normal Dağılım
Normal Dağılıma Uygunluğun Değerlendirilmesi *Histogram and Boxplot *Normal Quantile Plot *Goodness of Fit Tests *Shapiro-Wilk Test (JMP) *Kolmogorov-Smirnov Test (SPSS) *Anderson-Darling Test (MINITAB)
Veri Dönüşümü Logaritmik dönüşüm Karekök 1/y Kare Logit dönüşüm Z skoru
Logaritmik Dönüşüm
Kare Dönüşümü
Aralık Tahmin ve Hipotez Testleri Tahmin edici: Kitle parametresini tahmin etmek için kullanılan örnek istatistiğine tahmin edici adı verilir. Tahmin: Tahmin edicinin almış olduğu değere tahmin denir.
Aralık Tahmin ve Hipotez Testleri Nokta tahmini: Bir kitle parametresini tahmin etmek için kullanılan örnek istatistiğinin değerine nokta tahmini adı verilir. Aralık tahmini: Bir parametrenin aralık tahmini, parametreyi tahmin etmek için kullanılan değerleri içeren bir aralıktır.
Aralık Tahmin ve Hipotez Testleri Tahminin güven düzeyini kullanarak bir parametre için belirlenen aralığa güven aralığı denir. En çok kullanılan güven aralıkları %90, %95 ve %99’ dur. Bir parametrenin bir aralık tahminin güven düzeyi, parametreyi kapsama olasılığıdır. 1-α ile gösterilir. Burada α anlamlılık düzeyi adını alır.
Aralık Tahmin ve Hipotez Testleri Kitle Ortalaması için Aralık Tahmin 2 biliniyor ise Z Testi 2 bilinmiyorsa fakat n>30 ise (Büyük Örneklem) Z Testi 2 bilinmiyorsa ve n<30 ise (Küçük örneklem) t Testi
Aralık Tahmin ve Hipotez Testleri 2 biliniyor ise Z Testi ( 𝑥 − 𝑍 𝛼 2 ∗ σ 𝑛 ; 𝑥 + 𝑍 𝛼 2 ∗ σ 𝑛 ) σ2 bilinmiyor ve n>30 (küçük örneklem) ise µ için güven aralığı ( 𝑥 − 𝑍 𝛼 2 ∗ 𝑆 𝑛 ; 𝑥 + 𝑍 𝛼 2 ∗ 𝑆 𝑛 ) σ2 bilinmiyor ve n<30 (küçük örneklem) ise µ için güven aralığı ( 𝑥 − 𝑡 𝛼 2 , 𝑛−1 ∗ 𝑆 𝑛 ; 𝑥 + 𝑡 𝛼 2 , 𝑛−1 ∗ 𝑆 𝑛 )
Hipotez Testi Geçerliliği olasılık esaslarına göre araştırılabilen ve karar verebilmek için öne sürülen varsayımlara istatistikte “hipotez” denir. Örneklem dağılımlarından elde edilen istatistiklere bağlı olarak, örneklem dağılımının, parametresi bilinen kitleye ait olup olmadığı araştırılır. Hipotezlerin örneklem yardımıyla incelenmesine “hipotez testi” denir.
Kitle Parametreleri Kitle Örnek μ 𝑋 σ S P 𝑃
Hipotez Testi Karar Gerçek Durum Ho Reddedilir. Ho Reddedilemez Ho Doğru 1. Tip Hata(α) Doğru Karar(1-α) Ho Yanlış Doğru Karar(1-β) Testin Gücü 2. Tip Hata(β)
ORTALAMA () İÇİN HİPOTEZ TESTLERİ Çift kuyruklu Hipotez Testi Yön belirtilmez. Eşitlik var mı yok mu test edilir. H0 : = k H1 : ≠ k Tek Kuyruklu Hipotez Testleri Sağ Kuyruklu Hipotez Testi: Parametre değerden büyük H0 : ≤ k H1 : > k Sol Kuyruklu Hipotez Testi: Parametre değerden küçük H0 : ≥ k H1 : < k
Ortalamaya İlişkin Hipotez Testleri Kitle Varyansı σ2 Biliniyor Z-Testi Kitle Varyansı σ2 Bilinmiyor ancak n>30 Z-Testi Kitle Varyansı σ2 Bilinmiyor ve n<30 t-Testi Orana İlişkin Hipotez Testleri Z-Testi Varyansa İlişkin Hipotez Testleri Khi-Kare Testi
İki Ortalama Farkına İlişkin Hipotez Testleri Bağımsız Örnekler İle İki Ortalama Farkına İlişkin Hipotez Testleri Kitle Varyansları σ12, σ22 Biliniyor Z-Testi Kitle Varyansları σ12, σ22 Bilinmiyor, n1 ve n2 <30 Varyans Homojenliği Varsayımı altında t-Testi
Bağımlı Örnekler ile Ortalama Farkına İlişkin Hipotez Testleri- paired t test İki OranFarkı İçin Hipotez Testi Z-Testi İki Varyansa İlişkin Hipotez Testleri F-Testi
Hipotez Testleri Z Testi Kitle Normal dağılım gösteriyor. 1.H0 : = 0 H1 : ≠ 0 İki (Çift) Yönlü n , α belirlenir, > Tek yönlü < Tek yönlü 2.Test istatistiği ve dağılımı N(0,1) 3. Red etme bölgeleri belirlenir.
Hipotez Testleri Zα/2 (Çift yönlü) , Zα (Tek yönlü) değerleri bulunur. 4. Gözlenen değerlerden test istatistiği hesaplanır Zhesap 5. Karar verilir | Zh |> Zα/2 veya İse H0 hipotezi red edilir. | Zh |> Zα 6. Yorum yapılır.
Hipotez Testleri p-değeri: p-değeri örnekten uç veya daha ileri değer elde etme ihtimal istatistiğidir. p-değeri= gösterilen alandır.
Sola dayalı test için :H0 : µ = µ0 H1 : µ < µ0 ise, Hipotez Testleri Sola dayalı test için :H0 : µ = µ0 H1 : µ < µ0 ise, p değeri=Pr(Z≥ | Zh | ) veya p değeri=Pr(Z≤ - Zh)
Hipotez Testleri Sağa dayalı test için H0 : µ = µ0 H1 : µ >µ0 ise, p değeri=Pr(Z≥ Zh )
Hipotez Testi Testin Önemlilik Düzeyleri p-değeri Önemlilik derecesi Sonuç Karar p>0,05 n.s Ho reddedilemez. p<0,05 * Ho Reddedilir. p<0,01 ** Ho reddedilir.
Hipotez Testi
Örnek Bir fabrikada üretilen boruların ağırlıkları normal dağılım göstermektedir ve ortalaması 300 kg, standart sapması 24 kg olarak hesaplanmıştır. Yeni geliştirilen bir üretim tekniğiyle üretilen boruların arasından rasgele 15 boru seçilmiş ve ağırlıkları aşağıda verilmiştir. α=0.01 önem düzeyinde yeni üretim tekniğinin boruların ağırlıklarını arttırdığı yönündeki iddiayı test ediniz.
Xi=306, 298, 332, 261, 316, 327, 324, 320, 307, 322, 320, 300, 297, 299, 271 1. Hipotezler: H0 : µ = 300 H1 : µ > 300 , σ=24 , n=15, α=0.01 2. Test İstatistiği ve dağılımı, N(0,1) 3. Red Bölgesi : Ztablo=2.33
4: Karar : Z hesap=1.08<Ztablo=2.33 old. Ho hip. red edilemez. α=0.01 5. Yorum: Boruların ort. ağırlığı 300 kg dır. p=0.141> α=0.01 . Ho hip. red edilemez. Kitle ortalamasına ilişkin %99 güven düzeyinde güven aralığı ( 290.71; 322.63) bulunur.
VARYANS ANALİZİ (ANOVA – ANalysis Of VAriance) k guptan elde edilen veri setinde Normal dağılım gösteren Y değişkeninin genel değişiminin (genel varyans) bu değişime etkide bulunan öğelerine (değişim kaynağı, source of variation) göre ayırarak analiz etmeyi sağlayan bir yöntemdir.
VARYANS ANALİZİ (ANOVA – ANalysis Of VAriance) Varsayımları: Örneklerin elde edildiği kitle normal ya da yaklaşık olarak normal dağılış gösterir. Örnekler bağımsızdır. Kitle varyansları eşittir.
Tek Yönlü Varyans Analizi ( k Bağımsız Örneklem Varyans Analizi) Ho: Ortalamalar arasında fark yoktur.(Ho: µ1= µ2=…=µk ) H1: En azından bir ortalama diğerlerinden farklıdır.
Tek Yönlü Varyans Analizi ( k Bağımsız Örneklem Varyans Analizi) Doğrusal model: (Tek yönlü: Tesadüf+ 1 faktör) Bağımlı değişken değeri Yij = µ + ai + eij KARAR: Fhesap > Ftablo veya p< ise Ho hipotezi red edilir.
Örnek Uygulama Aynı coğrafi bölge ve aynı toprak çeşidinden rasgele 24 parsel belirlemiştir. Bu 24 parselden 6 parsele nitrat, 6 parsele potasyum, 6 parsele fosfat ve dördüncü grupaki 6 parsele amonyum kimyevi gübreleri kullanılmış ve hasat mevsimi sonunda alınan buğday verimi (kg) aşağıdaki gibi elde edilmiştir.Tek yönlü varyans analizi uygulayarak gübre türlerinin verim üzerine etkilerinin aynı olup olmadığını inceleyiniz.
Tek Yönlü Varyans Analizi ( k Bağımsız Örneklem Varyans Analizi)
Tek Yönlü Varyans Analizi ( k Bağımsız Örneklem Varyans Analizi) Ho: Ortalamalar arasında fark yoktur. (Ho: µ1= µ2=µ3=µ4 ) H1: En azından bir ortalama diğerlerinden farklıdır.
Tek Yönlü Varyans Analizi ( k Bağımsız Örneklem Varyans Analizi) Excel’de Veri--> Data Anaysis -->Anova:Tek Etken (Anova: Single Factor)
Tek Yönlü Varyans Analizi ( k Bağımsız Örneklem Varyans Analizi)
Regresyon Analizi Değişkenler arasındaki ilişkinin incelenmesinde kullanılan tekniklerdendir. Basit doğrusal regresyon analizinde bir değişkenin (rasgele olan veya rasgele olmayıp matematiksel olabilen değişkenin) verilen değeri yardımı ile diğer değişkenin değerini hesaplamamıza veya kestirmemize yarayan eşitliğin belirlenmesi sağlanır. Basit doğrusal regresyon iki değişkenle ilgilidir. Bu değişkenlerden biri (bağımlı olan) rasgele değişken, diğeri (bağımsız olan) ise matematiksel değişkendir. Basit doğrusal regresyonda kestirimi yapılan eşitlik bir doğrunun ifadesidir. Eşitliğin kestirimi gözlem değerleri ile sağlanır.
Regresyon Analizi
Basit Doğrusal Regresyon Y= α + β X + ε 𝑌 = a + b X En Küçük Kareler Yöntemi En Küçük Kareler Yöntemi: 𝑌 = a + b X olarak tanımlanan bu doğru iki koşulu sağlamalıdır:
Basit Doğrusal Regresyon Buna göre i. Birimin bağımlı değişken ölçüm değeri Yi ve bağımlı değişken tahmin değeri 𝑌 i olmak üzere i. Birim için hata (artık) terimi ei = Yi - 𝑌 i olarak tanımlanır. İkincisi ise bu hataların (artıkların) karelerinin toplamı minimum olmalıdır. 𝑒 𝑖 = Yi − 𝑌 i = 0 𝑒 𝑖 2 = Yi − 𝑌 i 2 = min
Basit Doğrusal Regresyon 𝑏= 𝑋 𝑖 𝑌 𝑖 − 𝑋 𝑖 𝑌 𝑖 𝑛 𝑋 𝑖 2 − 𝑋 𝑖 2 𝑛 a = 𝑌 −𝑏 𝑋 𝑌 = a + b X modeli elde edilir.
Basit Doğrusal Regresyon
Basit Doğrusal Regresyon
Basit Doğrusal Regresyon Örnek: Bir ilde ölçümlenmiş SO2(µg/m³ ) ve rüzgar hızı (m/s )değerleri aşağıdaki gibidir.Bu veri setine ait basit doğrusal regresyon model denklemini bulalım. SO2(µg/m³ )(y) rüzgar hızı (m/s )(x) 22 5.7 24 4.1 21 7.2 22 3.1 24 1.5 27 1
Excel’de Regresyon Analizi
Excel’de Regresyon Analizi 𝑌 = 26.09-0.73X modeli elde edilir.
Regresyon Denklemleri
Regresyon Denklemleri Equation Model Summary Parameter Estimates R Square F df1 df2 Sig. Constant b1 b2 b3 Linear ,663 7,867 1 4 ,049 26,090 -,732 Logarithmic ,755 12,309 ,025 26,040 -2,438 Quadratic ,702 3,538 2 3 ,162 27,219 -1,536 ,100 Cubic ,835 3,373 ,237 31,885 -7,017 1,693 -,130 Compound ,679 8,444 ,044 26,131 ,969 S ,791 15,148 ,018 3,046
Sonuç Araştırmada, birden fazla yöntem kullanılıyorsa hangi sonucun elde edilmesinde hangi istatistiksel yöntemin kullanıldığı, Grup karşılaştırmalarında, neyin karşılaştırıldığı (ortalamalar, yüzdeler, medyanlar), Analiz sonucuyla bulunan p değerine göre, kurulan hipotezlerin reddedilip reddedilmediği ve bunun ne anlama geldiği belirtilmelidir.
Teşekkür ederim…