Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

İstatistik: 2. Hafta Böte Yüksek Lisans.

Benzer bir sunumlar


... konulu sunumlar: "İstatistik: 2. Hafta Böte Yüksek Lisans."— Sunum transkripti:

1 İstatistik: 2. Hafta Böte Yüksek Lisans

2 Saçılım Grafiği Saçılım grafiği iki değişken arasındaki ilişkiyi grafik olarak gösteren yardımcı bir araçtır. X-y grafiği olarak da adlandırılır.

3 İki değişken arasındaki ilişki
X Y (a) Doğrusal

4 İki değişken arasındaki ilişki
X Y (b) Doğrusal

5 İki değişken arasındaki ilişki
X Y (c) Eğrisel

6 İki değişken arasındaki ilişki
X Y (d) İlişki yok

7 Saçılım grafiği ( x-y grafiği) ile, iki değişken seti arasındaki ilişkinin doğrusal olup olmadığı ve ilişkinin yönü hakkında genel bir perspektif edinilir. Bununla birlikte ilişkinin yapısı ve yönü hakkında daha tutarlı ve hassas ölçülere ihtiyaç duyulur. Korelasyon katsayısı, iki değişken arasındaki ilişkiyi matematiksel olarak ölçen bir istatistiktir.

8 İLİŞKİ TİPLERİ Değişkenlerin tipi ve dağılımlarına göre farklı yollarla korelasyon katsayısı hesaplanır. Pearson's r: Her iki değişkenin (metrik kesikli ve/veya sürekli) Normal dağılım veya Normal dağılım özelliği gösterdiği durumlarda Pearson’s r korelasyon katsayısı kullanılır. Spearman's rho: Her iki değişkenin metrik olmadığı sıralı ölçülerde veya Normal dağılım özelliği göstermediği durumlarda sıralamaya dayalı hesaplanan korelasyon değeridir.

9 Pearson’s Korelasyon Katsayısı (r)
Matematiksel gösterimi

10 Spearman's Korelasyon Katsayısı (rs)
Spearman's rho (rs): Veri seti sıralandıktan sonra aşağıdaki formül ile korelasyon hesaplanır d= iki değişken arasındaki farkı belirtir

11 Korelasyon Katsayısı Korelasyon katsayısı ( r ), x ve y değişkenleri arasındaki ilişkinin derecesini açıklar. Korelasyon katsayısının ( r ) işareti, ilişkinin yönünün belirler. Korelasyon katsayısı ( r ) –1 ve +1 arasındaki herhangi bir değer alabilir. Korelasyon katsayısının işareti ( r ) her zaman regresyon katsayısı ( b )’nın işareti ile aynıdır.

12 Korelasyon katsayısının aldığı değeri yorumlamak için:
r her zaman aralığındadır. Bu değer her iki yana çok yakın ise, saçılım grafiğinde noktalar arası bozulma o derece küçüktür. Bu nedenle iki değişken arasında güçlü bir ilişki sözkonusudur. r -1 veya +1 değerlerine eşitse iki değişken arasında mükemmel bir ilişki vardır. Saçılım grafiğinde tüm noktalar doğru üzerinde gözükecektir. (bu doğru regresyon doğrusu olarak bilinir). Eğer r 0’a çok yakın bir değer almışsa, bozulma oldukça büyük görünecek ve değişkenler birbiri ile ilişki göstermeyeceklerdir. Korelasyon katsayısındaki ( r ) pozitif veya negatif işaret iki değişken arasında pozitif veya negatif ilişkinin varlığına işaret eder.

13 KORELASYON KATSAYISININ GÜCÜ
r = -1: Mükemmel negatif bir ilişki ( x yukarı çıkarken, y aşağı doğru) r = +1: Mükemmel pozitif bir ilişki ( x yukarı çıkarken, y yukarı çıkar) r = 0: x ve y arasında bir ilişki görülmemektedir. Bu değerlerin dışında bir katsayı hesaplandığında genel olarak korelasyon katsayısı ( r ) için: 0.0 ile 0.2 Çok zayıf veya ihmal edilebilir bir ilişki 0.2 ile 0.4 Zayıf, düşük ilişki 0.4 ile 0.7 orta derecede ilişki 0.7 ile 0.9 Güçlü, yüksek ilişki 0.9 ile 1.0 Çok yüksek ilişki

14 Saçılım Grafiği r= -1 r= 0 r= +1 Mükemmel İlişki yok Mükemmel
negatif pozitif

15 Örnek: Hemoglobin verilerini kullanarak Pearson’s ve Spearman’s korelasyon katsayılarını hesaplayıp, yorumlayınız . No Hamile Hafta (x) Hemo. (y) x2 y2 xy 1 33 10.8 1089 116.6 356.4 2 9.5 90.3 313.5 3 23 14.2 529 201.6 326.6 4 34 9.7 1156 94.1 329.8 . 17 27 12.8 729 163.8 345.6 18 29 11.0 841 121.0 319.0 19 24 13.5 576 182.3 324.0 20 31 961 334.8 Top. 581 236.6 17215 2842.4 6761.6

16

17 Pearson’s Korelasyon Katsayısı
Hemoglobin düzeyi ile hamilelik (hafta) arasında negatif güçlü bir ilişki vardır. (Pearson’s r= )

18 PEARSON’S KORELASYON KATSAYISININ SPSS ÇIKTISI

19 Spearman’s Korelasyon Katsayısı (rs)
No Hafta Rank1 Hemo. Rank2 D= Rank1-Rank2 1 33 16.0 9,5 1.0 15 2 34 18.0 9,7 2.5 15,5 3 35 19.5 17 4 10,5 4.0 12 . 24 13,5 17.0 -13 18 22 13,8 -17 19 25 5.0 14 19.0 -14 20 23 14,2 20.0 -17,5 R1: Hafta sıralaması; R2: hemoglobin düzeyi sıralaması

20 Spearman’s Korelasyon Katsayısı (rs)
Hemoglobin düzeyi ile hamilelik (hafta) arasında negatif güçlü bir ilişki vardır. (Spearman’s rho rs= ).

21 SPEARMAN’S KORELASYON KATSAYISININ SPSS ÇIKTISI

22 BASİT DOĞRUSAL REGRESYON
Doğrusal regresyon analizi, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasında bir ilişki kurar. Doğrusal model, bağımlı değişkeni bağımsız değişkenin aldığı değerin doğrudan oranı olarak gösterir. Basit Doğrusal regresyon analizinde sadece bir bağımsız değişken bulunur.

23 Bağımlı değişken (y); regresyon modelinde açıklanan veya tahmin edilecek olan değişkendir. Bu değişkenin bağımsız değişkenle fonksiyonel bir ilişkide olduğu varsayılır. Bağımsız değişken (x) regresyon modelinde bağımlı değişken ile ilişkili değişkendir. Bağımsız değişken, regresyon modelinde bağımlı değişkenin değerini tahmin etmek için kullanılır.

24 BASİT DOĞRUSAL REGRESYON MODELİ (POPULASYON MODELİ)
y =  + βx + ε y= bağımlı değişken x= bağımsız değişken = sabit (y-eksenini kestiği nokta) β= regresyon doğrusunun eğimi 𝜀= hata terimi veya artık

25 Regresyon Parametreleri
 = sabit doğrunun y eksenini kestiği nokta. Bağımsız değişkenin değerinin = 0 olduğu durumda bağımlı değişkenin aldığı değerdir. β = eğim Bağımsız değişkendeki değişime dayalı olarak bağımlı değişkende görülen değişimdir. Eğimin alacağı katsayının işareti iki değişken arasındaki ilişkiye bağlı olarak pozitif veya negatif olabilir.

26 (ÖRNEKLEM MODELİ) TAHMİN EDİLEN REGRESYON MODELİ
= Tahmin edilen y değeri (bağımlı değişken) a = regresyon sabit değerinin yansız tahmini b = regresyon eğiminin yansız tahmini x = bağımsız değişken değeri

27 Basit doğrusal regresyon modelin bazı varsayımları bulunmaktadır:
I hata terimlerinin her biri istatistiksel olarak bir diğerinden bağımsızdır.  hata terimlerinin aldığı değerler normal dağılım özelliği göstermelidir. Hata varyansı sabittir ve veriler arasında hiç değişmediği varsayılır. Buna otokorelasyon veya serisel korelasyon bulunmaması varsayımı adı verilir. Bağımsız değişken hatasızdır. Eğer bağımsız değişkende hata bulunduğu varsayılırsa özel bir yöntem şekli olan değişkenler-içinde-hata modeli teknikler kullanılarak model kurulmalıdır.

28 ε = Hata terimi (artık) Regresyon modelleri tam (%100) doğru tahmin yapma özeliğine sahip değillerdir. Hata terimi (artık), gözlenen değer ile model tarafından tahmin edilen değer arasındaki farktır.

29 Artık terminin (hata) grafiksel gösterimi
Y 390 400 300 312 200 100 X 4 ε= Artık = = -78

30 Regresyon Parametrelerinin Tahmini
b ve a katsayıları aşağıdaki eşitlikler kullanılarak hesaplanır :

31 En küçük kareler (EKK) yöntemi kullanılarak modeldeki artık kareler toplamı minimize edilerek parametre tahminleri yapılır.

32 Örnek: Hamilelik haftası ile hemoglobin düzeyi arasında anlamlı bir ilişki bulunmakta mıdır? Basit doğrusal regresyon modelini oluşturarak eğim parametresinin anlamlılığını test ediniz. No Hafta Hemoglobin 1 33 10.8 11 10.5 2 9.5 12 30 11.0 3 23 14.2 13 35 10.9 4 34 9.7 14 25 14.0 5 32 11.2 15 22 13.8 6 16 28 12.9 7 12.1 17 27 12.8 8 13.0 18 29 9 12.0 19 24 13.5 10 26 13.2 20 31

33 No Hafta (x) Hemo. (y) x2 xy 1 33 10.8 1089 356.4 2 9.5 313.5 3 23 14.2 529 326.6 4 34 9.7 1156 329.8 . 17 27 12.8 729 345.6 18 29 11.0 841 319.0 19 24 13.5 576 324.0 20 31 961 334.8 Total 581 236.6 17215 6761.6

34 Regresyon parametrelerinin tahmini
Eğim parametresinin (b) anlamlılığının testi tα, n-(p+1)= t(0.05, 18)= 2.1, t= 10.1 > t(0.05, 18)= 2.1, red H0; eğim sıfır değildir. (n= örneklem genişliği, p= bağımsız değişken sayısı)

35 ARALIK TAHMİNİ Tahminler çekilen örnekten örneğe değişeceğinden regresyon katsayılarını standart hataları ile vermek yerinde olacaktır , Tahminlerin standart hataları çoğu istatistik paket programının çıktılarında confidence interval (güven aralığı) CI olarak gösterilir ve β’nın içinde bulunduğu aralık ile birlikte verilir: (1-α)% CI for β 95% güven aralığında β: (-4.000, ) (t(0.05, 18)= 2.1).

36 Belirtme katsayısı (determinasyon katsayısı) Belirtme katsayısı, doğrusal modelin uyum iyiliğinin en iyi ölçüsüdür. Bağımlı değişkendeki değişimin ne kadarının bağımsız değişken (ler) tarafından açıklandığını ifade eder. Bu durum, regresyon modelinin açıklayıcılık gücünün iyi bir göstergesidir. ( R2 ) Örneğimizde, hemoglobin düzeyindeki değişimin %85’nin hamileliğin bulunduğu hafta ile açıklanabileceği hesaplanmıştır. (R2= 0.85).

37 Anlam Çıkarıcı İstatistiksel Yöntemler
Seçilen örnekten hareketle anakütle parametreleri hakkında tahminlerde bulunmayı, anakütle ile ilgili hipotezler için sorgulama yapmayı ve karar vermeyi içerir. Parametrik ve parametrik olmayan hipotez testleri, regresyon analizi vs. bu grupta yer alır. Bir malın günlük satışlarının ortalamasının %95 güvenle 15;20 birim arasında olacağının tahmini çıkarımsal istatistiğe örnek gösterilebilir.

38 Anlam Çıkarıcı İstatistiksel Yöntemler
Hangi istatistik yöntem kullanılırsa kullanılsın bir istatistik çalışmanın temeli veriye dayanmaktadır. Şu halde bir istatistik çalışmanın güvenilir olabilmesi için verinin doğru bir şekilde elde edilmiş olması gerekir. Anlam çıkarıcı istatistiksel analizler genel olarak iki tür araştırmaları kapsar. Gözlemlerin ait olduğu örneklem hipotezimizdeki evrene ait midir? İki örneklem üzerinde yapılan gözlemler sonucu bulunan farklar örneklemlerin ait olduğu evrenler arasında da var mıdır? İki örneklem aynı evrene ait midir?

39 Hipotez Oluşturma Bir araştırma tasarlanırken öncelikle incelenecek değişkenler arasındaki ilişkilerden yola çıkarak literatürdeki araştırmalar ışığında ve üretici düşünme becerisi yardımıyla somut olarak test edilebilen araştırma problemleri orta konur. Belirlenen araştırma problemi doğrultusunda veriler toplanarak hipotez testi yapılır ve hipotez hakkında kabul veya red kararı verilir. Bir araştırmada değişkenler arasındaki ilişki hakkında yorumda bulunmak için 2 tür hipotez kullanılır. Null Hipotez (H0) Alternatif Hipotez (H1 veya HA)

40 Null Hipotezi (H0) İstatistiksel hipotez veya temel hipotez
Her zaman eşitliğe dayanır. Gruplar arasında fark olmadığını (H0: µ1= µ2), veya Değişkenler arasında ilişki olmadığını belirtir. (H0: ρXY= 0)

41 Alternatif Hipotez (H1)
Araştırmaya yön veren hipotez Araştırma hipotezi Araştırmacının beklentilerini gösterir. Değişkenler arasında fark olduğunu (H1: µ1≠ µ2), veya Değişkenler arasında ilişki olduğunu belirtir. (H1: ρXY ≠ 0)

42 Hipotez Testleri İstatistiksel analizlerde eşitliğe yer verme özelliği nedeniyle test edilen hipotez her zaman için hangisidir? H0 için yapılan test sonucundan hareketle araştırmacı H1’in kabul edilme veya reddedilme kararını verir. H0 reddedilmezse (kabul edilirse) grup ortalamaları arasındaki farkın sadece şans faktöründen (örnekleme hatasından) kaynaklandığı sonucuna varılır. H0 reddedilirse, H1kabul edilmiş olur ve grup ortalamaları arasındaki farkın sadece şans eseri veya örnekleme hatasından kaynaklanmış olamayacağı sonucuna varılır.

43 Hipotez Testleri İstatistiksel testlerde kesin doğruluk veya yanlışlık kararı verilemez.  Çünkü her şey olasılık hesabına dayanır ve hiçbir olasılık %100 veya %0 değildir. Hipotez testlerinde kararlar verilirken sonuçların tamamen şans eseri gerçekleşme ihtimali mevcuttur.  Bu ihtimal (p) daha önceden göz önüne alınarak araştırma türüne göre %5, %1 veya %1 olarak sınırlanabilir. %95, %99 Güven Aralığı p ≤ 0,05 ise 100 seferde 5 kez hata yapma ihtimali göz önüne alınarak karar verilmiş olur. Belirlenen bu p düzeyine anlamlılık düzeyi denir ve α ile gösterilir. ➢ α=,05 α=,01 veya α=,001

44 Hipotez Testi Süreci H0 : µ A = µ B veya H0 : µ A - µ B = 0
H0 ve H1’in Belirlenmesi Hipotez testleriyle evren hakkında yorumlar yapılmak istendiğinden sembollerde evrendeğerleri gösteren Yunan harfleri kullanılır. Hipotezler semboller yerine sözcüklerle de ifade edilebilir. Hipotezler, tek yönlü veya çift yönlü olarak belirlenebilir. Hipotezlerin yön sayısı çalışmaya başlamadan önce araştırmacının beklentilerine göre belirlenmelidir. A ve B gruplarının ortalamaları için; H0 : µ A = µ B veya H0 : µ A - µ B = 0 H1 : µ A > µB veya H1 : µ A - µ B > 0 (Tek Yönlü) H1 : µ A ¹ µ B ¹ 0 (Çift Yönlü)

45 Hipotez Testi Süreci Test Ölçütlerinin Belirlenmesi
Kullanılacak test istatistiği (z, t, F, Ki-Kare) Hata oranını etkileyecek anlamlılık düzeyi (α) Serbestlik derecesi α’ya bağlı değişen kritik test istatistiği değeri Test İstatistiğinin Değerinin Hesaplanması Seçilen test istatistiğine göre gruplar arası farkı temsil eden değerin hesaplanması  Hipotez Hakkında Karar Verilmesi Hesaplanan test istatistiği değeri ile kritik değer anlamlılık düzeyinde karşılaştırılarak H0 kabul veya reddedilir.

46 Uygun Test İstatistiğinin Seçimi
Bağımlı değişkenin ölçülme türüne, sayısına, veri dağılımının özelliklerine ve örneklem boyutuna göre farklı test istatistiklerinin kullanılması gerekir. Test istatistikleri parametrik ve parametrik olmayan testler olarak iki gruba ayrılır. Parametrik Yöntemler Parametrik Olmayan Yöntemler Eşit Oran/Aralık Ölçeği Sınıflama, Sıralama Normal Dağılım Normal Dağılım şartı yok n≥30 (n≥15 kabul edenler de var) n<15 olabilir.

47 Parametrik ve Parametrik Olmayan Yöntemler
Parametrik Yöntemler Parametrik Olmayan Yöntemler z, t, F testleri Mann Whitney U Testi, Wilcoxon İşaret Testi, Kruskall-Wallis Testi Pearson Korelasyon Katsayısı Spearman Sıra Farkları Korelasyon Katsayısı Regresyon Analizi Ki-Kare Testi

48 Hipotez Testlerinde Hata Çeşitleri
BİZİM KARARIMIZ H0 KABUL H0 RED GERÇEK DURUM H0 DOĞRU (Doğru Karar) 1. TÜR HATA (α) H0 YANLIŞ 2. TÜR HATA (β)

49 Normal Dağılım Yoluyla Anlam Çıkarıcı İstatistiksel Yöntemler
Tek Örneklem: H0 yanlışlığı kanıtlanana kadar doğrudur. Ortalamalar arasındaki fark arttıkça, bu farkın şans yoluyla (örnekleme hatasıyla) olma olasılığı azalır. İki Örneklem: Uzun mesafe koşucuları ile kısa mesafe koşularının kalp atışı sayıları aynı mıdır? Bu durumu araştırmak için de uzun ve kısa mesafe koşucularından rastgele iki örneklem seçilir. Tek örneklem testinde izlenilen yollar takip edilerek H0 hakkında bir karara varılır.

50 Normal Dağılım Yoluyla Anlam Çıkarıcı İstatistiksel Yöntemler
Yukarıda tanımlanan araştırmalarda her kategorimiz için tek örneklem göz önüne alırız fakat aynı evrene ait olsalar bile her defasında aynı amaç için seçilen örneklemlerin ortalamaları arasında ufak ta olsa farklar olacaktır. Örneklem ortalamalarının farklılık göstermesi gerçekte H0 ile tanımlanan evrenden örnekleme yapıp yapmadığımız kararını vermemizi zorlaştırır. Bu nedenle, evrenden seçilen örneklemlerin dağılımının özelliklerini bilmek faydalıdır. Amaç: Aynı evrenden seçilen örneklemlerin ortalamasının ne kadar değişebileceğini bilmek

51 Örneklem Ortalamaları Dağılımı
H0 hakkında karar vermeden önce bize gerekli olan, H0 doğru kabul edildiğinde (H0 ile tanımlı şart altında) aynı evrenden seçilen örneklemlerin ortalamaları arasında ne kadar değişim olabileceğinin belirlenmesidir. Örneklem ortalamalarının oluşturduğu bu dağılıma Örneklem Ortalamaları Dağılımı (Sampling Distribution of Means) denir.  Mesela, dakikadaki kalp atışı sayısı için 36 kişiden oluşan farklı örneklemler seçilsin. Örnekleme hatası nedeniyle örneklemlerin ortalamaları hep aynı olmayacak, aralarında bazı farklar gözlenecektir.

52 Örneklem Ortalamaları Dağılımı
Örneklem ortalamaları dağılımı, H0 doğru ilen herhangi bir olayın gözlenme frekansını gösterir. Rastgele seçilmiş n elemandan oluşan örneklemlerin ortalamaları dağılımı için matematiksel olarak şunlar söylenebilir. Normal dağılım gösterir.  Ortalaması, evrenin ortalamasına (µ) eşittir. Standart sapması (σX) yani Ortalamanın Standart Hatası (Standart Error of Mean) şu şekilde hesaplanır.

53 Örneklem Ortalamaları Dağılımı

54 T- TESTİ T testi, hipotez testlerinde en yaygın olarak kullanılan yöntemdir. T testi ile iki grubun ortalamaları karşılaştırılarak, aradaki farkın rastlantısal mı, yoksa istatistiksel olarak anlamlı mı olduğuna karar verilir. Küçük örnekleme teorisi olarak da bilinen t dağımı, küçük örneklemlerle de çalışmaya imkan verdiğinden, araştırmacılar için büyük kolaylık sağlamaktadır.

55 T- TESTİ İncelenen bir değişken açısından bir gruba ait ortalama değerin önceden belirlenen değerden farklı olup olmadığının,  İncelenen bir değişken açısından bağımsız iki grup arasında fark olup olmadığının, İncelenen bir değişken açısından herhangi bir grubun farklı koşullar altındaki tepkilerinde farklılığın olup olmadığının incelenmesine yönelik hipotezleri test etmeye yönelik olarak geliştirilmiş bir analiz yöntemidir. 

56 T- TESTİ Bu nedenle üç tür T testi bulunmaktadır.
Bunlar tek grup t testi (one-sample t test), bağımsız iki grup arası farkların t testi (independent samples "t" test) ve eşleştirilmiş iki grup (paired-samples "t" test) arasındaki farklılıkların incelenmesine yönelik "T" testidir. 

57 T- TESTİ Tek grup "t"-Testi (one-sample test) Bu test genellikle herhangi bir konuda belirli öngörülerde bulunulduğunda bu öngörünün doğruluk derecesini test etmek amacıyla uygulanır. Örnekler:  - A işletmesinde çalışan 5000 personelin yaş ortalamasının 37 olduğu biliniyor. Rasgele seçilen 500 kişilik örneklemin yaş ortalaması 37'den farklı mıdır?  - Bir üniversitede okuyan öğrencilere günlük harcamalarının ne kadar olduğu soruluyor. Acaba öğrencilerin günlük harcamalarının ortalaması (öngörülen) 10 milyondan farklı mıdır?

58 T- TESTİ Bağımsız iki grup arası farkların testi (Independest Samples "t" test) Bir araştırmada çoğu kez farklı ana kütleden elde edilen gruplar arasında karşılaştırmalar yapmak gerekir. İşte bu gibi analizler T testi ile yapılır. Örnekler:  - Evli ve bekar deneklerin aylık harcamaları arasında anlamlı bir farklılık var mıdır?  - Yönetici ve personelin işletmedeki çalışma ortamına ilişkin görüşleri arasında anlamlı bir farklılık var mıdır?  - Yerli ve yabancı turistlerin müşteri tatminine ilişkin görüşleri arasında anlamlı bir farklılık var mıdır? 

59 T- TESTİ Bağımsız T- Testi

60 T-TESTİ Eşleştirilmiş iki grup arasındaki farkların testi (Paired-Samples "t" testi) Bağımsız iki grup için farkların testi konusu incelenirken grupların birbirlerinden bağımsız evrenlerden geldiği varsayımı kabul edilmekte idi. Ancak özellikle kontrollü ve deneysel çalışmalarda aynı deneklerin farklı durumlarda nasıl davrandıklarının incelenmesine gerek duyulabilir. Amaç farklı iki koşulda elde edilen sonuçların farklı olup olmadığını araştırmaktır.


"İstatistik: 2. Hafta Böte Yüksek Lisans." indir ppt

Benzer bir sunumlar


Google Reklamları