BASİT DOĞRUSAL REGRESYON
İşlenecek olan konunun ardından Saçılım grafiğinin ne olduğu; İki değişken arasındaki ilişkinin hesaplanması ve yorumu. Hesaplanan ilişkinin anlamlı olup olmadığına karar verilmesi. Bir veri setinde basit doğrusal regresyon katsayılarının hesaplanması ve yorumu. Regresyon analizi uygulamak için gerekli varsayımların ne olduğu? Kurulan regresyon modelin anlamlılığı.
Saçılım Grafiği A Saçılım grafiği iki değişken arasındaki ilişkiyi grafik olarak gösteren yardımcı bir araçtır. X-y grafiği olarak da adlandırılır.
İki değişken arasındaki ilişki X Y (a) Doğrusal
İki değişken arasındaki ilişki X Y (b) Doğrusal
İki değişken arasındaki ilişki X Y (c) Eğrisel
İki değişken arasındaki ilişki X Y (d) İlişki yok
Saçılım grafiği ( x-y grafiği) ile, iki değişken seti arasındaki ilişkinin doğrusal olup olmadığı ve ilişkinin yönü hakkında genel bir perspektif edinilir. Bununla birlikte ilişkinin yapısı ve yönü hakkında daha tutarlı ve hassas ölçülere ihtiyaç duyulur. Korelasyon katsayısı, iki değişken arasındaki ilişkiyi matematiksel olarak ölçen bir istatistiktir.
İLİŞKİ TİPLERİ Değişkenlerin tipi ve dağılımlarına göre farklı yollarla korelasyon katsayısı hesaplanır. Pearson's r: Her iki değişkenin (metrik kesikli ve/veya sürekli) Normal dağılım veya Normal dağılım özelliği gösterdiği durumlarda Pearson’s r korelasyon katsayısı kullanılır. Spearman's rho: Her iki değişkenin metrik olmadığı sıralı ölçülerde veya Normal dağılım özelliği göstermediği durumlarda sıralamaya dayalı hesaplanan korelasyon değeridir.
Pearson’s Korelasyon Katsayısı (r) Matematiksel gösterimi
Spearman's Korelasyon Katsayısı (rs) Spearman's rho (rs): Veri seti sıralandıktan sonra aşağıdaki formül ile korelasyon hesaplanır d= iki değişken arasındaki farkı belirtir
Korelasyon Katsayısı Korelasyon katsayısı ( r ), x ve y değişkenleri arasındaki ilişkinin derecesini açıklar. Korelasyon katsayısının ( r ) işareti, ilişkinin yönünün belirler. Korelasyon katsayısı ( r ) –1 ve +1 arasındaki herhangi bir değer alabilir. Korelasyon katsayısının işareti ( r ) her zaman regresyon katsayısı ( b )’nın işareti ile aynıdır.
Korelasyon katsayısının aldığı değeri yorumlamak için: r her zaman -1 +1 aralığındadır. Bu değer her iki yana çok yakın ise, saçılım grafiğinde noktalar arası bozulma o derece küçüktür. Bu nedenle iki değişken arasında güçlü bir ilişki sözkonusudur. r -1 veya +1 değerlerine eşitse iki değişken arasında mükemmel bir ilişki vardır. Saçılım grafiğinde tüm noktalar doğru üzerinde gözükecektir. (bu doğru regresyon doğrusu olarak bilinir). Eğer r 0’a çok yakın bir değer almışsa, the bozulma oldukça büyük görünecek ve değişkenler birbiri ile ilişki göstermeyeceklerdir. Korelasyon katsayısındaki ( r ) pozitif veya negatif işaret iki değişken arasında pozitif veya negatif ilişkinin varlığına işaret eder.
KORELASYON KATSAYISININ GÜCÜ r = -1: Mükemmel negatif bir ilişki ( x yukarı çıkarken, y aşağı doğru) r = +1: Mükemmel pozitif bir ilişki ( x yukarı çıkarken, y yukarı çıkar) r = 0: x ve y arasında bir ilişki görülmemektedir Bu değerlerin dışında bir katsayı hesaplandığında genel olarak korelasyon katsayısı ( r ) için: 0.0 ile 0.2 Çok zayıf veya ihmal edilebilir bir ilişki 0.2 ile 0.4 Zayıf, düşük ilişki 0.4 ile 0.7 orta derecede ilişki 0.7 ile 0.9 Güçlü, yüksek ilişki 0.9 ile 1.0 Çok yüksek ilişki
Saçılım Grafiği r= -1 r= 0 r= +1 Mükemmel İlişki yok Mükemmel negatif pozitif
Örnek: Hemoglobin verilerini kullanarak Pearson’s ve Spearman’s korelasyon katsayılarını hesaplayıp, yorumlayınız . No Hamile Hafta (x) Hemo. (y) x2 y2 xy 1 33 10.8 1089 116.6 356.4 2 9.5 90.3 313.5 3 23 14.2 529 201.6 326.6 4 34 9.7 1156 94.1 329.8 . 17 27 12.8 729 163.8 345.6 18 29 11.0 841 121.0 319.0 19 24 13.5 576 182.3 324.0 20 31 961 334.8 Top. 581 236.6 17215 2842.4 6761.6
Pearson’s Korelasyon Katsayısı Hemoglobin düzeyi ile hamilelik (hafta) arasında negatif güçlü bir ilişki vardır. (Pearson’s r= -0.922)
PEARSON’S KORELASYON KATSAYISININ SPSS ÇIKTISI
Spearman’s Korelasyon Katsayısı (rs) No Hafta Rank1 Hemo. Rank2 D= Rank1-Rank2 1 33 16.0 9,5 1.0 15 2 34 18.0 9,7 2.5 15,5 3 35 19.5 17 4 10,5 4.0 12 . 24 13,5 17.0 -13 18 22 13,8 -17 19 25 5.0 14 19.0 -14 20 23 14,2 20.0 -17,5 R1: Hafta sıralaması; R2: hemoglobin düzeyi sıralaması
Spearman’s Korelasyon Katsayısı (rs) Hemoglobin düzeyi ile hamilelik (hafta) arasında negatif güçlü bir ilişki vardır. (Spearman’s rho rs= -0.916).
SPEARMAN’S KORELASYON KATSAYISININ SPSS ÇIKTISI
BASİT DOĞRUSAL REGRESYON Doğrusal regresyon analizi, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasında bir ilişki kurar. Doğrusal model, bağımlı değişkeni bağımsız değişkenin aldığı değerin doğrudan oranı olarak gösterir. Basit Doğrusal regresyon analizinde sadece bir bağımsız değişken bulunur.
Bağımlı değişken (y); regresyon modelinde açıklanan veya tahmin edilecek olan değişkendir. Bu değişkenin bağımsız değişkenle fonksiyonel bir ilişkide olduğu varsayılır. Bağımsız değişken (x) regresyon modelinde bağımlı değişken ile ilişkili değişkendir. Bağımsız değişken, regresyon modelinde bağımlı değişkenin değerini tahmin etmek için kullanılır.
BASİT DOĞRUSAL REGRESYON MODELİ (POPULASYON MODELİ) y = + βx + ε y= bağımlı değişken x= bağımsız değişken = sabit (y-eksenini kestiği nokta) β= regresyon doğrusunun eğimi ε= hata terimi veya artık
Regresyon Parametreleri = sabit doğrunun y eksenini kestiği nokta. Bağımsız değişkenin değerinin = 0 olduğu durumda bağımlı değişkenin aldığı değerdir. β = eğim Bağımsız değişkendeki değişime dayalı olarak bağımlı değişkende görülen değişimdir. Eğimin alacağı katsayının işareti iki değişken arasındaki ilişkiye bağlı olarak pozitif veya negatif olabilir.
(ÖRNEKLEM MODELİ) TAHMİN EDİLEN REGRESYON MODELİ = Tahmin edilen y değeri (bağımlı değişken) a = regresyon sabit değerinin yansız tahmini b = regresyon eğiminin yansız tahmini x = bağımsız değişken değeri
Basit doğrusal regresyon modelin bazı varsayımları bulunmaktadır: I hata terimlerinin her biri istatistiksel olarak bir diğerinden bağımsızdır. hata terimlerinin aldığı değerler normal dağılım özelliği göstermelidir. Hata varyansı sabittir ve veriler arasında hiç değişmediği varsayılır. Buna otokorelasyon veya serisel korelasyon bulunmaması varsayımı adı verilir. Bağımsız değişken hatasızdır. Eğer bağımsız değişkende hata bulunduğu varsayılırsa özel bir yöntem şekli olan değişkenler-içinde-hata modeli teknikler kullanılarak model kurulmalıdır.
ε = Hata terimi (artık) Regresyon modelleri tam (%100) doğru tahmin yapma özeliğine sahip değillerdir. Hata terimi (artık), gözlenen değer ile model tarafından tahmin edilen değer arasındaki farktır.
Artık terminin (hata) grafiksel gösterimi Y 390 400 300 312 200 100 X 4 ε= Artık = 312 - 390 = -78
Regresyon Parametrelerinin Tahmini b ve a katsayıları aşağıdaki eşitlikler kullanılarak hesaplanır :
En küçük kareler (EKK) yöntemi kullanılarak modeldeki artık kareler toplamı minimize edilerek parametre tahminleri yapılır.
Örnek: Hamilelik haftası ile hemoglobin düzeyi arasında anlamlı bir ilişki bulunmakta mıdır? Basit doğrusal regresyon modelini oluşturarak eğim parametresinin anlamlılığını test ediniz. No Hafta Hemoglobin 1 33 10.8 11 10.5 2 9.5 12 30 11.0 3 23 14.2 13 35 10.9 4 34 9.7 14 25 14.0 5 32 11.2 15 22 13.8 6 16 28 12.9 7 12.1 17 27 12.8 8 13.0 18 29 9 12.0 19 24 13.5 10 26 13.2 20 31
No Hafta (x) Hemo. (y) x2 xy 1 33 10.8 1089 356.4 2 9.5 313.5 3 23 14.2 529 326.6 4 34 9.7 1156 329.8 . 17 27 12.8 729 345.6 18 29 11.0 841 319.0 19 24 13.5 576 324.0 20 31 961 334.8 Total 581 236.6 17215 6761.6
Regresyon parametrelerinin tahmini Eğim parametresinin (b) anlamlılığının testi tα, n-(p+1)= t(0.05, 18)= 2.1, t= 10.1 > t(0.05, 18)= 2.1, red H0; eğim sıfır değildir. (n= örneklem genişliği, p= bağımsız değişken sayısı)
ARALIK TAHMİNİ Tahminler çekilen örnekten örneğe değişeceğinden regresyon katsayılarını standart hataları ile vermek yerinde olacaktır , . Tahminlerin standart hataları çoğu istatistik paket programının çıktılarında confidence interval (güven aralığı) CI olarak gösterilir ve β’nın içinde bulunduğu aralık ile birlikte verilir: (1-α)% CI for β 95% güven aralığında β: (-4.000, -0.263) (t(0.05, 18)= 2.1).
Belirtme katsayısı (determinasyon katsayısı) Belirtme katsayısı, doğrusal modelin uyum iyiliğinin en iyi ölçüsüdür. Bağımlı değişkendeki değişimin ne kadarının bağımsız değişken (ler) tarafından açıklandığını ifade eder. Bu durum, regresyon modelinin açıklayıcılık gücünün iyi bir göstergesidir. ( R2 ) Örneğimizde, hemoglobin düzeyindeki değişimin %85’nin hamileliğin bulunduğu hafta ile açıklanabileceği hesaplanmıştır. (R2= 0.85).
Örnek: SPSS ile yaş ile %yağ değişkenleri arasındaki ilişkiyi Person ve Spearman’s korelasyon katsayıları kullanarak hesaplayınız. Değişkenler arasında anlamlı bir ilişki varsa regresyon modelini oluşturarak modelin anlamlılığını test ediniz. No Yaş Rank %Yağ 1 23 1.5 9.5 2 10 53 10.5 34.7 16 27.9 7 11 42.0 18 3 27 3.5 7.8 12 54 12.0 29.1 8 4 17.8 13 56 13.0 32.5 5 29 5.0 31.4 14 57 14.0 30.3 9 6 41 6.0 25.9 15 58 15.5 33.0 45 7.0 27.4 33.8 49 8.0 25.2 17 60 17.0 41.1 50 9.0 31.1 61 18.0 34.5
FAT %
SPSS ÇIKTISI