Regresyon Analizi Hanefi Özbek
Koroner arter çapı-kolesterol düzeyi arasındaki bağıntı. Y=6-0.15X Koroner arter çapı (mm) = 6 – (0.015 X Kolesterol (mg/dL))
Bu verileri formüle edebilir miyiz? Cevap: Evet. Kolesterol düzeyi örneğin 250 mg/dL olduğunda koroner arter çapını hesaplayabilir miyiz? veya Koroner arter çapını bildiğimizde kolesterol düzeyini hesaplayabilir miyiz? Bu verileri formüle edebilir miyiz? Cevap: Evet. Regresyon analizi bu konularda bize yardımcı olmaktadır.
Baştaki örnekte verilen formül nasıl elde edildi? Y = 6 – 0.015 X 6: Grafikteki doğrunun dikey ekseni kestiği yer. -0.015: Grafikteki doğrunun eğimidir. 6/400=0.015 Doğru, gittikçe azalan şekilde hareket ettiği için eğiminin işareti de «–» (negatif)dir.
Regresyon analizi: Sayısal değişkenler arasındaki ilişkinin derecesini verir. Değişkenlerden biri bilindiğinde, diğerinin değerini kestirebilmemize imkan sağlar. Kestirim yapabilmeyi sağlayan formüle regresyon eşitliği denir. Regresyon eşitliğinin formüle ettiği doğruya regresyon doğrusu denir. Bağımlı değişken sayısı tektir. Ancak bağımsız değişken sayısı birden fazla olabilir. Eğer tek bağımsız değişken var ise “Basit Doğrusal Regresyon”, iki ve daha fazla bağımsız değişken var ise “Çoklu Doğrusal Regresyon” adı verilir.
Basit doğrusal regresyon: Y = a + bX şeklinde gösterilir. Y: Bağımlı değişken. a: Sabit (constant), kesim noktası. b: Regresyon doğrusunun eğimi, regresyon katsayısı. X: Bağımsız değişken. Çoklu doğrusal regresyon: Y = B0 + B1X1 + B2X2 + B3X3 + … + BnXn
Regresyon katsayısının özellikleri Regresyon katsayısının önemi ile bağıntı katsayısının önemi paraleldir. İki değişken arasındaki bağıntı önemli bulunurken, regresyon analizi ile önemsiz bulunamaz. Regresyon katsayısı, değişkenlerin ölçüldüğü birimlerden etkilenir. Regresyon katsayısı, simetrik bir ölçüt değildir. İki değişkenden hangisinin bağımsız, hangisinin bağımlı olduğuna göre regresyon katsayısı ve kesim noktası değişir
Regresyon katsayısının özellikleri Regresyon katsayısı uç değerlerden çok etkilenir. Bu durumda değişkenlere dönüşüm uygulamak gerekebilir. Regresyon katsayısı yalnızca doğrusal ilişkinin derecesini belirtir. Regresyon katsayısının önemli bulunması, tek başına neden-sonuç ilişkisini açıklamaz. Altta yatan mantıksal bir temel olmadan regresyon katsayısının önemli olması, bir şey ifade etmez.
Regresyon analizinin varsayımları 1) X ve Y değerlerinin (bağımsız ve bağımlı değişkenlerin) normal dağılım göstermesi gerekir. 2) Standart sapmanın homojen olması gerekir: Örneğin: Kolesterol değeri 100-125 olan deneklerin SD’si ile 126-150 olanların SD’si yaklaşık olarak aynı olmalıdır). 3) İki değişken arasındaki ilişkinin doğrusal olması gerekir. 4) İncelenecek veriler tek bir gruba ait olmalıdır. Birden fazla grubun değerleri bir araya getirilmemelidir. 5) Bağımlı değişken değerleri birbirinden bağımsız olmalıdır. Bir deneğe ait birden fazla ölçüm bulunmamalıdır.
Varsayımların sağlanıp sağlanmadığının kontrolü Regresyon analizinde, genellikle tüm hesaplamalar bittikten sonra varsayımların sağlanma durumu kontrol edilebilir. Bağımlı ve bağımsız değişkenler normal dağılım gösterse bile diğer varsayımların sağlanma durumu incelenmelidir. Yol haritası: Değişkenlerin dağılımı normal mi araştır. Değişken değerleri bağımsız mı araştır. Regresyon analizini yap. Varyansların homojenliğine bak. İkili normal dağılım varsayımlarını test et: Tüm değişkenler için rezidüellerin dağılımı benzer ise varsayım sağlanmış demektir.
Rezidüel Analizi Rezidüel: Bir deneğin regresyon eşitliğinden hesaplanan bağımlı değişken değeri ile gerçek değeri arasındaki farktır. Örnek: Regresyon eşitliği aşağıdaki gibi olsun: Koroner arter çapı (mm) = 5.73 – (0.0097 X Kolesterol (mg/dL) Kolesterol düzeyi 250 mg/dL olan bir deneğin koroner arter çapı bu eşitliğe göre 3.3 mm bulunur. Bu deneğin koroner arter çapı ölçüldüğünde 4.0 mm bulunuyor ise: Bu denek için rezidüel: 4.0-3.3=0.7 olarak bulunur. Yani rezidüel, bağımlı değişkenin kestirilmesindeki yanılma payıdır. Rezidüellerin bağımsız değişkenin (kolesterol düzeyi) farklı değerleri için de benzer olması gerekir.
Rezidüel Analizi Rezidüel analizi sonunda: Kolesterol düzeyinin 100 mg/dL’den düşük olduğu ve 350 mg/dL’den yüksek olduğu durumlarda rezidüel pozitif değere sahip olsun, 100-350 mg/dL arasında negatif değere sahip olsun. Bu durumda iki değişken arasındaki ilişkinin doğrusal olmadığından kuşkulanılmalıdır. Bu durumda değişkenler nokta grafik yapılmalı ve incelenmelidir: Yatay eksende bağımlı değişkenin kestirilen değerleri, Dikey eksende rezidüeller olmalıdır. İlişki doğrusal ise, noktaların sıfırdan çizilen yatay doğru etrafında belirli bir patern çizmeden (anlamlı bir görüntü oluşturmadan) dağılması gerekir.
Bağımsız değişken sayısı birden fazla ise Koroner arter çapının hiperkolesterolemi, hipertansiyon, DM, sigara içme durumu ve erkek cinsiyetle ilişkisini araştırınız. Bağımlı değişken: Koroner arter çapının daralması. Bağımsız değişkenler: Hiperkolesterolemi, Hipertansiyon, DM, Sigara içimi, Erkek cinsiyet.
Bağımsız değişkenlerin bağımlı değişken üzerinde, hem doğrudan etkileri, hem de diğer bağımsız değişkenler üzerinden olan etkileri vardır. Bu nedenle bağımsız değişkenler tek tek değil hepsi birden denkleme konulmalıdır. Y = B0 + B1X1 + B2X2 + B3X3 + … + BnXn
Koroner arter çapı (mm) = 4.06 - 0.01 x Kolesterol (mg/dL) Örnek: Koroner arter çapı (mm) = 4.06 - 0.01 x Kolesterol (mg/dL) + 0.01 x Sist. kan basıncı (mmHg) + 0.0004 x Glukoz (mg/dL) + 0.03 x Günde içilen sigara sayısı Kan değerleri aşağıda verilen hastanın koroner arter çapını yukarıdaki regresyon eşitliğine göre hesaplayınız: Kan kolesterol düzeyi : 120 mg/dL Sistolik kan basıncı : 140 mmHg, Kan glukoz düzeyi : 110 mg/dL Günde içilen sigara sayısı : 10 adet. K. arter çapı=4.06 – 0.01x120 + 0.01x140 + 0.0004x110 + 0.03x10 K. arter çapı=4.06 – 1.2 + 1.4 + 0.04 + 0.3 K. arter çapı=4.06 + 0.54 K. arter çapı=4.60 mm.
Bağımsız Değişkenlerin Seçilmesi Bir regresyon eşitliğinde en fazla kaç adet bağımsız değişken olabilir? Bu sorunun cevabı yoktur. En az kaç adet denek gerekir? Bağımsız değişken sayısını 10 katı kadar denek gerekir. Dört adet bağımsız değişken var ise en az 40 denek gerekir.
Bağımsız Değişkenlerin Seçilmesi P değeri 0.05’ten büyük olan bağımsız değişkenleri ne yapmalı? Regresyon eşitliğinde hangi değişkenlerin tutulması, hangilerinin atılması gerektiğini saptamak için üç ayrı yöntem vardır: 1) Forward selection yöntemi, 2) Backward selection yöntemi, 3) Stepwise selection yöntemi Bu yöntemlerin üçü de birbiriyle aynı değerdedir, birinin diğerine üstünlüğü yoktur.
Forward selection yöntemi: 1. adım: Regresyon eşitliğine hiçbir bağımsız değişken yoktur. 2. adım: Bağımsız değişkenlerden bağıntı katsayısının mutlak değeri en büyük olanı eşitliğe alınır, p değeri anlamlı ise eşitlikte kalır, değilse atılır. P değeri anlamlı değilse işlem burada durur, üçüncü adıma geçilmez. 3. adım: Bağıntı katsayısının mutlak değeri ikinci büyük olan bağımsız değişken eşitliğe alınır, p değeri anlamlı ise eşitlikte kalır, değilse atılır. P değeri anlamlı değilse işlem burada durur, sonraki adıma geçilmez. İşlem bu şekilde tıkanana kadar sürdürülür.
Örnek-1 12-15 yaş grubu çocukların boy uzunluğu ile kulaç uzunluğu arasında ilişki olup olmadığı incelenmek isteniyor. Bu amaçla 10 çocuk üzerinde bir araştırma planlanıyor. Buna göre: Her çocuğun boy uzunluğu ile birlikte duvara yaslandırılarak ve kolları açtırılarak her iki ellerinin orta parmakları arasındaki mesafe (kulaç uzunlukları) ölçülüyor. Burada amaç; çocukların kulaç uzunluğundan boy uzunluklarını tahmin etmek için bir model oluşturmaktır. Bu araştırmada: Bağımlı Değişken (y): Boy uzunluğu Bağımsız Değişken (x): Kulaç uzunluğu Not: Eğer amaç «boy uzunluğuna bakarak kulaç uzunluğun ölçmek» olsa idi y ve x yer değiştirecekti.
Çocuk No Boy uzunluğu (cm) Kulaç 1 167 163 2 160 162 3 158 159 4 157 154 5 165 6 7 156 155 8 175 174 9 173 10 169
s
Örnek-1 Constant (sabit, a): 8.875 Regresyon katsayısı (b): 0.952 Y = a + bX şeklinde gösterilir. Constant (sabit, a): 8.875 Regresyon katsayısı (b): 0.952 Buna göre: Y = 8.875 + 0.952X Yani: Kişinin kulacını (X) ölçtüğümüzde bu sayıyı 0.952 ile çarpıp 8.875 sabit sayısını eklediğimizde boyunu kestirebileceğiz. Kulaç uzunluğu 163 cm olan (X=163) bir kişinin boyunu kestirmek istediğimizde: Y = 8.875 + 0.952*163 Y = 8.875 + 155.156 Y = 164.051
Bu örneği biraz daha geliştirelim: 1) Güven aralıklarını ekleyelim. 2) Rezidüel’i ekleyelim.
Örnek-2 Rasgele seçilmiş 16 kişinin sistolik kan basıncı (SKB), yaş, boy, vücut ağırlıkları ve günlük içilen sigara sayısı ölçülüyor: Yaş, boy, vücut ağırlığı ve günlük içilen sigara sayısının SKB ile bir bağıntısı var mıdır? Bağımlı değişken: SKB. Bağımsız değişkenler: Yaş, boy, vücut ağırlığı, sigara sayısı. Bağıntı var ise bunun regresyon modelini bulunuz. Yaş, boy ve vücut ağırlığı SKB’deki değişimin yüzde (%) kaçını açıklamaktadır?
Kişi No Yaş (yıl) Boy (cm) Ağırlık (kg) Sigara sayısı SKB (mmHg) 1 51 166 67.0 10 115 2 64 165 61.0 15 122 3 46 174 83.0 20 130 4 39 168 78.9 25 126 5 58 162 110 6 54 178 90.0 30 141 7 31 171 77.7 12 124 8 67 173 89.3 40 150 9 48 70.0 78 152 58.0 119 11 177 82.5 18 63.0 120 13 73 93.1 45 149 14 53 89.0 27 125 56 169 72.0 16 47 159 64.0 114
Katılımınızdan dolayı teşekkür ederim. hozbek@medipol.edu.tr