R2 Belirleme Katsayısı
R2 Regresyon denklemi ile belirlenen bağımlı değişkenliğin toplam değişkenliğe oranı: R2 = ___SS___ RSS + SS SS: Regresyonun Kareleri Toplamı RSS: Kalanların Kareleri toplamı (RSS) y değerlerinin ortalaması Hesaplanan y değeri Gözlemlenen y değeri
R2 R2 = 1 uydurulan eğri örneklemdeki tüm bağımlı değişken değerlerindeki farklılaşmayı açıklayabiliyor. R2 = 0 Regresyon denklemi verideki değişkenliği hiçbir şekilde açıklamıyor.
R2 Uyarılar Yüksek R2 değerleri geçerli bir ilişki olduğunu göstermez. Ülkedeki gazete fiyatlarıyla, hacca giden insan sayısı arasında yüksek R2’li bir ilişki bulunabilir ancak bu hacca gidenlerin gazete fiyatlarındaki değişimden dolayı olduğunu söyleyemeyiz. Bu durumda R2’nin hiçbir belirleyici gücünden söz edemeyiz.
R2 değerleri aşağıdaki 4 veri seti için de aynıdır. Her zaman için veriyi çizin. R2 = ___SS___ RSS + SS
R2 Değeri Anlamlı mı? Örneklem Büyüklüğü n %10 %5 %1 3 0.9756 0.9938 İstatistiksel Anlamlılık Seviyesi Örneklem Büyüklüğü n %10 %5 %1 3 0.9756 0.9938 0.998 4 0.810 0.903 0.980 5 0.65 0.77 0.92 25 0.11 0.16 0.26 100 0.03 0.04 0.07 Doğrusal y = ax + b modelleri için geçerlidir.
Anlamlı bir R2 modelin kullanışlı, yararlı olduğu anlamına gelmez. İki nicelik arasındaki gayet önemsiz gerçek bir ilişki yeterince yüksek sayıda gözlem yapıldığı takdirde istatistiksel olarak anlamlı hale gelebilir. Diğer taraftan az sayıdaki veri yüzünden güçlü bir ilişki istatistiksel olarak anlamlı olmayabilir. R2’nin yüksek ve istatistiksel olarak anlamlı olması istenilen bir şeydir ancak bu durumda bile tahmin edilen değerlerin belirsizliği gene de yüksek olabilir. R2’nin büyüklüğü tahmin edilen niceliklerin ne kadar doğru olduğu hakkında bir bilgi vermez.
R2 nin büyüklüğü x değişkeninin aralığına bağlıdır. Bağımsız değişkenin değişim aralığı azaldıkça R2’nin değeri de azalır. (Diğer herşey eşit alınıp gerçek modelin veriye uydurulduğunu varsayarak)
Yüksek R2 verinin gerçekçi olmayan geniş bir x aralığında toplandığına işaret edebilir.
Modelle Veri Uyumunu İncelemenin Diğer Yolları Her zaman için veriyi ve uydurulan modeli grafiksel olarak kontrol etmek Tahmin edilen değerin standard hatasını veya güvenilirlik aralığını hesaplamak
Excel’de Regresyon Araçlar/Veri Çözümleme/Regresyon
Otokorelasyonun Regresyona Etkisi Vaka: Şüpheli bir laboratuar deneyi: Öğrencilere x faktöründe 1 birim artışın y faktörünün 0.5 birim arttığını göstermek için yapılıyor (Model: y=a+0.5x). Aşağıda verilen x değerlerine karşılık öğrenciler y değerlerini ölçüyorlar. Regresyon sonuçları y = 21.04 +0.12x ve R2 = 0.12 Eğimin güvenilirlik aralığı -0.12-0.31 elde edilmesi beklenen 0.5’i içermiyor. Ayrıca bu aralık 0’ı da kapsadığından x ve y’nin ilgili olduğundan emin bile değiliz.
Oto Korelasyonun Etkisi y = ax + b a = 0.12 [-0.12,0.31] 0.5 olması gereken bu değer hem 0.5’e uzak hem de aralık 0’ı kapsıyor. Deneyler rastgele sırayla yapılması gerekirken sırayla, önce x=0, sonra x=1 şeklinde yapılmış.
Vaka İnceleme
Otokorelasyonun Regresyona Etkisi y = b0 + b1x yi = m + ei = b0 + b1xi + ei ei, kalanlar bağımsız mı? Eğer ei’nin değeri ei-1 ei-2 ile ilgili değilse bağımsızdır. Eğer ilgiliyse bunu aşağıdaki şekilde ifade edebiliriz: ei= pei-1 +ai ai : bağımsız ve normal dağılım gösteren hata p: otokorelasyon katsayısı Eğer p = 0 ise ei bağımsız Eğer 0<p≤1 ise otokorelasyon var. Ardarda gelen ei değerlerinin birbirine benzediğine işaret.
Otokorelasyonun Regresyona Etkisi Ardarda yerine koyarak: Terimlerin derecelerini sıralayarak yazarsak:
a’nın varyansı: e’nin varyansı: 0<p<1 için, p kuvvet serisi 1/(1-p2) ‘ye eşittir.
Bu eşitliğe göre eğer pozitif oto korelasyon varsa ve farkına varılıp düzeltilmezse, hesaplanan varyans gerçek varyansın 1/ (1-p2) katı olacaktır.
Otokorelasyon Testi-Durbin ve Watson testi Kalanlar içinde bir otokorelasyon olup olmadığını nasıl söyleriz? ei = yi - ˆyi yi: Ölçülen (gözlemlenen) değer ˆyi:Hesaplanan y değerleri Durbin ve Watson D istatistiği için en üst (dU)ve en alt sınır (dL) değerlerini belirlediler. Eğer dL < D < dU ise , test sonuçsuz D> dU ise p = 0 (otokorelasyon yok) D< DL ise p>0 (otokorelasyon mevcut) Eğer korelasyon negatifse, bu durumda D yerine 4-D değeri hesaplanır ve karşılaştırılır.
11 0.93 1.32
Durbin ve Watson İstatistiğinin Kritik Değer Tablosu
Örnek Yandaki veriye lineer regresyon uygulanmıştır ve kalanlar ve kalanların kareleri toplamı tabloda verilmiştir. Regresyonun olası bir otokorelasyondan etkilendiği söylenebilir mi? n = 20
Örnek
Örnek D = 1.08 dU =1.41 dL = 1.20 1.08 < 1.20 Kalanlar pozitif korelasyon gösteriyorlar.