Bölüm 2. İki Değişkenli Regresyon Çözümlemesi: Bazı Temel Bilgiler Ödev 2 öncesi hazırlık soruları Ders kitabının 45. sayfasındaki 2.1 nolu soru Ders kitabının 45. sayfasındaki 2.2 nolu soru Ders kitabının 46. sayfasındaki 2.3 nolu soru Ders kitabının 46. sayfasındaki 2.4 nolu soru Ders kitabının 47. sayfasındaki 2.5 nolu soru
Bölüm 2. İki Değişkenli Regresyon Çözümlemesi: Bazı Temel Bilgiler 2.1.Varsayımsal Bir Örnek X`ler veri iken Y bağımlı değişkeninin değeri nasıl bulunmakta…… Aşağıdaki örnek bu sorunun cevabı ile ilgilidir 60 Aileden oluşan küçük bir ülkedeki X:Haftalık Vergi Sonrası Gelirleri Y: Haftalık Tüketim Harcamaları Arasındaki ilişkiyi inceleyelim.
60 aileyi gelir durumlarına göre 10 gruba ayıralım (0-80], (80-100], (100-120]. Geliri 80 ve 80 den az olan aile sayısı 5 ve onlarında haftalık tüketimi şu şekilde (55. 60. 65.70.75).Haftalik gelirleri X=$260 iken 7 ailenin harcamalari $150 ile $191 dolar arasindadir. Her bir sütunu belli bir gelir düzeyine (X) karşılık gelen tüketim harcamalarının (Y) dağılımını, belli X değerlerine karşılık gelen Y koşullu dağılımını gösterir.
Çizelge 2. 1 tüm ana kütleye ait datadir. Çizelge 2 Çizelge 2.1 tüm ana kütleye ait datadir. Çizelge 2.2 koşulluk olasılık dagılım tablosudur. Y’ nin koşullu olasıklarını “p (Y |X)” yani X verilmişken Y’ nin olasılığını hesaplayabiliriz. Örnek olarak, X=80$ olduğunda 5 farkı (Y) değeri vardır: 55$, 60$, 65$, 70$, 75$. Yani X=80$ iken bu tüketim harcamalarından her birinin gerçekleşme olasılığı1/5’ dir. Simge ile gösterilecek olursa p ( Y=55 | X=80 ) = 1/5. çizelge 2.1’ deki veriler için koşullu olasılıklar çizelge 2.2 dedir.
Artık Y’ nin her bir koşullu olasılık dağılımı için, koşullu ortalama yada koşullu beklenen değer diye bilinen, E ( Y | X = Xi ) ile gösterilen, “ X, belli bir Xi değerini aldığında Y’ nin beklenen değeri” diye okunan ortalamayı buluruz. X=80 iken Y`nin kosullu olasiligi yada beklenen degeri 55(1/5)+60(1/5)+65(1/5)+70(1/5)+75(1/5)=65 Y nin kosullu olasiliklari en son satirda yazılmıştır. Yorum….Ortalama gelir $80 iken ortalama ne kadar tüketiyorlar ….5 aile ortalama $65 tuketiyorlar Cizelge 2.2 P(Y|X) kosullu olasilik dagilimini göstermektedir. Çizim 2.1 sayfa 35 deki grafik gelir-tüketim ilişkisinin grafikle gösterildigi çizimdir. Grafikte çizilen dogrunun nasıl elde edildigi Y nin kosullu olasılıgı ile ilişkilidir? Nasıl mı?
Çizelge 2. 1 datalarını çizim 2. 1 de göstermek mümkündür Çizelge 2.1 datalarını çizim 2.1 de göstermek mümkündür. X eksenindeki 80 dolara 5 data karşılık gelmektedir, Neden? X (haftalik gelir) artar iken Y nin koşullu ortalama degerleride artmaktadır. Yani haftalık tüketimde artmaktadır. Şimdi Y’ nin çeşitli koşullu olasılıklarını gösteren koyu noktalar üzerinde yoğunlaşırsak, anakütle regresyon doğrusunu, daha genel bir deyişle anakütle regresyon eğrisini buluruz. Bu Y’ nin X üzerindeki regresyonudur. Yani gelir artar iken ortalama tuketim ne yonde artmaktadir….
Geometrik olarak anakütle regresyon eğrisi, açıklayıcı değişkenin sabit değerlerine karşılık gelen bağımlı değişkenin koşullu ortalamalarının yada koşullu beklenen değerlerinin geometrik yeridir. Çizim 2.2’ de gösterilmiştir. Çan egrisinin uç noktaları Gelir 80 dolar iken yapılan Max. harcama ile Min harcama rakamlarınca sınırları çizilmiştir. Çan eğrısının orta noktasıda Y nin beklenen (koşullu)ortalama değeridir.
Anakütle Regresyon Fonksiyonu Kavramı (ARF) Her koşullu ortalama E ( Y | Xi ) , X i nin bir fonksiyonudur. Acaba niçin ? E ( Y | Xi ) = f(Xi) ana kütle regresyonudur. f(Xi) açıklayıcı değişken Xi’ nin bir fonksiyonunu gösterir. Xi veri iken Y’ nin ortalama dağılımının, Xi ile fonksiyonel bir ilişkisinin olduğunu gösterir. Özetle X deki değişmeye karşılık Y nin ortalama tepkisini dile getirir. Şayet tüketim ve gelir doğrusal olarak karşılıklı ilişkili ise , Beklenen deger ile X arasında dogrusal ilişki şöyledir. E ( Y | Xi ) = β1 + β2Xi (2.2.2) Burada β1 ile β2 regresyon katsayısıdır ve değerleri bilinmemektedir. β1=sabit terim β2=eğimdir & katsayi olarak bilinir. Yukardaki eşitligi doğrusal ana kütle regresyonu diye adlandırırız. Regresyon çözümlemesinde X ve Y gözlemlerine dayanarak β1 ile β2 bilinmeyen değerlerini tahmin ederiz ARF’ yi buluruz.
Doğrusal Ana Kütle Regresyonunda Y ve X ler……
2.3 “Dogrusal” Terimin Anlamı doğrusallık kelimesinin iki anlamı vardır. Değişkenlerde doğrusallık Doğrusallığın ilk ve doğal anlamı, Y’ nin koşullu beklenen değerlerinin Xi’ nin doğrusal bir fonksiyonu olduğudur. Bu durumda regresyon eğrisi düz bir doğrudur. Y=4X Türevi ile Y=4X2 Türevi farklıdır Değişkenin değerinden dolayı 2. Katsayılarda doğrusallık Doğrusallığın ikinci yorumu Y’ nin koşullu beklenen değeri E( Y | Xi )’ in, β katsayılarının doğrusal bir fonksiyonu olduğu yolundadır. β sadece birinci kuvvettense bu model dogrusaldır β1+ β X 2 katsayilarda Dogrusaldır β-1/2 Dogrusal Degildir
KATSAYILARDA DOĞRUSALLIK Bu bölümde doğrusallık denince , β katsayılarına ait kuvvetin sadece birinci dereceden olduğu akla gelmelidir. KATSAYILARDA DOĞRUSALLIK
2.4. ARF’nin Olasılıklı Belirlenmesi Çizim 2.1’ deki gibi aile geliri arttıkça tüketim harcaması da ortalama olarak artmaktadır. Tekil ailenin geliri artınca tüketim harcamasının artması zorunlu değildir. Öyleyse tekil bir ailenin verilen gelir düzeyi ile tüketim harcaması arasındaki ilişkiyi çizim 2.1 den, Xi gelir düzeyi veriyken tüketim harcamasının, aynı gelir düzeyindeki bütün ailelerin ortama tüketimi dolayında dağıldığını görürüz. Dolayısıyla tekil bir ailenin tüketim harcaması Yi’ nin beklenen değerinden sapmasını şöyle gösterebiliriz. ui = Yi – E (Y | Xi) Yi = ui+ E (Y | Xi) (2.4.1) Burada uI sapması + yada – değerler alabilen ama gözlemlenemeyen rassal bir değişkendir. Teknik olarak olasılıklı bozucu terim yada olasılıklı hata terimi denir. (2.4.1)’ in yorumu: gelir düzeyi veriyken tekil bir ailenin tüketim harcamasının iki bileşenden oluştuğunu söyleyebiliriz. (1) E ( Y | Xi ), yani aynı gelir düzeyindeki tüm ailelerin ortalama tüketim harcaması. Bu parça, kurala bağlı yada kesin bileşen adını alır. (2) ui , kuralsız yada rassal bileşendir. Bu modele katılmayan dışlanmış tüm değişkenlerin temsilcisidir. Eğer E( Y | Xi )’ nin doğrusal olduğunu varsayarsak ( 2.4.1 ) eşitliği şöyle yazılır. Yi = E(Y | Xi) + ui ( 2.4.1 ) = β1 + β 2 Xi + ui ( 2.4.2 )
(2.4.2) eşitliği bize bir ailenin tüketim harcamasının gelirine ve bozucu terime doğrusal olarak bağlı olduğunu söyler. Öyleyse tekil tüketim harcamaları, X=80$ veri iken aşağıdaki gibidir. Y1 = 55 = β 1 + β2(80) + u1 Y2 = 60 = β 1 + β2(80) + u2 (2.4.3) Y3 = 65 = β 1 + β2(80) + u3 Y4 = 70 = β 1 + β2(80) + u4 Y5 =75 = β 1+ β2(80) + u5 Şimdi (2.4.1)’ nin her iki yanının beklenen değerini alırsak şunu buluruz E(Yı | Xı ) = E[ E(Y | Xı)] + E (uı | Xı) =E(Y | Xı) +E (uı | Xı) (2.4.4) Burada bir sabit terimin beklenen değerinin kendisine eşit olduğu gerçeğinden yararlanılır. (2.4.4) eşitliği şu anlama gelir: E (uı | Xı) =0 (2.4.0) Öyleyse regresyon doğrusunun Y’ nin koşullu ortamlarından geçtiği varsayımı uı’ lerin koşullu ortalama değerlerinin sıfır olduğu anlamına gelir
E(Yı | Xı ) = E[ E(Y | Xı)] + E (uı | Xı) =E(Y | Xı) +E (uı | Xı) (2.4.4) E (uı | Xı) =0 E(Yı | Xı ) = E(Y | Xı) E(Yı | Xı ) = f(x) E(Yı | Xı ) = β1 + β2X1
2.5. OLASILIKLI BOZUCU (u) TERİMİN ÖNEMİ (u) Terimi modele katılmamış ama Y`yi etkileyen bütün degişkenlerin yerine geçer. Niçin bu değişkenler modele konmamıştır: Kuramın belirsizliği : Haftalık gelir(X) haftalık harcamayı belirlerken başka bilmediğimiz nedenlerde etkileye bilir. Veri bulunamaması: Bazende bütün etkileyen faktörler bilindiği halde data bulunamadığı için yerine konamamıştır. Ailenin serveti tüketim kararını etkiler fakat servet hakkında bilgi sahibi olunmadığı için modelde gösterilememektedir. Öze ilişkin – çevreye ilişkin değişkenler. X değişkeni yanında cinsiyet, din, eğitim, coğrafi bölge, tüketim kararını etkilemektedir fakat etkisi hepsinin çok az oldugu için modele katmak yerine hepsini temsilen (u) sayısı kullanılmakta. Insan davranışlarında içerilmiş rassallık: Y degerinin gerçekleşmesinde ifade edemiyecegimiz bir rassallıkta mümkündür. Bunu temsilen (u) kullanılmaktadır.
Devam……. Güçsüz yaklaşık değişkenler: Milton Frıedman ın ünlü tüketim fonksiyonundaki Yp (sürekli tüketim) ve Xp( Sürekli gelir) tam tespit edilemedigi için onların yerine cari tüketim (X) ve cari gelir(Y) degeri kullanılır. Bu durumda da tam temsil olmayacagı için hatayı eksikligi temsilen (U) kullanılır. Basitlik ilkesi: Şayet Y değişkenini iki üç değişkenle büyük oranda ifade edebiliyorsak sırf konuyu veya işlemi basitleştirme için diğer küçük faktörler modele dahil edilmeye bilir. Fonksiyon kalıbı: Değişkenler ve datalar doğru olsa da fonksiyonel ilişkinin tespiti yanlış olabilir. Gelir-Tüketim fonksiyonu doğrusal veya doğrusal olmayan modelde olabilir. Doğru fonksiyonel yapı oluşturulmalı.
2.6 ÖRNEKLEM REGRESYON FONKSİYONU Artık örneklem çözümlemesine geçebiliriz. Örnek: çizelge 2.1’ deki bilgiler yokken elimizdeki tek bilginin çizelge 2.4’ de verilen, sabit X’ lerin karşılığı, rassal seçilmiş Y örneklem değerleri olduğunu düşünelim. Çizelge 2.1’ den farklı olarak, şimdi her X’e karşılık tek Y değeri var: çizelge 2.4’ deki her Y, çizelge 2.1’ deki anakütledeki aynı Xi’ ye karşılık gelen Y’ ler arasında rassal olarak seçilmiştir. Seçilmiş X’ lere karşılık gelen haftalık tüketim harcaması Y’ nin bütün olarak ana kütle ortalaması, çizelge 2.4’ deki ana kütleden kestirebilir miyiz? Bunun için çizelge 2.1’ deki ana kütleden, çizelge 2.5’ deki başka bir örneklem çektiğimizi varsayalım.
Çizelge 2. 4 ve 2. 5’deki verileri kullanarak çizim 2 Çizelge 2.4 ve 2.5’deki verileri kullanarak çizim 2.3’ deki serpilme çizimini elde edelim. Bu çizimde her iki gözlemin regresyon doğrusu çizilmiştir. ÖRF 1 ilk örnekleme ÖRF 2 ikinci örnekleme dayanır. İki regresyon doğrusundan hangisi gerçek regresyon doğrusunu temsil eder? Çizim 2.3’ deki regresyon doğrularına örneklem regresyon doğruları denir. Anakütle regresyon doğrularını temsil ettikleri varsayılır. Ama örneklem dalgalanmaları nedeniyle, AR’ nin birer tahminidirler. Genel olarak N tane farklı örneklem için N tane farklı ÖRF bulunur ve ÖRF’lerin aynı olması beklenemez
Örneklem istatistiği diye anılan tahmin edici eldeki bir Çizelge 2.4. ÇİZELGE 2.4 (2.2.2)’ nin örneklemdeki karşılığı şöyle yazılabilir: Ŷi = β1(^) + β2(^) X ı Ŷi = “Y şapka” diye okunur, Ŷi = E(Y | Xİ )’ nin tahmin edicisi, β1(^) = β1’ in tahmin edicisi, β2(^) = β2’nin tahmin edicisidir. Örneklem istatistiği diye anılan tahmin edici eldeki bir örneklemden anakütle katsayısının nasıl tahmin edileceğini gösteren bir kural, bir formül, bir yöntemdir
Yi = β1(^) + β2(^)Xİ + ui(^) Kalıntı terimi (ûi =ui’ nin tahmini) Bir uygulamada tahmin ediciyle elde edilmiş sayısal bir değer tahmindir. Tıpkı ARF’ yi iki eşdeğer biçimde (2.2.2) ve (2.4.2) ile yazdığımız gibi (2.6.1)’ deki ÖRF’ yi de olasılıklı biçimde şöyle yazabiliriz Yi = β1(^) + β2(^)Xİ + ui(^) Kalıntı terimi (ûi =ui’ nin tahmini) Yı = βı + β2 X ı + ui Yı= βı (^) + β2(^)Xİ + ûi (2.4.1) biçimindeki ÖRF’ ye dayanarak tahmin etmektedir, çünkü çözümlemelerimiz çoğu zaman çoğu zaman bir ana kütleden seçilmiş tek bir örnekleme dayanır. Örneklem dalgalanmaları nedeniyle ARF’ yi tahmin eden ÖRF, yaklaştırmadır. Çizim 2.4 de gösterilmiştir. Çizelge 2.5.
X=Xi için tek bir örneklem gözlemi Y=Yi vardır X=Xi için tek bir örneklem gözlemi Y=Yi vardır. Gözlenen Yi, ÖRF terimleri ile Yi = Ŷi + ûi Biçiminde ARF terimleri ile de aşağıdaki gibi yazılır Yi = E ( Y | Xİ) + ui ÖRF, ARF’ nin yaklaşığı olduğuna göre, bu yaklaştırmayı olabildiğince gerçeğe yakın bir kural bir yöntem gerçekleştirilebilirmi? Şimdilik ARF’yi olabildiğince gerçeğe yakın yansıtacak ÖRF’yi nasıl oluşturmamız gerektiğine bakalım.