Mehmet Vedat PAZARLIOĞLU KUKLA DEĞİŞKENLER Mehmet Vedat PAZARLIOĞLU
Kukla Değişken Nedir? Cinsiyet, eğitim seviyesi, meslek, din, ırk, bölge, tabiiyet, savaşlar, grevler, siyasi karışıklıklar (=darbeler), iktisat politikasındaki değişiklikler, depremler, yangın ve benzeri nitel değişkenlerin ekonometrik bir modelde ifade edilme şeklidir.
Kukla Değişkenlerin Modelde Kullanımı Kukla Değişken/lerin Modelde bağımsız değişken olarak yer alması Kukla Değişkenin Modelde Bağımlı Değişken olarak yer alması
Bağımsız Kukla Değişkenler Bir kukla değişkenli modeller (Varyans Analiz Modelleri) Kukla değişkenlerin ve Sayısal değişkenlerin Birlikte yer aldığı Modeller (Kovaryans Analizi Modeller) Kukla değişkenlerin karşılıklı olarak birbirini etkilemeleri Mevsim dalgalanmalarının ölçülmesinde kukla değişkenler Parçalı Doğrusal Regresyon
Bir kukla değişkenli modeller Yi = a + b Di +ui Yi = Öğretim Üyelerinin Yıllık Maaşları Di = 1 Öğretim Üyesi Erkekse = 0 Diğer Durumlar (yani Kadın Öğretim Üyesi) Varyans Analiz Modelleri (ANOVA) Kadın Öğretim Üyelerinin Ortalama Maaşları: E( Yi|Di = 0 ) = a Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Di = 1) = a + b
Bir kukla değişkenli modeller Maaş Cinsiyet 22 1 19 18 21.7 18.5 21 20.5 17 17.5 21.2 Yi = 18 + 3.28 Di (0.32) (0.44) t (57.74)(7.44) , R2=0.8737
Bir kukla değişkenli modeller Yi = 18 + 3.28 Di (0.32) (0.44) t (57.74)(7.44) , R2=0.8737 Kadın Öğretim Üyelerinin Ortalama Maaşları: E( Yi|Di = 0 ) = 18 Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Di = 1) = 18 + 3.28 = 21.28 Erkek ve Kadın Öğretim Üyelerinin Ortalama Maaş Farkı : 3.28
Bir kukla değişkenli modeller 3.28 21.28 18.00 1 Yi = 18 + 3.28 Di (0.32) (0.44) t (57.74)(7.44) , R2=0.8737
Kukla değişken ve Sayısal Değişkenli Model Yi = a1 + a2 Di + b Xi + ui Yi = Öğretim Üyelerinin Yıllık Maaşları Xi = Öğretim Üyesinin Yıl olarak Tecrübesi Di = 1 Öğretim Üyesi Erkekse = 0 Diğer Durumlar (yani Kadın Öğretim Üyesi) Kadın Öğretim Üyelerinin Ortalama Maaşları : E( Yi|Xi,Di = 0 ) = a1+bXi Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Xi,Di = 1) = (a1 + a2 )+bXi
Kukla değişken ve Sayısal Değişkenli Model Maaş Cinsiyet Tecrübe 22 1 16 19 12 18 21.7 15 18.5 10 21 11 20.5 13 17 8 17.5 9 21.2 14 Yi = 15.051 + 2.239 Di + 0.289 Xi s(b) (0.95) (0.44) (0.09) (t) (15.843) (5.088) (3.211) p (0.000) (0.002) (0.020) R2=0.949
Kukla değişken ve Sayısal Değişkenli Model Yi = 15.051 + 2.239 Di + 0.289 Xi (t) (15.843) (5.088) (3.211) p (0.000) (0.002) (0.020) Kadın Öğretim Üyelerinin Maaş Fonksiyonu: E( Yi|Di = 0 ) = 15.051 + 0.289 Xi Erkek Öğretim Üyelerinin Maaş Fonksiyonu: E( Yi|Di = 1 ) = 15.051 + 2.239 + 0.289 Xi = 17.29 + 0.289 Xi Erkek ve Kadın Öğretim Üyelerinin Ortalama Maaş Farkı : 2.239
Kukla değişken ve Sayısal Değişkenli Model 2.239 17.29 15.051 E( Yi|Di = 0 ) = 15.051 + 0.289 Xi E( Yi|Di = 1 ) = 15.051 + 2.239 + 0.289 Xi = 17.29 + 0.289 Xi
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4Xi + ui Yi = Sigara Tüketimi D2 = 1 Sigara Tüketen Erkek D3 = 1 Şehirde oturanların sigara tüketimi = 0 Sigara Tüketen Kadın = 0 Kırsalda oturanların sigara tüketimi Xi = Gelir Kırdaki Kadınların Sigara Tüketimi: E( Yi|D2=0,Yi|D3=0) = b1 + b4Xi Kırdaki Erkeklerin Sigara Tüketimi : E (Yi|D2=1,Yi|D3=0) = b1 + b2D2 + b4Xi Kentteki Kadınların Sigara Tüketimi: E( Yi|D2=0,Yi|D3=1 ) = b1 + b3D3 + b4Xi Kentteki Erkeklerin Sigara Tüketimi: E( Yi|D2=1,Yi|D3=1 ) = b1 + b2D2 + b3D3 + b4Xi
Birden Fazla Kukla Değişkenli Modeller Yıllık Sigara Tüketimi Yi (100 TL) Cinsiyet(D3) Şehir(D3) Yıllık Gelir (Xi)(100 TL) 25 1 400 20 260 19 270 24 360 240 22 310 21 280 18 200 320
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4Xi + ui Yi = Sigara Tüketimi D2 = 1 Sigara Tüketen Erkek D3 = 1 Şehirde oturanların sigara tüketimi = 0 Sigara Tüketen Kadın = 0 Kırsalda oturanların sigara tüketimi Xi = Gelir Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.87863 1.354977 8.766663 0.0001 D2 0.626208 0.640824 0.977193 0.3662 D3 0.671321 0.467992 1.434473 0.2014 X 0.029216 0.00544 5.370281 0.0017 R-squared 0.955074 F-statistic 42.51767 Adjusted R-squared 0.932611 Prob(F-statistic) 0.000195 S.E. of regression 0.586884 Akaike info criterion 2.061194 Sum squared resid 2.066595 Schwarz criterion 2.182228 Durbin-Watson stat 2.222562 Hannan-Quinn criter. 1.92842
1.Sabit Terimlerin Farklı Eğimlerin Eşit olması Yi= a1 + a2Di + bXi + ui Yi = Sigara Tüketimi Di = 1 Sigara Tüketen Erkek = 0 Xi = Gelir E( Yi|Xi,Di = 0 ) = a1+bXi E ( Yi|Xi,Di = 1) = (a1 + a2 )+bXi
Kukla değişken ve Sayısal Değişkenli Model Yi= a1 + a2Di + b2Xi + ui a2 a1+a2 a1
2. Sabit Terimlerin Eşit, Eğimlerin Farklı Olması Hali Yi= a1 + b1Di Xi+ b2Xi + ui Yi = Sigara Tüketimi Di = 1 Sigara Tüketen Erkek = 0 Xi = Gelir E( Yi|Xi,Di = 0 ) = a1+b2Xi E ( Yi|Xi,Di = 1) = a1 + (b1+b2)X i
2. Sabit Terimlerin Eşit, Eğimlerin Farklı Olması Hali Yi= a1 + b1Di Xi+ b2Xi + ui Yi E ( Yi|Xi,Di = 1) = a1 + (b1+b2)X i b1 + b2 ) E( Yi|Xi,Di = 0 ) = a1+b2Xi b2 ) a1 Xi 19
3. Sabit Terim ve Eğimin İki Sınıf İçin Farklı Olması Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui Yi = Sigara Tüketimi Di = 1 Sigara Tüketen Erkek = 0 Xi = Gelir E( Yi|Xi,Di = 0 ) = a1+b2Xi E ( Yi|Xi,Di = 1) = (a1+a1 ) + (b1+b2)X i
3. Sabit Terim ve Eğimin İki Sınıf İçin Farklı Olması Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui Yi E ( Yi|Xi,Di = 1) = (a1+a1 ) + (b1+b2)X i E( Yi|Xi,Di = 0 ) = a1+b2Xi a1+a2 a1 b2 b1+b2 ) ) Xi 21
Modelin t İstatistiklerinin Değerlendirilmesi Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui a2 ve b1’ün t istatistikleri anlamsızsa iki sınıf sigara tüketim fonksiyonları aynı 2.a2 ve b1’ün t istatistikleri anlamlıysa iki sınıf sigara tüketim fonksiyonları farklı (3.durum) a2 ve b1’ün t istatistiklerinden a2 anlamsız ve b1 anlamlıysa sabit terim aynı eğim farklıdır. (2. durum) 4. a2 ve b1’ün t istatistiklerinden a2 anlamlı ve b1 anlamsızsa sabit terim farklı eğim aynıdır. (1. durum)
Yıllık Sigara Tüketimi Cinsiyet (Di) (Erkek = 1, Kadın = 0) İki Sınıf Modellerinin Farklılığının Kukla Değişken Yöntemi İle Testi Yıllık Sigara Tüketimi Cinsiyet (Di) (Erkek = 1, Kadın = 0) Yıllık Gelir (Xi) 25 1 400 20 260 19 270 24 360 240 22 310 21 280 18 200 320 Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui 23
Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui İki Sınıf Modellerinin Farklılığının Kukla Değişken Yöntemi İle Testi Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 14.94231 2.598383 5.750619 0.0012 D2 -3.786344 3.35085 -1.129965 0.3016 D2*X 0.017555 0.012245 1.433624 0.2017 X 0.017308 0.010508 1.64702 0.1507 R-squared 0.95506 F-statistic 42.50422 Adjusted R-squared 0.932591 Prob(F-statistic) 0.000195 S.E. of regression 0.586972 Akaike info criterion 2.061496 Sum squared resid 2.067219 Schwarz criterion 2.18253 Durbin-Watson stat 1.943502 Hannan-Quinn criter. 1.928722 Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 10.3109 1.123493 9.177535 0.0000 X 0.036859 0.003804 9.689043 R-squared 0.921474 F-statistic 93.87755 Adjusted R-squared 0.911659 Prob(F-statistic) 0.000011 S.E. of regression 0.671954 Akaike info criterion 2.219603 Sum squared resid 3.612179 Schwarz criterion 2.28012 Durbin-Watson stat 2.034514 Hannan-Quinn criter. 2.153216 24
2. CHOW testi ile tüketim fonksiyonlarının farklılığının araştırılması Üç grup tüketim fonksiyonu tahmin edilir: H0: Erkek ve kadınlar için tüketim fonk. aynıdır. H1: Erkek ve kadınlar için tüketim fonk. farklıdır. Erkek-kadın tüm tüketiciler için tüketim fonksiyonu: HKT=3.162 Erkekler için tüketim fonksiyonu: HKT=0.2018 Kadınlar için tüketim fonksiyonu: HKT=1.865 Ftest = 2.243 Ftab= 5.14 (a=0.05 f1=2 f2=6 sd. lerinde) H0 kabul
Birden Fazla Kukla Değişkenli Modeller Yıllık Sigara Tüketimi Yi (100 TL) Cinsiyet(D3) Şehir(D3) Yıllık Gelir (Xi)(100 TL) 25 1 400 20 260 19 270 24 360 240 22 310 21 280 18 200 320
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4Xi + ui Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.87863 1.354977 8.766663 0.0001 D2 0.626208 0.640824 0.977193 0.3662 D3 0.671321 0.467992 1.434473 0.2014 X 0.029216 0.00544 5.370281 0.0017 R-squared 0.955074 F-statistic 42.51767 Adjusted R-squared 0.932611 Prob(F-statistic) 0.000195 S.E. of regression 0.586884 Akaike info criterion 2.061194 Sum squared resid 2.066595 Schwarz criterion 2.182228 Durbin-Watson stat 2.222562 Hannan-Quinn criter. 1.92842 Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.05045 1.053802 10.48627 0.0000 D3 0.827027 0.438611 1.885559 0.1013 X 0.032883 0.003926 8.375249 0.0001 R-squared 0.947924 F-statistic 63.70948 Adjusted R-squared 0.933045 Prob(F-statistic) 0.000032 S.E. of regression 0.58499 Akaike info criterion 2.008882 Sum squared resid 2.395495 Schwarz criterion 2.099658 Durbin-Watson stat 2.339918 Hannan-Quinn criter. 1.909302
BİR MODELDE KUKLA DEĞİŞKENLERİN KARŞILIKLI OLARAK BİRBİRİNİ ETKİLEMELERİ PROBLEMİ Şehirde Oturan bir Erkeğin Tüketim Farkı Erkeğin Tüketim Farkı Şehirde Oturanların Tüketim Farkı 28
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4D2D3 + b5Xi + ui Yi= b1 + b5Xi Yi= b1 + b2D2 + b5Xi Yi= b1 + b3D3 + b5Xi Yi= b1 + b2D2 + b3D3 + b4D2D3 + b5Xi Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.40181 1.343907 8.484076 0.0004 D2 1.081264 0.707609 1.528053 0.187 D3 1.230248 0.626184 1.964677 0.1066 D2*D3 -1.151242 0.905929 -1.270786 0.2597 X 0.0307 0.005311 5.780173 0.0022 R-squared 0.966042 F-statistic 35.55997 Adjusted R-squared 0.938875 Prob(F-statistic) 0.000726 S.E. of regression 0.558941 Akaike info criterion 1.981308 Sum squared resid 1.562077 Schwarz criterion 2.132601 Durbin-Watson stat 2.778543 Hannan-Quinn criter. 1.815341
Üçer Aylar Karlar (Milyon Dolar) Satışlar 1965-I 10503 114862 II 12092 MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA Üçer Aylar Karlar (Milyon Dolar) Satışlar 1965-I 10503 114862 II 12092 123968 III 10834 121454 IV 12201 131917 1966-I 12245 129911 14001 140976 12213 137828 12820 145465 D2 1 D3 1 D4 1 30
Dependent Variable: Kar MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA Dependent Variable: Kar Variable Coefficient Std. Error t-Statistic Prob. C 6688.363 1711.366 3.90820 0.0009 D2 1322.892 638.4745 2.071957 0.0521 D3 -217.8054 632.2552 -0.344490 0.7343 D4 183.8564 654.2925 0.281000 0.7817 Satış 0.038246 0.011481 3.331281 0.0035 R2=0.525494 İstatistiki olarak anlamsız 31
MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA Dependent Variable: Kar Sample: 1965:1 1970:4 VariableCoefficient Std. Error t-Statistic Prob. C 6515.581 1623.083 4.014323 0.0006 D2 1331.352 493.0214 2.700395 0.0134 Satış 0.039310 0.010575 3.717315 0.0013 R2 = 0.515460 Mevsim dalgalanmalarının etkisinde 32
Parçalı Doğrusal Regresyon Bir sigorta şirketi satış temsilcilerinin belli bir satış hacmini geçmesi durumunda çalışanlarına komisyon ödemektedir. Şirket içerisinde gerçekleştirilen satış komisyon ücretleri belli bir satış hacmi(X*) eşik düzeyine kadar doğrusal artmakta ve bu eşik düzeyinden sonra ise daha dik bir oranla satışlarla doğrusal olarak arttığı varsayılmaktadır. Bu durumda I ve II olarak numaralandırılmış iki parçadan oluşan parçalı doğrusal regresyona ve eşik düzeyinde eğimin değiştiği komisyon fonksiyonuna sahip olmuş oluruz. • II Satış Komisyonları I X* X 33
Parçalı Doğrusal Regresyon Satış Komisyonları Y X Satışlar • Yi= a1 + b1Xi + b2 (Xi-X*)Di+ui Yi= Satış Komisyonları Xi= Satış Miktarı X*= Satışlarda Prim Eşik Değeri D= 1 Eğer Xi > X* = 0 Eğer Xi < X* X* E(Yi| Di =0,Xi, X*) = a1 +b1 Xi E(Yi| Di =1,Xi, X*) = a1 - b2X* +(b1+ b2)Xi
Parçalı Doğrusal Regresyon Satış Komisyonları Y X Satışlar b1+b2 1 b1 1 a1 X* a1-b2X*
Örnek Bir şirket satış temsilcilerinin belli bir satış hacmini geçmesi durumunda çalışanlarına prim ödemektedir. Dependent Variable: TC Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C -145.7167 176.7341 -0.824496 0.4368 Q 0.279126 0.046008 6.066877 0.0005 (Q-5500)*DI 0.094500 0.082552 1.144727 0.2899 R2=0.973706 F-statistic= 129.6078 [0.000003] Total Cost($) TC Output(units) Q Di 256 1000 414 2000 634 3000 778 4000 1003 5000 1839 6000 1 2081 7000 2423 8000 2734 9000 2914 10000 Satışlardaki artışlar prim değerini arttırmamaktadır. İstatistiki olarak anlamsız H0: Satışlardaki artışlar prim değerini arttırmamaktadır. H1: Satışlardaki artışlar prim değerini arttırmaktadır.
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI UYGULAMA: 1935-1954 yıllarına arasında General Motor, Westinghouse ve General Electric firmalarına ait yatırım (Y), firmanın değeri (X2 ) ve sermaye stoğu (X3) verilerine ait tablo aşağıda verilmiştir. 37
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI Firmaların yatırımları arasında fark olup olmadığını inceleyebilmek için de kukla değişkenlerden yararlanabiliriz. Firmaların ilk üç yılına ait veriler ile oluşturulan yeni tablo aşağıdaki gibidir. Yıllar Y X2 X3 Di Firma 1935 317.6 3078.5 2.8 1 GM 1936 391.8 4661.7 52.6 1937 410.6 5387.1 156.9 12.93 191.5 1.8 WE 25.90 516.0 0.8 35.05 729.0 7.4 33.1 1170.6 97.8 GE 45.0 2015.8 104.4 77.2 2803.3 118.0 General Motor(GM), Westinghouse(WE) ve General Electric (GE) yatırım (Y), firmanın değeri (X2 ) ve sermaye stoğu (X3) 38
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI GM yatırımlarının diğer firma yatırımlarından sabit terim kadar farklı olduğunu ifade etmektedir.
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI Dependent Variable: Y Method: Least Squares Included observations: 60 Variable Coefficient Std. Error t-Statistic Prob. C -61.80754 23.79039 -2.598004 0.0120 X2 0.038311 0.016752 2.286884 0.0260 X3 0.347303 0.032048 10.83683 0.0000 DI 278.5911 51.74338 5.384091 0.0000 R-squared 0.924866 Mean dependent var 251.067 Adjusted R-squared 0.920841 S.D. dependent var 311.6501 S.E. of regression 87.68352 Akaike info criterion 11.84969 Sum squared resid 430550.4 Schwarz criterion 11.9893 Log likelihood -351.4906 F-statistic 229.7778 Durbin-Watson stat 0.502776 Prob(F-statistic) 0.000000 İstatistiksel olarak anlamlı 40
ÖRNEKLER 41
DATA7-19 1960-1988 yılları arasında Türkiye’deki Sigara Tüketimi Q Yetişkinlerin sigara tüketim miktarı(kg), Range 1.86 - 2.723. Y GNP(1968) TL, Range 2560 - 5723. P Türkiye’deki sigara fiyatları Range 1.361 - 3.968. ED1 Kayıtlı ortaokul ve lise mezunu nüfus oranı(12-17 yaş) Range 0.112 - 0.451. ED2 Kayıtlı üniversite mezunu oranı (20-24) Range 0.026 - 0.095. D82 = 1 , 1982 ve sonrası D86 = 1 , 1986 ve sonrası 42
Included observations: 29 Dependent Variable: Q Sample: 1960 1988 Included observations: 29 Variable Coefficient Std. Error t-Statistic Prob. P -0.097291 0.079389 -1.225493 0.2340 ED2 -5.547295 2.679248 -2.07046 0.0509 ED1 -2.994166 2.708828 -1.105336 0.2815 D86 -0.262700 0.090825 -2.89238 0.0087 D82 -0.288739 0.083649 -3.451774 0.0024 Y 0.000762 0.000190 4.009205 0.0006 C 5.1139345 0.34132 0.101585 0.9200 Katsayılar istatistiksel olarak anlamsız 43
Included observations: 29 Dependent Variable: Q Method: Least Squares Sample: 1960 1988 Included observations: 29 Variable Coefficient Std. Error t-Statistic Prob. ED2 -6.455259 2.724204 -2.369595 0.0266 D86 -0.351822 0.078985 -4.454297 0.0002 D82 -0.269429 0.084743 -3.179385 0.0042 Y 0.000672 0.000170 3.945228 0.0006 C 58.18878 33.26618 1.749187 0.0936 44
DATA7-2 Belirli bir şirkette çalışan 49 kişinin istihdam durumu ve ücretleri WAGE = Aylık Ücret (Range 981 - 3833) EDUC = 8 yıllık eğitimden sonraki sahip olunan eğitim seviyesi(Range 1 - 11) EXPER =Şirkette çalışma süresi(Range 1 - 23) AGE = Yaş (25 - 64) GENDER = 1, Erkek ise; 0 kadın ise RACE = 1, beyaz ise; 0 diğerleri CLERICAL = 1 büro memuru ise, 0 diğerleri MAINT = 1 bakım işlerinde çalışıyor ise; 0 diğerleri CRAFTS =1,usta ise; 0 diğerleri Temel sınıf Profesyonel meslek grupları. 45
Dependent Variable: WAGE Method: Least Squares Included observations: 49 Variable Coefficient Std. Error t-Statistic Prob. C 1637.202 263.6726 6.209224 0.0000 EDUC 49.33178 27.99678 1.762052 0.0855 EXPER 27.29509 9.488883 2.876533 0.0064 GENDER 473.6966 152.4818 3.106578 0.0034 RACE 207.0888 130.4491 1.587506 0.1201 CLERICAL-946.7380 174.6505 -5.420758 0.0000 MAINT -1053.424 203.4297 -5.178320 0.0000 CRAFTS -708.8822 176.0507 -4.026580 0.0002 R-squared 0.737516 Mean dependent var 1820.204 Adjusted R-squared 0.692702 S.D. dependent var 648.2687 S.E. of regression 359.3643 Akaike info criterion 14.75483 Sum squared resid 5294850. Schwarz criterion 15.06370 Log likelihood -353.4934 F-statistic 16.45717 Durbin-Watson stat 2.107977 Prob(F-statistic) 0.000000 46
DATA 7-9 colgpa = 1986 sonbaharındaki ortalamaları (Range 0.85 - 3.97) 1985 yılında koleje giriş yapan öğrencilerin ilk yıl başarılarını göstermekte colgpa = 1986 sonbaharındaki ortalamaları (Range 0.85 - 3.97) hsgpa = Lise GPA (Range 2.29 - 4.5) vsat = Sözel derecesi (Range 200 - 700) msat = Sayısal derecesi (Range 330 - 770) dsci = 1 Bilim dalı için, 0 diğerleri dsoc = 1 Sosyal bilim dallı için, 0 diğerleri dhum = 1 Beşeri bilimdalı için 0 diğerleri darts = 1 Sanat dalı için, 0 diğerleri dcam = 1 Öğrenci kampüste yaşıyorsa, 0 diğerleri dpub = 1 Genel lise mezunu ise, 0 diğerleri 47
Dependent Variable: COLGPA Method: Least Squares Sample: 1 427 Included observations: 427 Variable Coefficient Std. Error t-Statistic Prob. C 0.367296 0.224302 1.637506 0.1023 HSGPA 0.405914 0.063418 6.400630 0.0000 VSAT 0.000726 0.000290 2.503907 0.0127 MSAT 0.001086 0.000303 3.586609 0.0004 DSCI -0.027323 0.057319 -0.476673 0.6338 DSOC 0.056148 0.072778 0.771494 0.4409 DHUM -0.004059 0.141771 -0.028632 0.9772 DARTS 0.228650 0.188921 1.210294 0.2269 DCAM -0.040705 0.052162 -0.780362 0.4356 DPUB 0.029403 0.063040 0.466416 0.6412 Katsayılar istatistiki olarak anlamsız 48
Dependent Variable: COLGPA Variable Coefficient Std. Error t-Statistic Prob. C 0.423249 0.219749 1.926053 0.0548 HSGPA 0.398349 0.060586 6.574882 0.0000 VSAT 0.000737 0.000281 2.627361 0.0089 MSAT 0.001015 0.000294 3.457749 0.0006 49
Bağımlı Kukla Değişkenler Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla değişkenler söz konusudur. Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır: -Doğrusal Olasılık Modeli -Logit Modeli -Probit Modeli -Tobit Modeli
Doğrusal Olasılık Modeli Yi = b1 + b2Xi +ui Yi= 1 Eğer i. Birey istenen özelliğe sahipse 0 Diğer Durumlarda Xi= Bağımsız değişken Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı beklenen değerinin, Y’nin X için şartlı olasılığına eşit olmasıdır. E(Yi|Xi)= Pr(Yi=1| Xi)
Doğrusal Olasılık Modeli Yi = b1 + b2Xi +ui E(ui) = 0 E(Yi |Xi)= b1 + b2Xi Yi değişkeninin olasılık dağılımı: Yi Olasılık 1-Pi 1 Pi Toplam E(Yi |Xi) = SYiPi = 0.(1-Pi) + 1.(Pi) = Pi E(Yi |Xi)= b1 + b2Xi 0 E(Yi |Xi) 1
Doğrusal Olasılık Modeli Di = b1 + b2Medenii +b3 Egitimi +ui Di= 1 Eğer i. Kadının bir işi varsa ya da iş arıyorsa 0 Diğer Durumlarda Medenii= 1 Eğer i. Kadın evliyse diğer durumlarda 0 Eğitimi = i.kadının yıl olarak aldığı eğitim Yaşi = i. Kadının Yaşı
Di Mi Ai Si 1 31 16 35 10 34 14 40 41 43 67 9 37 12 25 27 13 58 28 45 48 55 66 7 44 11 8 21 15 62 23 51 39
Kadının İşgücüne Katılımı Modeli Di = b1 + b2Medenii +b3 Egitimi Dependent Variable: DI Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. C -0.284 0.436 -0.652 0.520 MEDENI -0.382 0.153 -2.494 0.019 EGITIM 0.093 0.035 2.688 0.012 R-squared 0.363 F-statistic 7.708 Adjusted R-squared 0.316 Prob(F-statistic) 0.002 S.E. of regression 0.412 Akaike info criterion 1.159 Sum squared resid 4.583 Schwarz criterion 1.299 Durbin-Watson stat 2.551 Hannan-Quinn criter. 1.204
Farklı Varyans Testi Heteroskedasticity Test: Breusch-Pagan-Godfrey F-statistic 0.961929 Prob. F(2,27) 0.3949 Obs*R-squared 1.995437 Prob. Chi-Square(2) 0.3687 Test Equation: Dependent Variable: RESID^2 Variable Coefficient Std. Error t-Statistic Prob. C 0.332565 0.171349 1.940866 0.063 MEDENI 0.029802 0.060186 0.495163 0.625 EGITIM -0.016621 0.013605 -1.221692 0.232 R-squared 0.066515 Mean dependent var 0.153 Adjusted R-squared -0.002633 S.D. dependent var 0.162 S.E. of regression 0.162013 Akaike info criterion -0.708 Sum squared resid 0.708701 Schwarz criterion -0.568 Hannan-Quinn criter. -0.663 Prob(F-statistic) 0.394868 Durbin-Watson stat 2.085
Di Tahmin Değerleri Di Di-tah 1 1.204 0.646 0.636 0.822 0.264 0.553 0.264 0.553 0.450 0.832 0.925 1.018 -0.015 0.357 0.460 0.739 1.111 0.543 0.171
DOM Tahminindeki Sorunlar ui hata teriminin normal dağılmaması ui hata teriminin Binom Dağılımlı Olması ui hata teriminin değişen varyanslı olması 0 E(Yi |Xi) 1 varsayımının yerine gelmeyişi
ui hata teriminin normal dağılmaması Normallik varsayımının sağlanmaması durumunda tahmin ediciler sapmasızlıklarını korurlar. Nokta tahminde normallik varsayımı gözardı edilir. Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla normal dağılıma uyarlar. DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı altındaki EKK sürecine uyarlar.
ui hata teriminin Binom Dağılımlı Olması DOM’de u’lar normal dağılmaz, binom dağılımı gösterir: Y 1 ve 0 değerini aldığında Yi =1 için Yi =0 için u’lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir.
ui hata teriminin değişen varyanslı olması kesikli bir Y değişkeni varyansından hareketle Y yerine u alınarak Yi ui İhtimal=P(ui) -b1-b2X (1-Pi) 1 1-b1-b2X Pi u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır.
ui hata teriminin değişen varyanslı olması Var(ui) = Pi(1-Pi) DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür: ler bilinmediğinden bunun yerine örnek tahmini değerleri hesaplanarak ifadesinde yerine konarak ler kullanılır.
0 E(Yi |Xi) 1 varsayımının yerine gelmeyişi DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1 arasında bulunması şarttır. Y; 0 ve 1 değerini almaktadır.Bu şart anakütle için geçerlidir. Anakütlenin tahmincisi için geçerli olmayabilir. Tahmini şartlı olasılıklar 0 ile 1 olmayabilir: 63
0 E(Yi |Xi) 1 0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için 0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e eşit olduğu kabul edilir. Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir. eşit varyanslıdır. Bu yöntem TEKKY’dir.
DOM’de Farklı Varyansı Önleme Dependent Variable: Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. -0.184154 0.316834 -0.581231 0.5659 -0.362893 0.135229 -2.683551 0.0123 0.081678 0.022231 3.674022 0.0010 R-squared 0.872710 Mean dependent var 2.190469 Adjusted R-squared 0.863281 S.D. dependent var 2.514662 S.E. of regression 0.929809 Akaike info criterion 2.786965 Sum squared resid 23.34273 Schwarz criterion 2.927085 Log likelihood -38.80448 F-statistic 92.55700 Durbin-Watson stat 2.583787 Prob(F-statistic) 0.000000
DOM’e Alternatif Model Arama DOM ile ilgili sayılan sorunların hepsi bir şekilde aşılabilir Ancak, DOM, Pi=E(Y=1|X) olasılığının X’le doğrusal olarak arttığını varsayar. Yani X’deki marjinal veya küçük bir artış hep sabittir. Gerçek hayatta ise bu beklenen bir durum değildir. DOM ile ilgili sorunlar şu iki özellik sayesinde aşılabilir: 1.Xi arttıkça Pi=E(Y=1|X)’de artar ancak 0 ile 1 aralığının dışına çıkmaması gerekmektedir. 2.Pi ile Xi arasındaki ilişkinin doğrusal olmaması gerekmektedir.
DOM’e Alternatif Model Arama Yukarıdaki iki özelliği taşıyan modelin şekli aşağıda verilmiştir: P 1 KDF X - + Yukarıdaki eğri kümülatif dağılım fonksiyonuna benzemektedir. Bu fonksiyon kukla bağımlı değişkenli regresyon modellerinde kullanılabilir.
Logit Model Logistik Dağılım Fonksiyonu kümülatif lojistik dağılım fonksiyonudur. Bahis yada olabilirlik oranı Bu orana ev sahibi olma lehine fark oranı denir. Lojistik modelin her iki tarafının doğal log. alındığında Li fark oranı logaritması olup hem X, hem parametrelere göre doğrusaldır.Z değişkeni - dan + a değişirken, P 0 ile 1 arasında değişir.
Logit Model Logit modelde olasılık iken. DOM’de şeklindedir.
Logit Model Zi, - ile + arasında değerler alırken Pi’nin aldığı değerler ise 0 ile 1 arasında değişmektedir. Zi ile Pi arasındaki ilişki doğrusal değildir.
Logit Modelin Özellikleri 1. Pi, 0’dan 1’e kadar değer aldığında, Logitte -ile + arasında değer alır. Pi=1 = + Pi=0 = - 2. Logit, X’e göre doğrusal iken olasılıklara göre değildir. 3. Logit modelin b2 katsayısı şu şekilde yorumlanır: Bağımsız değişkendeki bir birimlik değişme karşısında logitteki değişmeyi gösterir. 4. Logit model tahmin edildikten sonra, X bağımsız değişkeninin belirli bir değeri için logitin gerçekleşme olasılığı hesaplanabilir.
Logit Modelin EKKY İle Tahmini 1.Adım: İhtimalleri hesaplanır. 2.Adım: fark oranı logaritmaları hesaplanır. 3.Adım: Orijinal lojistik modeli tahminlenir. Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir.
Logit Modelin EKKY İle Tahmini Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir. Dönüşümlü veya Tartılı EKK Lojistik Modeli
Logistik Model Uygulaması 300 aileden oluşan küçük bir kasabada ailelerin, yıllık gelirleri (Xi) ve ev sahibi olanların sayısı (ni) aşağıdaki tabloda gösterilmiştir. X Milyon TL) Aile Sayısı= Ni Ev Sahibi Olan Aile Sayısı=ni Nispi Frekanslar Pi=ni/Ni 12 20 5 0.25 16 25 6 0.24 35 10 0.28 26 45 15 0.33 30 50 0.50 40 34 18 0.53 0.66 60 0.61 70 0.75 80 0.67 Ni = 300 ni = 140
Logistik Model Uygulaması Xi 1 12 16 20 26 30 40 50 60 70 80 Ni 2 20 25 35 45 50 34 30 26 15 ni 3 5 6 10 15 25 18 20 16 Pi 4=3/2 0.25 0.24 0.28 0.33 0.50 0.53 0.66 0.61 0.75 0.67 1-Pi 5=1-4 0.75 0.76 0.72 0.67 0.50 0.47 0.34 0.39 0.25 0.33 Pi /1- Pi 6=4/5 0.33 0.31 0.39 0.49 1.00 1.13 1.94 1.56 3.00 2.03 Li 7=ln(6) -1.1086 -1.1712 -0.9416 -0.7133 0.0000 0.1222 0.6626 0.4446 1.0986 0.7080
Logistik Model Uygulaması Dependent Variable: L Method: Least Squares Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C -1.409706 0.215776 -6.533192 0.0002 X 0.032669 0.004667 7.000011 0.0001 R-squared 0.859649 Mean dependent var -0.089870 Adjusted R-squared 0.842106 S.D. dependent var 0.835010 S.E. of regression 0.331799 Akaike info criterion 0.808280 Sum squared resid 0.880723 Schwarz criterion 0.868797 Log likelihood -2.041402 F-statistic 49.00015 Durbin-Watson stat 1 .582165 Prob(F-statistic) 0.000113
Logistik Model Uygulaması v=N.P.(1-P) 8=2.4.5 3.75 4.56 7.05 9.95 12.50 8.47 6.73 6.18 3.31 vi 9= 8 1.9365 2.1354 2.6552 3.1543 3.5355 2.9103 2.5942 2.4859 1.8193 L* 10=7.9 -2.1468 -2.5009 -2.5001 -2.4999 0.0000 0.3556 1.7189 1.1052 2.1274 1.2880 X* 11=1.9 23.2379 34.1666 53.1036 82.0134 106.0660 116.4130 129.7112 149.1576 135.5544 145.5472
Logistik Model Uygulaması Li*= -1.38056 vi + 0.03363 Xi*, s= 0.8421 s(bi): (0.2315) (0.00556) , R2= 0.80 t= (-5.9617) (6.0424) , d= 1.649, F= 36.95 Gelir bir birim arttığında, ev sahibi olma lehine fark oranının logaritması 0.033 artmaktadır. Bu fark oranına göre belli bir gelir seviyesinde ev sahibi olma olasılığı hesaplanabilir: X=40 iken değerleri yukarıdaki denklemde yerine konduğunda L*=-0.10288 bulunur. olabilirlik oranı
40 birim gelirli bir ailenin ev sahibi olma olasılığı %47.43’dür. Lojistik modelden, belli bir gelir seviyesinde gelirdeki bir birimlik artışın ev sahibi olma olasılığını ne ölçüde arttıracağı tahmin edilebilir: formülünden yararlanılır. X=40 iken gelir 1 birim arttığında ev sahibi olma olasılığı [0.03363(1-0.4743)0.4743]=0.00838(%0.8)