Mehmet Vedat PAZARLIOĞLU KUKLA DEĞİŞKENLER Mehmet Vedat PAZARLIOĞLU
Kukla Değişken Nedir? Cinsiyet, eğitim seviyesi, meslek, din, ırk, bölge, tabiiyet, savaşlar, grevler, siyasi karışıklıklar (=darbeler), iktisat politikasındaki değişiklikler, depremler, yangın ve benzeri nitel değişkenlerin ekonometrik bir modelde ifade edilme şeklidir.
Kukla Değişkenlerin Modelde Kullanımı Kukla Değişken/lerin Modelde bağımsız değişken olarak yer alması Kukla Değişkenin Modelde Bağımlı Değişken olarak yer alması
Bağımsız Kukla Değişkenler Bir kukla değişkenli modeller (Varyans Analiz Modelleri) Kukla değişkenlerin ve Sayısal değişkenlerin Birlikte yer aldığı Modeller (Kovaryans Analizi Modeller) Kukla değişkenlerin karşılıklı olarak birbirini etkilemeleri Mevsim dalgalanmalarının ölçülmesinde kukla değişkenler Parçalı Doğrusal Regresyon
Bir kukla değişkenli modeller Yi = a + b Di +ui Yi = Öğretim Üyelerinin Yıllık Maaşları Di = 1 Öğretim Üyesi Erkekse = 0 Diğer Durumlar (yani Kadın Öğretim Üyesi) Varyans Analiz Modelleri (ANOVA) Kadın Öğretim Üyelerinin Ortalama Maaşları: E( Yi|Di = 0 ) = a Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Di = 1) = a + b
Bir kukla değişkenli modeller Maaş Cinsiyet 22 1 19 18 21.7 18.5 21 20.5 17 17.5 21.2 Yi = 18 + 3.28 Di (0.32) (0.44) t (57.74)(7.44) , R2=0.8737
Bir kukla değişkenli modeller Yi = 18 + 3.28 Di (0.32) (0.44) t (57.74)(7.44) , R2=0.8737 Kadın Öğretim Üyelerinin Ortalama Maaşları: E( Yi|Di = 0 ) = 18 Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Di = 1) = 18 + 3.28 = 21.28 Erkek ve Kadın Öğretim Üyelerinin Ortalama Maaş Farkı : 3.28
Bir kukla değişkenli modeller 3.28 21.28 18.00 1 Yi = 18 + 3.28 Di (0.32) (0.44) t (57.74)(7.44) , R2=0.8737
Kukla değişken ve Sayısal Değişkenli Model Yi = a1 + a2 Di + b Xi + ui Yi = Öğretim Üyelerinin Yıllık Maaşları Xi = Öğretim Üyesinin Yıl olarak Tecrübesi Di = 1 Öğretim Üyesi Erkekse = 0 Diğer Durumlar (yani Kadın Öğretim Üyesi) Kadın Öğretim Üyelerinin Ortalama Maaşları : E( Yi|Xi,Di = 0 ) = a1+bXi Erkek Öğretim Üyelerinin Ortalama Maaşları : E ( Yi|Xi,Di = 1) = (a1 + a2 )+bXi
Kukla değişken ve Sayısal Değişkenli Model Maaş Cinsiyet Tecrübe 22 1 16 19 12 18 21.7 15 18.5 10 21 11 20.5 13 17 8 17.5 9 21.2 14 Yi = 15.051 + 2.239 Di + 0.289 Xi s(b) (0.95) (0.44) (0.09) (t) (15.843) (5.088) (3.211) p (0.000) (0.002) (0.020) R2=0.949
Kukla değişken ve Sayısal Değişkenli Model Yi = 15.051 + 2.239 Di + 0.289 Xi (t) (15.843) (5.088) (3.211) p (0.000) (0.002) (0.020) Kadın Öğretim Üyelerinin Maaş Fonksiyonu: E( Yi|Di = 0 ) = 15.051 + 0.289 Xi Erkek Öğretim Üyelerinin Maaş Fonksiyonu: E( Yi|Di = 1 ) = 15.051 + 2.239 + 0.289 Xi = 17.29 + 0.289 Xi Erkek ve Kadın Öğretim Üyelerinin Ortalama Maaş Farkı : 2.239
Kukla değişken ve Sayısal Değişkenli Model 2.239 17.29 15.051 E( Yi|Di = 0 ) = 15.051 + 0.289 Xi E( Yi|Di = 1 ) = 15.051 + 2.239 + 0.289 Xi = 17.29 + 0.289 Xi
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4Xi + ui Yi = Sigara Tüketimi D2 = 1 Sigara Tüketen Erkek D3 = 1 Şehirde oturanların sigara tüketimi = 0 Sigara Tüketen Kadın = 0 Kırsalda oturanların sigara tüketimi Xi = Gelir Kırdaki Kadınların Sigara Tüketimi: E( Yi|D2=0,Yi|D3=0) = b1 + b4Xi Kırdaki Erkeklerin Sigara Tüketimi : E (Yi|D2=1,Yi|D3=0) = b1 + b2D2 + b4Xi Kentteki Kadınların Sigara Tüketimi: E( Yi|D2=0,Yi|D3=1 ) = b1 + b3D3 + b4Xi Kentteki Erkeklerin Sigara Tüketimi: E( Yi|D2=1,Yi|D3=1 ) = b1 + b2D2 + b3D3 + b4Xi
Birden Fazla Kukla Değişkenli Modeller Yıllık Sigara Tüketimi Yi (100 TL) Cinsiyet(D3) Şehir(D3) Yıllık Gelir (Xi)(100 TL) 25 1 400 20 260 19 270 24 360 240 22 310 21 280 18 200 320
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4Xi + ui Yi = Sigara Tüketimi D2 = 1 Sigara Tüketen Erkek D3 = 1 Şehirde oturanların sigara tüketimi = 0 Sigara Tüketen Kadın = 0 Kırsalda oturanların sigara tüketimi Xi = Gelir Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.87863 1.354977 8.766663 0.0001 D2 0.626208 0.640824 0.977193 0.3662 D3 0.671321 0.467992 1.434473 0.2014 X 0.029216 0.00544 5.370281 0.0017 R-squared 0.955074 F-statistic 42.51767 Adjusted R-squared 0.932611 Prob(F-statistic) 0.000195 S.E. of regression 0.586884 Akaike info criterion 2.061194 Sum squared resid 2.066595 Schwarz criterion 2.182228 Durbin-Watson stat 2.222562 Hannan-Quinn criter. 1.92842
1.Sabit Terimlerin Farklı Eğimlerin Eşit olması Yi= a1 + a2Di + bXi + ui Yi = Sigara Tüketimi Di = 1 Sigara Tüketen Erkek = 0 Xi = Gelir E( Yi|Xi,Di = 0 ) = a1+bXi E ( Yi|Xi,Di = 1) = (a1 + a2 )+bXi
Kukla değişken ve Sayısal Değişkenli Model Yi= a1 + a2Di + b2Xi + ui a2 a1+a2 a1
2. Sabit Terimlerin Eşit, Eğimlerin Farklı Olması Hali Yi= a1 + b1Di Xi+ b2Xi + ui Yi = Sigara Tüketimi Di = 1 Sigara Tüketen Erkek = 0 Xi = Gelir E( Yi|Xi,Di = 0 ) = a1+b2Xi E ( Yi|Xi,Di = 1) = a1 + (b1+b2)X i
2. Sabit Terimlerin Eşit, Eğimlerin Farklı Olması Hali Yi= a1 + b1Di Xi+ b2Xi + ui Yi E ( Yi|Xi,Di = 1) = a1 + (b1+b2)X i b1 + b2 ) E( Yi|Xi,Di = 0 ) = a1+b2Xi b2 ) a1 Xi 19
3. Sabit Terim ve Eğimin İki Sınıf İçin Farklı Olması Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui Yi = Sigara Tüketimi Di = 1 Sigara Tüketen Erkek = 0 Xi = Gelir E( Yi|Xi,Di = 0 ) = a1+b2Xi E ( Yi|Xi,Di = 1) = (a1+a1 ) + (b1+b2)X i
3. Sabit Terim ve Eğimin İki Sınıf İçin Farklı Olması Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui Yi E ( Yi|Xi,Di = 1) = (a1+a1 ) + (b1+b2)X i E( Yi|Xi,Di = 0 ) = a1+b2Xi a1+a2 a1 b2 b1+b2 ) ) Xi 21
Modelin t İstatistiklerinin Değerlendirilmesi Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui a2 ve b1’ün t istatistikleri anlamsızsa iki sınıf sigara tüketim fonksiyonları aynı 2.a2 ve b1’ün t istatistikleri anlamlıysa iki sınıf sigara tüketim fonksiyonları farklı (3.durum) a2 ve b1’ün t istatistiklerinden a2 anlamsız ve b1 anlamlıysa sabit terim aynı eğim farklıdır. (2. durum) 4. a2 ve b1’ün t istatistiklerinden a2 anlamlı ve b1 anlamsızsa sabit terim farklı eğim aynıdır. (1. durum)
Yıllık Sigara Tüketimi Cinsiyet (Di) (Erkek = 1, Kadın = 0) İki Sınıf Modellerinin Farklılığının Kukla Değişken Yöntemi İle Testi Yıllık Sigara Tüketimi Cinsiyet (Di) (Erkek = 1, Kadın = 0) Yıllık Gelir (Xi) 25 1 400 20 260 19 270 24 360 240 22 310 21 280 18 200 320 Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui 23
Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui İki Sınıf Modellerinin Farklılığının Kukla Değişken Yöntemi İle Testi Yi= a1 + a2 Di+ b1Di Xi+ b2Xi + ui Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 14.94231 2.598383 5.750619 0.0012 D2 -3.786344 3.35085 -1.129965 0.3016 D2*X 0.017555 0.012245 1.433624 0.2017 X 0.017308 0.010508 1.64702 0.1507 R-squared 0.95506 F-statistic 42.50422 Adjusted R-squared 0.932591 Prob(F-statistic) 0.000195 S.E. of regression 0.586972 Akaike info criterion 2.061496 Sum squared resid 2.067219 Schwarz criterion 2.18253 Durbin-Watson stat 1.943502 Hannan-Quinn criter. 1.928722 Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 10.3109 1.123493 9.177535 0.0000 X 0.036859 0.003804 9.689043 R-squared 0.921474 F-statistic 93.87755 Adjusted R-squared 0.911659 Prob(F-statistic) 0.000011 S.E. of regression 0.671954 Akaike info criterion 2.219603 Sum squared resid 3.612179 Schwarz criterion 2.28012 Durbin-Watson stat 2.034514 Hannan-Quinn criter. 2.153216 24
2. CHOW testi ile tüketim fonksiyonlarının farklılığının araştırılması Üç grup tüketim fonksiyonu tahmin edilir: H0: Erkek ve kadınlar için tüketim fonk. aynıdır. H1: Erkek ve kadınlar için tüketim fonk. farklıdır. Erkek-kadın tüm tüketiciler için tüketim fonksiyonu: HKT=3.162 Erkekler için tüketim fonksiyonu: HKT=0.2018 Kadınlar için tüketim fonksiyonu: HKT=1.865 Ftest = 2.243 Ftab= 5.14 (a=0.05 f1=2 f2=6 sd. lerinde) H0 kabul
Birden Fazla Kukla Değişkenli Modeller Yıllık Sigara Tüketimi Yi (100 TL) Cinsiyet(D3) Şehir(D3) Yıllık Gelir (Xi)(100 TL) 25 1 400 20 260 19 270 24 360 240 22 310 21 280 18 200 320
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4Xi + ui Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.87863 1.354977 8.766663 0.0001 D2 0.626208 0.640824 0.977193 0.3662 D3 0.671321 0.467992 1.434473 0.2014 X 0.029216 0.00544 5.370281 0.0017 R-squared 0.955074 F-statistic 42.51767 Adjusted R-squared 0.932611 Prob(F-statistic) 0.000195 S.E. of regression 0.586884 Akaike info criterion 2.061194 Sum squared resid 2.066595 Schwarz criterion 2.182228 Durbin-Watson stat 2.222562 Hannan-Quinn criter. 1.92842 Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.05045 1.053802 10.48627 0.0000 D3 0.827027 0.438611 1.885559 0.1013 X 0.032883 0.003926 8.375249 0.0001 R-squared 0.947924 F-statistic 63.70948 Adjusted R-squared 0.933045 Prob(F-statistic) 0.000032 S.E. of regression 0.58499 Akaike info criterion 2.008882 Sum squared resid 2.395495 Schwarz criterion 2.099658 Durbin-Watson stat 2.339918 Hannan-Quinn criter. 1.909302
BİR MODELDE KUKLA DEĞİŞKENLERİN KARŞILIKLI OLARAK BİRBİRİNİ ETKİLEMELERİ PROBLEMİ Şehirde Oturan bir Erkeğin Tüketim Farkı Erkeğin Tüketim Farkı Şehirde Oturanların Tüketim Farkı 28
Birden Fazla Kukla Değişkenli Modeller Yi= b1 + b2D2 + b3D3 + b4D2D3 + b5Xi + ui Yi= b1 + b5Xi Yi= b1 + b2D2 + b5Xi Yi= b1 + b3D3 + b5Xi Yi= b1 + b2D2 + b3D3 + b4D2D3 + b5Xi Dependent Variable: Y Variable Coefficient Std. Error t-Statistic Prob. C 11.40181 1.343907 8.484076 0.0004 D2 1.081264 0.707609 1.528053 0.187 D3 1.230248 0.626184 1.964677 0.1066 D2*D3 -1.151242 0.905929 -1.270786 0.2597 X 0.0307 0.005311 5.780173 0.0022 R-squared 0.966042 F-statistic 35.55997 Adjusted R-squared 0.938875 Prob(F-statistic) 0.000726 S.E. of regression 0.558941 Akaike info criterion 1.981308 Sum squared resid 1.562077 Schwarz criterion 2.132601 Durbin-Watson stat 2.778543 Hannan-Quinn criter. 1.815341
Üçer Aylar Karlar (Milyon Dolar) Satışlar 1965-I 10503 114862 II 12092 MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA Üçer Aylar Karlar (Milyon Dolar) Satışlar 1965-I 10503 114862 II 12092 123968 III 10834 121454 IV 12201 131917 1966-I 12245 129911 14001 140976 12213 137828 12820 145465 D2 1 D3 1 D4 1 30
Dependent Variable: Kar MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA Dependent Variable: Kar Variable Coefficient Std. Error t-Statistic Prob. C 6688.363 1711.366 3.90820 0.0009 D2 1322.892 638.4745 2.071957 0.0521 D3 -217.8054 632.2552 -0.344490 0.7343 D4 183.8564 654.2925 0.281000 0.7817 Satış 0.038246 0.011481 3.331281 0.0035 R2=0.525494 İstatistiki olarak anlamsız 31
MEVSİM DALGALANMALARININ ETKİSİNİN ARINDIRILMASINDA KUKLA DEĞİŞKENLERDEN FAYDALANMA Dependent Variable: Kar Sample: 1965:1 1970:4 VariableCoefficient Std. Error t-Statistic Prob. C 6515.581 1623.083 4.014323 0.0006 D2 1331.352 493.0214 2.700395 0.0134 Satış 0.039310 0.010575 3.717315 0.0013 R2 = 0.515460 Mevsim dalgalanmalarının etkisinde 32
Parçalı Doğrusal Regresyon Bir sigorta şirketi satış temsilcilerinin belli bir satış hacmini geçmesi durumunda çalışanlarına komisyon ödemektedir. Şirket içerisinde gerçekleştirilen satış komisyon ücretleri belli bir satış hacmi(X*) eşik düzeyine kadar doğrusal artmakta ve bu eşik düzeyinden sonra ise daha dik bir oranla satışlarla doğrusal olarak arttığı varsayılmaktadır. Bu durumda I ve II olarak numaralandırılmış iki parçadan oluşan parçalı doğrusal regresyona ve eşik düzeyinde eğimin değiştiği komisyon fonksiyonuna sahip olmuş oluruz. • II Satış Komisyonları I X* X 33
Parçalı Doğrusal Regresyon Satış Komisyonları Y X Satışlar • Yi= a1 + b1Xi + b2 (Xi-X*)Di+ui Yi= Satış Komisyonları Xi= Satış Miktarı X*= Satışlarda Prim Eşik Değeri D= 1 Eğer Xi > X* = 0 Eğer Xi < X* X* E(Yi| Di =0,Xi, X*) = a1 +b1 Xi E(Yi| Di =1,Xi, X*) = a1 - b2X* +(b1+ b2)Xi
Parçalı Doğrusal Regresyon Satış Komisyonları Y X Satışlar b1+b2 1 b1 1 a1 X* a1-b2X*
Örnek Bir şirket satış temsilcilerinin belli bir satış hacmini geçmesi durumunda çalışanlarına prim ödemektedir. Dependent Variable: TC Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C -145.7167 176.7341 -0.824496 0.4368 Q 0.279126 0.046008 6.066877 0.0005 (Q-5500)*DI 0.094500 0.082552 1.144727 0.2899 R2=0.973706 F-statistic= 129.6078 [0.000003] Total Cost($) TC Output(units) Q Di 256 1000 414 2000 634 3000 778 4000 1003 5000 1839 6000 1 2081 7000 2423 8000 2734 9000 2914 10000 Satışlardaki artışlar prim değerini arttırmamaktadır. İstatistiki olarak anlamsız H0: Satışlardaki artışlar prim değerini arttırmamaktadır. H1: Satışlardaki artışlar prim değerini arttırmaktadır.
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI UYGULAMA: 1935-1954 yıllarına arasında General Motor, Westinghouse ve General Electric firmalarına ait yatırım (Y), firmanın değeri (X2 ) ve sermaye stoğu (X3) verilerine ait tablo aşağıda verilmiştir. 37
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI Firmaların yatırımları arasında fark olup olmadığını inceleyebilmek için de kukla değişkenlerden yararlanabiliriz. Firmaların ilk üç yılına ait veriler ile oluşturulan yeni tablo aşağıdaki gibidir. Yıllar Y X2 X3 Di Firma 1935 317.6 3078.5 2.8 1 GM 1936 391.8 4661.7 52.6 1937 410.6 5387.1 156.9 12.93 191.5 1.8 WE 25.90 516.0 0.8 35.05 729.0 7.4 33.1 1170.6 97.8 GE 45.0 2015.8 104.4 77.2 2803.3 118.0 General Motor(GM), Westinghouse(WE) ve General Electric (GE) yatırım (Y), firmanın değeri (X2 ) ve sermaye stoğu (X3) 38
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI GM yatırımlarının diğer firma yatırımlarından sabit terim kadar farklı olduğunu ifade etmektedir.
ZAMAN SERİSİ VE ÇAPRAZ-KESİT VERİLERİNİN BİRARAYA GETİRİLMESİNDE KUKLA DEĞİŞKENLERİN KULLANIMI Dependent Variable: Y Method: Least Squares Included observations: 60 Variable Coefficient Std. Error t-Statistic Prob. C -61.80754 23.79039 -2.598004 0.0120 X2 0.038311 0.016752 2.286884 0.0260 X3 0.347303 0.032048 10.83683 0.0000 DI 278.5911 51.74338 5.384091 0.0000 R-squared 0.924866 Mean dependent var 251.067 Adjusted R-squared 0.920841 S.D. dependent var 311.6501 S.E. of regression 87.68352 Akaike info criterion 11.84969 Sum squared resid 430550.4 Schwarz criterion 11.9893 Log likelihood -351.4906 F-statistic 229.7778 Durbin-Watson stat 0.502776 Prob(F-statistic) 0.000000 İstatistiksel olarak anlamlı 40
ÖRNEKLER 41
DATA7-19 1960-1988 yılları arasında Türkiye’deki Sigara Tüketimi Q Yetişkinlerin sigara tüketim miktarı(kg), Range 1.86 - 2.723. Y GNP(1968) TL, Range 2560 - 5723. P Türkiye’deki sigara fiyatları Range 1.361 - 3.968. ED1 Kayıtlı ortaokul ve lise mezunu nüfus oranı(12-17 yaş) Range 0.112 - 0.451. ED2 Kayıtlı üniversite mezunu oranı (20-24) Range 0.026 - 0.095. D82 = 1 , 1982 ve sonrası D86 = 1 , 1986 ve sonrası 42
Included observations: 29 Dependent Variable: Q Sample: 1960 1988 Included observations: 29 Variable Coefficient Std. Error t-Statistic Prob. P -0.097291 0.079389 -1.225493 0.2340 ED2 -5.547295 2.679248 -2.07046 0.0509 ED1 -2.994166 2.708828 -1.105336 0.2815 D86 -0.262700 0.090825 -2.89238 0.0087 D82 -0.288739 0.083649 -3.451774 0.0024 Y 0.000762 0.000190 4.009205 0.0006 C 5.1139345 0.34132 0.101585 0.9200 Katsayılar istatistiksel olarak anlamsız 43
Included observations: 29 Dependent Variable: Q Method: Least Squares Sample: 1960 1988 Included observations: 29 Variable Coefficient Std. Error t-Statistic Prob. ED2 -6.455259 2.724204 -2.369595 0.0266 D86 -0.351822 0.078985 -4.454297 0.0002 D82 -0.269429 0.084743 -3.179385 0.0042 Y 0.000672 0.000170 3.945228 0.0006 C 58.18878 33.26618 1.749187 0.0936 44
DATA7-2 Belirli bir şirkette çalışan 49 kişinin istihdam durumu ve ücretleri WAGE = Aylık Ücret (Range 981 - 3833) EDUC = 8 yıllık eğitimden sonraki sahip olunan eğitim seviyesi(Range 1 - 11) EXPER =Şirkette çalışma süresi(Range 1 - 23) AGE = Yaş (25 - 64) GENDER = 1, Erkek ise; 0 kadın ise RACE = 1, beyaz ise; 0 diğerleri CLERICAL = 1 büro memuru ise, 0 diğerleri MAINT = 1 bakım işlerinde çalışıyor ise; 0 diğerleri CRAFTS =1,usta ise; 0 diğerleri Temel sınıf Profesyonel meslek grupları. 45
Dependent Variable: WAGE Method: Least Squares Included observations: 49 Variable Coefficient Std. Error t-Statistic Prob. C 1637.202 263.6726 6.209224 0.0000 EDUC 49.33178 27.99678 1.762052 0.0855 EXPER 27.29509 9.488883 2.876533 0.0064 GENDER 473.6966 152.4818 3.106578 0.0034 RACE 207.0888 130.4491 1.587506 0.1201 CLERICAL-946.7380 174.6505 -5.420758 0.0000 MAINT -1053.424 203.4297 -5.178320 0.0000 CRAFTS -708.8822 176.0507 -4.026580 0.0002 R-squared 0.737516 Mean dependent var 1820.204 Adjusted R-squared 0.692702 S.D. dependent var 648.2687 S.E. of regression 359.3643 Akaike info criterion 14.75483 Sum squared resid 5294850. Schwarz criterion 15.06370 Log likelihood -353.4934 F-statistic 16.45717 Durbin-Watson stat 2.107977 Prob(F-statistic) 0.000000 46
DATA 7-9 colgpa = 1986 sonbaharındaki ortalamaları (Range 0.85 - 3.97) 1985 yılında koleje giriş yapan öğrencilerin ilk yıl başarılarını göstermekte colgpa = 1986 sonbaharındaki ortalamaları (Range 0.85 - 3.97) hsgpa = Lise GPA (Range 2.29 - 4.5) vsat = Sözel derecesi (Range 200 - 700) msat = Sayısal derecesi (Range 330 - 770) dsci = 1 Bilim dalı için, 0 diğerleri dsoc = 1 Sosyal bilim dallı için, 0 diğerleri dhum = 1 Beşeri bilimdalı için 0 diğerleri darts = 1 Sanat dalı için, 0 diğerleri dcam = 1 Öğrenci kampüste yaşıyorsa, 0 diğerleri dpub = 1 Genel lise mezunu ise, 0 diğerleri 47
Dependent Variable: COLGPA Method: Least Squares Sample: 1 427 Included observations: 427 Variable Coefficient Std. Error t-Statistic Prob. C 0.367296 0.224302 1.637506 0.1023 HSGPA 0.405914 0.063418 6.400630 0.0000 VSAT 0.000726 0.000290 2.503907 0.0127 MSAT 0.001086 0.000303 3.586609 0.0004 DSCI -0.027323 0.057319 -0.476673 0.6338 DSOC 0.056148 0.072778 0.771494 0.4409 DHUM -0.004059 0.141771 -0.028632 0.9772 DARTS 0.228650 0.188921 1.210294 0.2269 DCAM -0.040705 0.052162 -0.780362 0.4356 DPUB 0.029403 0.063040 0.466416 0.6412 Katsayılar istatistiki olarak anlamsız 48
Dependent Variable: COLGPA Variable Coefficient Std. Error t-Statistic Prob. C 0.423249 0.219749 1.926053 0.0548 HSGPA 0.398349 0.060586 6.574882 0.0000 VSAT 0.000737 0.000281 2.627361 0.0089 MSAT 0.001015 0.000294 3.457749 0.0006 49
Bağımlı Kukla Değişkenler Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla değişkenler söz konusudur. Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır: -Doğrusal Olasılık Modeli -Logit Modeli -Probit Modeli -Tobit Modeli
Doğrusal Olasılık Modeli Yi = b1 + b2Xi +ui Yi= 1 Eğer i. Birey istenen özelliğe sahipse 0 Diğer Durumlarda Xi= Bağımsız değişken Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı beklenen değerinin, Y’nin X için şartlı olasılığına eşit olmasıdır. E(Yi|Xi)= Pr(Yi=1| Xi)
Doğrusal Olasılık Modeli E(Yi |Xi)= b1 + b2Xi E(ui) = 0 Yi değişkeninin olasılık dağılımı: Yi Olasılık 0 1-Pi 1 Pi Toplam 1 E(Yi |Xi) = SYiPi=0.(1-Pi) + 1.(Pi) = Pi E(Yi |Xi)= b1 + b2Xi 0 E(Yi |Xi) 1
DOM Tahminindeki Sorunlar ui hata teriminin normal dağılmayışı: Normallik varsayımının sağlanmaması durumunda tahmin ediciler sapmasızlıklarını korurlar. Nokta tahminde normallik varsayımı gözardı edilir. Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla normal dağılıma uyarlar. DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı altındaki EKK sürecine uyarlar.
u’ların Binom Dağılımlı Olması EKKY varsayımlarından biri u değerlerinin dağılımının normal olmasıdır. Bu varsayım sayesinde katsayı tahminlerinin güven aralıkları hesaplanıp, test yapılabilmektedir. DOM’de u’lar normal dağılmaz, binom dağılımı gösterir: Y 1 ve 0 değerini aldığında Yi =1 için Yi =0 için u lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir.
Yi ui İhtimal=P(ui) -b1-b2X (1-Pi) 1 1-b1-b2X Pi ui hata teriminin değişen varyanslı olması: DOM’de u lar eşit varyanslı değillerdir. Bunun için kesikli bir Y değişkeni varyansından hareketle Y yerine u alınarak Yi ui İhtimal=P(ui) -b1-b2X (1-Pi) 1 1-b1-b2X Pi
ui hata teriminin değişen varyanslı olması: u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır. ui hata teriminin değişen varyanslı olması: Var(ui) = Pi(1-Pi) DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür:
DOM’de Farklı Varyansı Önleme ler bilinmediğinden bunun yerine örnek tahmini değerleri hesaplanarak ifadesinde yerine konarak ler kullanılır. 0 E(Yi |Xi) 1 varsayımının yerine gelmeyişi DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1 arasında bulunması şarttır. Y; 0 ve 1 değerini almaktadır.Bu şart anakütle için geçerlidir. Anakütlenin tahmincisi için geçerli olmayabilir. Tahmini şartlı olasılıklar 0 ile 1 olmayabilir: 57
0 E(Yi |Xi) 1 0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için 0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e eşit olduğu kabul edilir. Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir. eşit varyanslıdır. Bu yöntem TEKKY’dir.
Doğrusal Olasılık Modeli Di = b1 + b2Mi +b3 Si +ui Di= 1 Eğer i. Kadının bir işi varsa ya da iş arıyorsa 0 Diğer Durumlarda Mi= 1 Eğer i. Kadın evliyse diğer durumlarda 0 Si = i.kadının yıl olarak aldığı eğitim Ai= i. Kadının Yaşı
Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa Mi Ai Si 1 31 16 35 10 34 14 40 41 43 67 9 37 12 25 27 13 58 28 45 48 55 66 7 44 11 8 21 15 62 23 51 39 Kadının İşgücüne Katılımı Modeli: Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa 0 Diğer Durumlarda Mi= 1 i. Kadın evliyse 0 diğer durumlarda Si = i.kadının yıl olarak aldığı eğitim Ai= i. Kadının Yaşı
Kadının İşgücüne Katılımı Modeli Mi= 1 Kadın evliyse ;0 diğer durumlarda ; Si = i.kadının yıl olarak aldığı eğitim A= Kadının Yaşı Di = b1 + b2Mi +b3 Si +ui Dependent Variable: DI Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. C -0.284301 0.435743 -0.652452 0.5196 MI -0.381780 0.153053 -2.494430 0.0190 SI 0.093012 0.034598 2.688402 0.0121 R-squared 0.363455 Mean dependent var 0.600000 Adjusted R-squared 0.316304 S.D. dependent var 0.498273 S.E. of regression 0.412001 Akaike info criterion 1.159060 Sum squared resid 4.583121 Schwarz criterion 1.299179 Log likelihood -14.38590 F-statistic 7.708257 Durbin-Watson stat 2.550725 Prob(F-statistic) 0.002247
White Heteroskedasticity Test: F-statistic 1.759076 Probability 0.168742 Obs*R-squared 6.589061 Probability 0.159265 Dependent Variable: RESID^2 Included observations: 30 Variable Coefficient Std. Error t- Statistic Prob. C -0.390620 0.700490 -0.557639 0.5821 MI -0.410659 0.315325 -1.302336 0.2047 MI*SI 0.036202 0.026225 1.380429 0.1797 SI 0.132421 0.116635 1.135344 0.2670 SI^2 -0.007102 0.004809 -1.476822 0.1522 R-squared 0.219635 Mean dependent var 0.15277 Adjusted R-squared 0.094777 S.D. dependent var 0.16180 S.E. of regression 0.153942 Akaike info criterion -0.75347 Sum squared resid 0.592452 Schwarz criterion 0.51994 Log likelihood 16.30209 F-statistic 1.75907 Durbin-Watson stat 1.963424 Prob(F-statistic) 0.16874
DOM’de Farklı Varyansı Önleme Dependent Variable: Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. -0.184154 0.316834 -0.581231 0.5659 -0.362893 0.135229 -2.683551 0.0123 0.081678 0.022231 3.674022 0.0010 R-squared 0.872710 Mean dependent var 2.190469 Adjusted R-squared 0.863281 S.D. dependent var 2.514662 S.E. of regression 0.929809 Akaike info criterion 2.786965 Sum squared resid 23.34273 Schwarz criterion 2.927085 Log likelihood -38.80448 F-statistic 92.55700 Durbin-Watson stat 2.583787 Prob(F-statistic) 0.000000
UYGULAMA:Cep telefonunun kullanılıp kullanılmamasını ifade eden bağımlı kukla değişken 50 kişiye yapılan anket sonuncunda yaş ve aylık ortalama gelir ile açıklanmıştır.(Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse) Kişi Y X(Gelir) Z(Yaş) 1 250 23 26 185 21 2 350 27 3 150 28 500 4 600 22 29 790 5 200 30 6 20 31 675 7 390 32 490 8 18 33 9 900 25 34 760 10 35 550 11 255 36 400 24 12 300 37 13 640 38 220 14 39 175 15 40 840 16 19 41 17 800 42 875 43 44 485 45 46 47 470 48 750 49 225 50 130
Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse; X(Gelir); Z(Yaş) Dependent Variable: Y Method: Least Squares Included observations: 50 Variable Coefficient Std. Error t-Statistic Prob. C -1.373086 0.585035 -2.347017 0.0232 X 0.000492 0.000259 1.900372 0.0635 Z 0.086130 0.026781 3.216041 0.0024 R-squared 0.2401 Mean dependent var 0.700 Adjusted R-squared 0.207770 S.D. dependent var0.462910 S.E. of regression 0.412024 Akaike info criterion1.122653 Sum squared resid 7.978889 Schwarz criterion 1.2373 Log likelihood -25.06633 F-statistic 7.425357 Durbin-Watson stat 1.552777 Prob(F-statistic)0.001577
White Heteroskedasticity Test: F-statistic 2.305076 Probability 0.060504 Obs*R-squared 10.37848 Probability 0.065195 Dependent Variable: RESID^2 Included observations: 50 Variable Coefficient Std. Error t-Statistic Prob. C 2.341377 2.147612 1.090224 0.2815 X -0.004404 0.001530 -2.878146 0.0062 X^2 1.63E-06 6.58E-07 2.475147 0.0172 X*Z 0.000132 6.84E-05 1.927924 0.0603 Z -0.116457 0.191111 -0.609369 0.5454 Z^2 0.001301 0.004396 0.295915 0.7687 R-squared 0.207570 Mean dependent var0.159578 Adjusted R-squared 0.117521 S.D. dependent var 0.225222 S.E. of regression 0.211574 Akaike info criterion -0.156314 Sum squared resid 1.969602 Schwarz criterion 0.073128 Log likelihood 9.907860 F-statistic 2.305076 Durbin-Watson stat 2.375111 Prob(F-statistic) 0.060504
Kişi 1 0.7308 16 0.5338 31 0.8536 46 0.4970 2 0.6077 17 0.5705 32 0.7627 47 0.4944 3 0.6817 18 0.8658 33 0.6815 48 1.0012 4 0.8167 19 0.3861 34 0.8093 49 0.5586 5 0.6201 20 0.5953 35 1.1367 50 0.6718 6 0.4233 21 0.5092 36 0.8907 7 1.1442 22 37 0.5340 8 0.2756 23 0.7922 38 0.5438 9 1.2226 24 0.8044 39 0.6939 10 0.2510 25 0.7185 40 0.8486 11 0.3026 26 0.5266 41 12 27 42 0.7062 13 1.0948 28 43 14 1.1982 29 0.9963 44 0.8463 15 0.6693 30 0.7676 45
Dependent Variable: Method: Least Squares Sample: 1 50 Included observations: 44 Excluded observations: 6 Variable Coefficient Std. Error t-Statistic Prob. -1.960127 0.591996 -3.311048 0.0019 0.000468 0.000170 2.754280 0.0087 0.114551 0.028194 4.062939 0.0002 R-squared 0.899751 Mean dependent var 1.9024 Adjusted R-squared 0.894861 S.D. dependent var 2.504969 S.E. of regression 0.812241 Akaike info criterion2.487706 Sum squared resid 27.04915 Schwarz criterion 2.609356 Log likelihood -51.72954 F-statistic 183.9907 Durbin-Watson stat 1.728717 Prob(F-statistic) 0.000000