Bağımlı Kukla Değişkenler 1 Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla değişkenler söz konusudur. Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır: -Doğrusal Olasılık Modeli -Logit Modeli -Probit Modeli -Tobit Modeli
Doğrusal Olasılık Modeli 2 Y i = b 1 + b 2 X i +u i Y i = 1Eğer i. Birey istenen özelliğe sahipse 0Diğer Durumlarda X i = Bağımsız değişken Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı beklenen değerinin, Y’nin X için şartlı olasılığına eşit olmasıdır. E(Y i |X i )=Pr(Y i =1| X i )
Doğrusal Olasılık Modeli 3 E(Y i |X i )= b 1 + b 2 X i E(u i ) = 0 Y i değişkeninin olasılık dağılımı: Y i Olasılık 01-P i 1Pi1Pi Toplam1 E(Y i |X i ) = Y i P i =0.(1-P i ) + 1.(P i ) = P i E(Y i |X i )= b 1 + b 2 X i = P i 0 E(Y i |X i ) 1
DOM Tahminindeki Sorunlar 4 u i hata teriminin normal dağılmayışı: Normallik varsayımının sağlanmaması durumunda tahmin ediciler sapmasızlıklarını korurlar. Nokta tahminde normallik varsayımı gözardı edilir. Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla normal dağılıma uyarlar DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı altındaki EKK sürecine uyarlar
u’ların Binom Dağılımlı Olması EKKY varsayımlarından biri u değerlerinin dağılımının normal olmasıdır. Bu varsayım sayesinde katsayı tahminlerinin güven aralıkları hesaplanıp, test yapılabilmektedir. DOM’de u’lar normal dağılmaz, binom dağılımı gösterir: Y 1 ve 0 değerini aldığında Y i =1 için Y i =0 için u lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir. 5
YiYi uiui İhtimal=P(u i ) 0-b 1 -b 2 X(1-P i ) 11-b 1 -b 2 XPiPi u i hata teriminin değişen varyanslı olması: DOM’de u lar eşit varyanslı değillerdir. Bunun için kesikli bir Y değişkeni varyansından hareketle Y yerine u alınarak 6
u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır. DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür: u i hata teriminin değişen varyanslı olması: Var(u i ) = P i (1-P i ) 7
DOM’de Farklı Varyansı Önleme ler bilinmediğinden bunun yerine örnek tahmini değerleri hesaplanarak ifadesinde yerine konur. 0 E(Y i |X i ) 1 varsayımının yerine gelmeyişi DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1 arasında bulunması şarttır. Y; 0 ve 1 değerini almaktadır.Bu şart anakütle için geçerlidir. Anakütlenin tahmincisi için geçerli olmayabilir. Tahmini şartlı olasılıklar 0 ile 1 olmayabilir: 8
0 E(Y i |X i ) 1 0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra: eşit olduğu kabul edilir. 1- Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için 0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e değeri verilir. 2- Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için değerini alır. 1’den büyük değerli ise bunlar için ne
10 eşit varyanslıdır. Bu yöntem Tartılı En Küçük Kareler Yöntemi (TEKKY) olarak adlandırılır. Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir. 3- Bunlardan bir kısmı 0 dan küçük, negatif değerli ve 1’den büyük değerli ise bu gözlemler atılır.
11 R 2 Değerinin Genellikle Küçük Çıkarak, İlişkinin Uyumunu Gösteren Bir Ölçü Olamaması Belli bir X’e karşılık gelen Y, ya 0 ya da 1’dir. Öyleyse bütün Y değerleri, ya X ekseni ya da 1’in hizasındaki doğru üzerinde yer alır. Genellikle klasik En Küçük Kareler yöntemi ile hesaplanan R 2, böyle modellerde 1’den çok küçük çıkma eğilimindedir. Çoğu uygulamada R 2, 0.2 ile 0.6 arasında yer alır. Tahmin edilen Y i, ya 0’a ya da 1’e yakın çıkacaktır. Bu nedenle John Aldrich ile Forrest Nelson ‘Nitel bağımlı değişkeni olan modellerde, belirlilik katsayısının bir özetleme istatistiği olarak kullanılmasından kaçınılması gerektiğini ileri sürmektedir (Gujarati, 1995:546).
Doğrusal Olasılık Modeli 12 D i = b 1 + b 2 M i +b 3 S i +u i D i = 1Eğer i. Kadının bir işi varsa ya da iş arıyorsa 0Diğer Durumlarda M i = 1Eğer i. Kadın evliyse ve diğer durumlarda 0 S i = i.kadının yıl olarak aldığı eğitim
DiDi MiMi SiSi DiDi MiMi SiSi Kadının İşgücüne Katılımı Modeli: D i = 1 i.Kadının bir işi varsa ya da iş arıyorsa 0 Diğer Durumlarda M i = 1 i. Kadın evliyse 0 diğer durumlarda S i = i.kadının yıl olarak aldığı eğitim 13
Kadının İşgücüne Katılımı Modeli 14 D i = b 1 + b 2 M i +b 3 S i +u i Dependent Variable: D I Included observations: 30 VariableCoefficientStd. Errort-StatisticProb. C M I S I R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic) M i = 1 Kadın evliyse ;0 diğer durumlarda ; S i = i.kadının yıl olarak aldığı eğitim
15 Daha sonra modelde değişen varyans olup olmadığı araştırılmak istenmiş ve White testi ile modelde değişen varyans problemi test edilmiştir. White Heteroskedasticity Test: F-statistic Probability Obs*R-squared Probability Prob değeri >0.05 olduğu için H 0 hipotezi olan Değişen varyans yoktur, eşit varyans vardır hipotezi red edilemez. Test sonucu değişen varyans problemi ile karşılaşılmadığından herhangi bir işlem yapılmaz. Model olduğu gibi kabul edilir.
UYGULAMA:Akıllı telefonunun kullanılıp kullanılmamasını ifade eden bağımlı kukla değişken 50 kişiye yapılan anket sonuncunda yaş ve aylık ortalama gelir ile açıklanmıştır.( Y=1, akıllı telefona sahip ise, Y=0 akıllı telefona sahip değilse) KişiYX(Gelir)Z(Yaş)KişiYX(Gelir)Z(Yaş)
Dependent Variable: Y Method: Least Squares Included observations: 50 VariableCoefficientStd. Errort-StatisticProb. C X Z R-squared Mean dependent var0.700 Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic) Y=1, akıllı telefona sahip ise, Y=0 akıllı telefona sahip değilse; X(Gelir); Z(Yaş) 17 Önce Modelde değişen varyansın olup olmadığı White testi ile araştırılır.
18 White Heteroskedasticity Test: F-statistic Probability Obs*R-squared Probability Prob değeri <0.05 olduğu için H 0 hipotezi olan Değişen varyans yoktur, eşit varyans vardır hipotezi red edilir. Değişen varyans problemi ile karşılaşıldığından önce hesaplanır. 2. ‘nin 0’dan küçük değerleri ve 1’den büyük değerleri veri setinden çıkartılır.. 3.Ardından hesaplanır. 4. Y= b 1 + b 2 X + b 3 Z modelinin her iki tarafı da değerine bölünür. 5. Model tahmin edilir.
Kişi
Dependent Variable: Method: Least Squares Sample: 1 50 Included observations: 44 Excluded observations: 6 VariableCoefficientStd. Errort-StatisticProb R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)
21 Örnek büyüklüğü arttıkça hata terimi normal dağılıma yaklaşsa ve değişen varyans durumunda, ağırlıklı en küçük kareler yöntemi kullanılsa, modelin her iki tarafı ye bölünüp model değişimi yapılsa bile normallik ve değişen varyans varsayımlarıyla ilgili sakıncaları giderebilmek için logit ve probit modeller geliştirilmiştir. Bu modeller, hem şartını sağlayabilmekte ve hem de P i ile X i arasındaki ilişkiyi doğrusallıktan kurtarabilmektedirler. Yani, logit ve probit modelleri, farklı bağımsız X değişkeninin olasılığının 0 ile 1 arasında kalmasını sağladıkları gibi; ayrıca, değişik bağımsız değişkene ait belli bir artış karşısında, bu bağımsız değişkenin kullanılma olasılığının değişik miktarda artmasını sağlamaktadırlar. DOM’e Alternatif Model Arama
22 Günümüzde nitel değişkenlerden oluşan kukla değişken verileri analiz etmek için çeşitli teknikler kullanılmaktadır. Bunlardan log-linear modeller iki veya daha fazla kukla değişkenin koşullu ilişkisini analiz etmek için geliştirilmiştir. Bununla birlikte, log-linear modeller sayesinde, değişkenlerin oluşturduğu bileşik dağılımı, iki veya daha fazla değişkenin birbirine bağımlı olup olmadığını ve iki veya daha fazla değişken arasındaki ilişkiyi neden-sonuç ilişkisine dayandırmaksızın test etmek mümkündür.
DOM’e Alternatif Model Arama 23 DOM ile ilgili sayılan sorunların hepsi bir şekilde aşılabilir Ancak, DOM, P i =E(Y=1|X) olasılığının X’le doğrusal olarak arttığını varsayar. Yani X’deki marjinal veya küçük bir artış hep sabittir. Gerçek hayatta ise bu beklenen bir durum değildir. DOM ile ilgili sorunlar şu iki özellik sayesinde aşılabilir: 1.X i arttıkça P i =E(Y=1|X)’de artar ancak 0 ile 1 aralığının dışına çıkmaması gerekmektedir. 2.P i ile X i arasındaki ilişkinin doğrusal olmaması gerekmektedir.
DOM’e Alternatif Model Arama 24 Yukarıdaki iki özelliği taşıyan modelin şekli aşağıda verilmiştir: 0 1 P -- ++ X KDF Yukarıdaki eğri kümülatif dağılım fonksiyonuna benzemektedir. Bu fonksiyon kukla bağımlı değişkenli regresyon modellerinde kullanılabilir.
Logit Model 25 Logit modeller, genelleştirilmiş doğrusal modelin belirli koşullar altında oluşturulmuş özel durumlarıdır. Bu durumda, eğer bağımsız değişkenlerin bazısı sürekli veya uygun (ilgili) sınıflar içine ayrıştırılamazsa, o zaman log-linear analiz yerine logistik regresyon kullanılmalıdır. Aynı zamanda eğer değişkenlerin bazısı bağımlı olarak ele alınırsa, o zaman logit model uygundur. Böyle bir durumda 0’la 1 arasında kalma koşulunu sağlayabilmek için logit modelin uygulanması önerilmektedir. Logit model, bağımlı değişkenin tahmini değerlerini olasılık olarak hesaplayarak olasılık kurallarına uygun sınıflama yapma imkanı veren, tablolaştırılmış ya da ham veri setlerini analiz eden bir istatistiksel yöntemdir.
Logit Model 26 Logistik Dağılım Fonksiyonu kümülatif lojistik dağılım fonksiyonudur. Bahis yada olabilirlik oranı Bu orana lehine fark oranı denir. Lojistik modelin her iki tarafının doğal log. alındığında L i fark oranı logaritması olup hem X, hem parametrelere göre doğrusaldır.Z değişkeni - dan + a değişirken, P 0 ile 1 arasında değişir.
Logit Model 27 DOM’de şeklindedir. Logit modelde olasılık iken.
Logit Modelin Özellikleri 28 1.P i, 0’dan 1’e kadar değer aldığında, Logitte - ile + arasında değer alır. 2.Logit, X’e göre doğrusal iken olasılıklara göre değildir. 3.Logit modelin b 2 katsayısı şu şekilde yorumlanır: Bağımsız değişkendeki bir birimlik değişme karşısında logitteki değişmeyi gösterir. 4. Logit model tahmin edildikten sonra, X bağımsız değişkeninin belirli bir değeri için logitin gerçekleşme olasılığı hesaplanabilir.
2 Bir olayın gerçekleşme olasılığının birden büyük olması durumundan kaçınmak için olasılığın Z’nin S şeklinde bir fonksiyonu olduğunu varsaymaktır. Z açıklayıcı değişkenlerin fonksiyonu olarak ifade edilebilir. Logit Model 29
3 Birçok fonksiyon S şeklinde fonksiyon özelliklere sahiptir ve yukarıda gösterildiği gibi bunlardan biri de lojistik fonksiyondur. Z + sonsuza gideren, e -Z sıfıra gitmekte, ve p 1’e gitmektedir. (fakat 1’i geçmemektedir.). Z – sonsuza giderken, e -Z de sonsuza gitmekte ve p de sıfıra gitmektedir (fakat sıfırın altına inmemektedir. ). Logit Model 30
A- Frekanslı Serilerde Logit Modelin EKKY İle Tahmini 1.Adım: ihtimalleri (nispi frekanslar) hesaplanır. 2.Adım: fark oranı logaritmaları hesaplanır. 3.Adım: orijinal lojistik modeli tahminlenir. Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir. 31
Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir. Dönüşümlü veya Tartılı EKK Lojistik Modeli 32
Frekanslı Seri İçin Logit Model Uygulaması 300 aileden oluşan küçük bir kasabada ailelerin, yıllık gelirleri (X i ) ve ev sahibi olanların sayısı (n i ) aşağıdaki tabloda gösterilmiştir. X Milyon TL) Aile Sayısı= N i Ev Sahibi Olan Aile Sayısı=n i Nispi Frekanslar P i =n i /N i N i = 300 n i =
XiXi NiNi nini PiPi 4=3/ P i 5= P i /1- P i 6=4/ LiLi 7=ln(6)
Dependent Variable: L Method: Least Squares Included observations: 10 VariableCoefficientStd. Errort-StatisticProb. C X R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)
v=N.P.(1-P) 8= vi vi 9= L* 10= X* 11=
L i * = v i X i *, s= s(b i ): (0.2315)( ), R 2 = 0.80 t=( ) (6.0424), d= 1.649,F= Gelir bir birim arttığında, ev sahibi olma lehine fark oranının logaritması artmaktadır. Bu fark oranına göre belli bir gelir seviyesinde ev sahibi olma olasılığı hesaplanabilir: X=40 iken değerleri yukarıdaki denklemde yerine konduğunda L * = bulunur. olabilirlik oranı 37
40 birim gelirli bir ailenin ev sahibi olma olasılığı %47.43’dür. Lojistik modelden, belli bir gelir seviyesinde gelirdeki bir birimlik artışın ev sahibi olma olasılığını ne ölçüde arttıracağı tahmin edilebilir: formülünden yararlanılır. X=40 iken gelir 1 birim arttığında ev sahibi olma olasılığı [ ( )0.4743]= (%0.8) 38
B- En Yüksek Olabilirlik Yöntemiyle Logit Modelin Elde Edilmesi 39 Frekanslı olmayan serilerde logit modeli EKKY ile çözülemez. P i =1 ve P i =0 değerleri logit L i ’ deki yerine koyulduğunda ln(1/0) ve ln(0/1) değerleri elde edilir ki bunlar anlamsızdır. En küçük kareler yöntemi ile L fonksiyonundaki parametrelerin tahmin değerleri bulunamaz, fakat bu parametreler maksimum olabilirlik modeli ile tahmin edilebilir.
Örneğin aşağıda frekanslı olmayan bir serinin en yüksek olabilirlik yöntemi ile logit model tahmini yer almaktadır: 40
41 Modeldeki katsayılar aşağıdaki gibidir;
Logit modelde katsayılar doğrudan, bağımsız değişkenlerdeki bir değişimin bağımlı değişkenin beklenen değeri üzerindeki etkisi olarak yorumlanamamaktadır. Katsayının işareti bağımsız değişken ile olayın gerçekleşme olasılığı arasındaki ilişkinin yönünü gösterir. Modeldeki bağımsız değişkenlerin tümü olayın gerçekleşme olasılığı ile ters yönlü bir ilişki içerisindedir. 42
43
44
45
46
47
48
Probit Model Probit model, y bağımlı değişkenin normal dağıldığını varsayarken, Logit model bu değişkenin lojistik eğriye dayandığını varsaymaktadır. Bu iki modelden Logit modelin dağılımda lojistik birikimli dağılım fonksiyonunun kuyruk bölgeleri Probit modele göre daha geniştir. Nitel olarak ele alındığında bu iki model benzer sonuçlar vermesine rağmen iki modelin tahmin edilen anakütle katsayılarını doğrudan karşılaştırmak mümkün değildir. 49
İki değer alabilen nitel değişkenli nitel tercih modellerinden biri olan DOM’ndeki en belirgin sorun, tahmin edilen olasılık değerlerinin 0-1 aralığının dışına çıkması sorunudur. Bu sorunun giderilmesi adına kullanılan Probit model, olasılıkların 0-1 arasında kalmasını sağlayan ve katsayılar itibariyle doğrusal olmayan bir modeldir. Probit model, genellikle gözlenemeyen bir fayda endeksi ile oluşturulduğundan, fayda endeksi hakkında bilgi verme yükümlülüğünü taşımaktadır. 50
Bağımlı kukla değişkenli modellerden kümülatif lojistik fonksiyonundan farklı olarak, normal kümülatif dağılım fonksiyonunu kullanan PROBİT(NORMAL) Model aşağıdaki gibi formüle edilir: F(z)= P R O B İ T (NORMAL) MODEL Probit modeli şu şekilde tanımlayabiliriz: Herhangi bir i hanesinin ev sahibi olma veya olmama kararının gözlenemeyen bir fayda indeksi I i ’ye bağlı olduğunu varsayalım. 51
I i * I i ifadesi faydanın belli bir eşik değerinden sonra söz konusu olabileceğini gösterir. I i * başlangıç değeri de I i gibi gözlenemez. Ancak, aynı ortalama ve varyanslı normal dağıldığı varsayılarak I i değerleri yukarıdaki regresyon denkleminden tahmin edilir. Tahminciler bulunur. Normal dağılım varsayımıyla I i * ın I i den küçük veya eşit olma olasılığı aşağıdaki standartlaştırılmış normal KDF ile hesaplanabilir: I i = b 1 + b 2 X i I i, bağımsız değişkenlere bağlıdır. Örneğin X i (gelir)değişkeni. Her hane için I i ’nın belli bir değerinden itibaren ev sahibi olma durumu söz konusudur.I i değeri, I i * değerini aştığı zaman hane, ev sahibi olacak aksi durumda olmayacaktır. Y=1 hane ev sahibi Y=0 hane ev sahibi değil. (1) 52
53 I i * değerinin I i değerinden küçük ya da I i ‘ye eşit olması normallik varsayımı altında standartlaştırılmış birikimli dağılım fonksiyonlarından hareketle hesaplanmaktadır. Burada I i gerçekte ölçülmemiş bir endeks olup normal ve sürekli bir tesadüfi değişken olarak adlandırılabilir. I i ‘ler için gözlemler mevcut değildir. Ancak bu endeksin küçük ve büyük değerlerinden bireysel gözlemlerin hangi kategoriye ait oldukları bilinmektedir.
=Standartlaştırılmış Normal KDF P i =Pr(Y=1)=Pr(I i * I i )=F(I i ) =standartlaştırılmış normal değişken P i =Bir ev sahibi olma olasılığı. (2) 54
Probit Model P i =F(I i ) -- ++ 0 1 -- ++ PiPi I i = b 1 + b 2 X i PiPi I i =F -1 (P i ) I i * <=I i verilmişken ev sahibi olma olasılığı P i ordinatta bulunur P i verilmişken, absiste I i bulunur.
I i ’yı bulabilmek için 2 no’lu ifadenin tersi alınmalıdır. I i = F -1 (I i )= F -1 (P i )=b 1 +b 2 X i =Probit model F -1 : normal kümülatif dağılım fonksiyonunun tersi. 56
57
A- Frekanslı Serilerde Probit Modelin Tahmin Aşamaları 58 1.P i = n i /N i hesaplanır. 2.I i = F -1 (P i )= normal eşdeğer sapma bulunur. 3.I i = b 1 + b 2 X i + u i EKK ile tahmin edilir. 4.İstenirse, I i yerine, (I i + 5)=probit değerleri alınarak, EKKY ile (13.19) tahmin edilir. 5.modelinin hata terimi u i farklı varyanslıdır. Bu sebepten dönüşümlü değerler alınarak TEKKY uygulanabilir:
f i = F -1 (P i ) ifadesine eşit standart normal yoğunluk fonksiyonudur. 6.Büyük örnekler için b i 'lerin güven aralıkları ve hipotez testleri uygulanarak, anakütlede durumun geçerliliği araştırılabilir. 7.Belirlilik katsayısı R 2, modelin fonksiyonel biçiminin iyi seçilip seçilmediği konusunda bize fikir vermez. 59
Probit Model Uygulaması 60 PiPi I i =F -1 (P i ) Probitler=Z i =(I i +5) XiXi
Probit Model Uygulaması 61 I i = X i, r 2 = r= s(b i )(0.0028) s= 0.2d= 1.59 t=(7.094) Z i = X i, r 2 = r= s(b i ) (0.0028) s= 0.2d= t= (7.071)
B- En Yüksek Olabilirlik Yöntemiyle Probit Modelin Elde Edilmesi 62 En Yüksek Olabilirlik Yöntemi’nde anakütle ve bu anakütleden çekilen örnek arasındaki benzerlik ilişkisinden yararlanılarak bu örneğin elde edilme olasılığını maksimum yapan parametre değerleri tahmin edilmektedir. En Yüksek Olabilirlik Yöntemi, benzerlik fonksiyonunun maksimizasyonundan oluşmaktadır. Bu yöntemin uygulanabilmesi için hata terimlerinin dağılımının bilinmesi gereklidir. Logit modelin en yüksek olabilirlik yöntemiyle elde edilen örneğin probit model uygulaması şu şekilde gerçekleşmiştir:
63
64
65 Lise (11 yıl)
66
67