Bağımlı Kukla Değişkenler

Bağımlı Kukla Değişkenler
Bağımlı değişken özünde iki değer alabiliyorsa yani bir özelliğin varlığı ya da yokluğu söz konusu ise bu durumda bağımlı kukla değişkenler söz konusudur. Bu durumdaki modelleri tahmin etmek için dört yaklaşım vardır: -Doğrusal Olasılık Modeli -Logit Modeli -Probit Modeli -Tobit Modeli

Doğrusal Olasılık Modeli
Yi = b1 + b2Xi +ui Yi= 1 Eğer i. Birey istenen özelliğe sahipse 0 Diğer Durumlarda Xi= Bağımsız değişken Bu modele olasılıklı model denmesinin nedeni, Y’nin X için şartlı beklenen değerinin, Y’nin X için şartlı olasılığına eşit olmasıdır. E(Yi|Xi)=Pr(Yi=1| Xi)

E(Yi |Xi)= b1 + b2Xi E(ui) = 0 Yi değişkeninin olasılık dağılımı: Yi Olasılık 0 1-Pi 1 Pi Toplam 1 E(Yi |Xi) = SYiPi=0.(1-Pi) + 1.(Pi) = Pi = Pi E(Yi |Xi)= b1 + b2Xi 0  E(Yi |Xi)  1

DOM Tahminindeki Sorunlar
ui hata teriminin normal dağılmayışı: Normallik varsayımının sağlanmaması durumunda tahmin ediciler sapmasızlıklarını korurlar. Nokta tahminde normallik varsayımı gözardı edilir. Örnek hacmi sonsuza giderken EKK tahmincileri çoğunlukla normal dağılıma uyarlar DOM ile yapılan istatistiksel çıkarsamalar normallik varsayımı altındaki EKK sürecine uyarlar

u’ların Binom Dağılımlı Olması
EKKY varsayımlarından biri u değerlerinin dağılımının normal olmasıdır. Bu varsayım sayesinde katsayı tahminlerinin güven aralıkları hesaplanıp, test yapılabilmektedir. DOM’de u’lar normal dağılmaz, binom dağılımı gösterir: Y ve 0 değerini aldığında Yi =1 için Yi =0 için u lar normal değildir. İki değerli binom dağılımlıdır. Ancak büyük örneklerde DOM güven aralıkları ve hipotez testleri geçerlidir ve EKKY normal dağılım varsayımının sağlandığı kabul edilmektedir.

ui hata teriminin değişen varyanslı olması:
DOM’de u lar eşit varyanslı değillerdir. Bunun için kesikli bir Y değişkeni varyansından hareketle Y yerine u alınarak Yi ui İhtimal=P(ui) -b1-b2X (1-Pi) 1 1-b1-b2X Pi

ui hata teriminin değişen varyanslı olması:
u’nun varyansı farklıdır. u’nun varyansı Y’nin X için şartlı beklenen değerine bağlıdır ve sonuçta u’nun varyansı X’in değerine bağlı olacak ve eşit olmayacaktır. ui hata teriminin değişen varyanslı olması: Var(ui) = Pi(1-Pi) DOM’nin EKKY ile tahmininde ortaya çıkan farklı varyans problemine aşağıdaki dönüşümlü modeli tahmin ederek çözüm getirmek mümkündür:

DOM’de Farklı Varyansı Önleme
ler bilinmediğinden bunun yerine örnek tahmini değerleri hesaplanarak ifadesinde yerine konur. 0  E(Yi |Xi)  1 varsayımının yerine gelmeyişi DOM’de Y’nin şartlı olasılığını gösteren E(Y|X) nın 0 ila 1 arasında bulunması şarttır. Y; 0 ve 1 değerini almaktadır.Bu şart anakütle için geçerlidir. Anakütlenin tahmincisi için geçerli olmayabilir. Tahmini şartlı olasılıklar 0 ile 1 olmayabilir: 8

0  E(Yi |Xi)  1 0 ile 1 arasında mıdır? DOM”, EKKY ile elde edildikten sonra Bunlardan bir kısmı 0 dan küçük, negatif değerli ise, bunlar için 0 değerini alır. 1’den büyük değerli ise bunlar için nin 1’e eşit olduğu kabul edilir. Dönüştürmeden sonra EKKY tekrar uygulanır ve farklı varyansın kalktığı görülebilir. eşit varyanslıdır. Bu yöntem Tartılı En Küçük Kareler Yöntemi (TEKKY) olarak adlandırılır.

R2 Değerinin Genellikle Küçük Çıkarak, İlişkinin Uyumunu Gösteren Bir Ölçü Olamaması
Belli bir X’e karşılık gelen Y, ya 0 ya da 1’dir. Öyleyse bütün Y değerleri, ya X ekseni ya da 1’in hizasındaki doğru üzerinde yer alır. Genellikle klasik En Küçük Kareler yöntemi ile hesaplanan R2 , böyle modellerde 1’den çok küçük çıkma eğilimindedir. Çoğu uygulamada R2 , 0.2 ile 0.6 arasında yer alır. Tahmin edilen Yi , ya 0’a ya da 1’e yakın çıkacaktır. Bu nedenle John Aldrich ile Forrest Nelson ‘Nitel bağımlı değişkeni olan modellerde, belirlilik katsayısının bir özetleme istatistiği olarak kullanılmasından kaçınılması gerektiğini ileri sürmektedir (Gujarati, 1995:546).

Di = b1 + b2Mi +b3 Si +ui Di= 1 Eğer i. Kadının bir işi varsa ya da iş arıyorsa 0 Diğer Durumlarda Mi= 1 Eğer i. Kadın evliyse ve diğer durumlarda 0 Si = i.kadının yıl olarak aldığı eğitim

Kadının İşgücüne Katılımı Modeli:
Di Mi Si 1 16 10 14 9 12 13 7 11 8 15 Kadının İşgücüne Katılımı Modeli: Di= 1 i.Kadının bir işi varsa ya da iş arıyorsa 0 Diğer Durumlarda Mi= 1 i. Kadın evliyse 0 diğer durumlarda Si = i.kadının yıl olarak aldığı eğitim

Kadının İşgücüne Katılımı Modeli
Di = b1 + b2Mi +b3 Si +ui Mi= 1 Kadın evliyse ;0 diğer durumlarda ; Si = i.kadının yıl olarak aldığı eğitim Dependent Variable: DI Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. C MI SI R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

Daha sonra modelde değişen varyans olup olmadığı araştırılmak istenmiş ve White testi ile modelde değişen varyans problemi test edilmiştir. White Heteroskedasticity Test: F-statistic Probability Obs*R-squared Probability Prob değeri >0.05 olduğu için H0 hipotezi olan Değişen varyans yoktur, eşit varyans vardır hipotezi red edilemez. Test sonucu değişen varyans problemi ile karşılaşılmadığından herhangi bir işlem yapılmaz. Model olduğu gibi kabul edilir.

UYGULAMA:Cep telefonunun kullanılıp kullanılmamasını ifade eden bağımlı kukla değişken 50 kişiye yapılan anket sonuncunda yaş ve aylık ortalama gelir ile açıklanmıştır.(Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse) Kişi Y X(Gelir) Z(Yaş) 1 250 23 26 185 21 2 350 27 3 150 28 500 4 600 22 29 790 5 200 30 6 20 31 675 7 390 32 490 8 18 33 9 900 25 34 760 10 35 550 11 255 36 400 24 12 300 37 13 640 38 220 14 39 175 15 40 840 16 19 41 17 800 42 875 43 44 485 45 46 47 470 48 750 49 225 50 130

Y=1, cep telefonuna sahip ise, Y=0 cep telefonuna sahip değilse; X(Gelir); Z(Yaş)
Dependent Variable: Y Method: Least Squares Included observations: 50 Variable Coefficient Std. Error t-Statistic Prob. C X Z R-squared Mean dependent var 0.700 Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic) Önce Modelde değişen varyansın olup olmadığı White testi ile araştırılır.

4. Y= b1 + b2 X + b3 Z modelinin her iki tarafı da değerine bölünür.
White Heteroskedasticity Test: F-statistic Probability Obs*R-squared Probability Prob değeri <0.05 olduğu için H0 hipotezi olan Değişen varyans yoktur, eşit varyans vardır hipotezi red edilir. Değişen varyans problemi ile karşılaşıldığından önce hesaplanır. ‘nin 0’dan küçük değerleri için 0, 1’den büyük değerleri için 1 değeri konur. Ardından hesaplanır. 4. Y= b1 + b2 X + b3 Z modelinin her iki tarafı da değerine bölünür. 5. Model tahmin edilir.

Kişi 1 0.7308 16 0.5338 31 0.8536 46 0.4970 2 0.6077 17 0.5705 32 0.7627 47 0.4944 3 0.6817 18 0.8658 33 0.6815 48 1.0012 4 0.8167 19 0.3861 34 0.8093 49 0.5586 5 0.6201 20 0.5953 35 1.1367 50 0.6718 6 0.4233 21 0.5092 36 0.8907 7 1.1442 22 37 0.5340 8 0.2756 23 0.7922 38 0.5438 9 1.2226 24 0.8044 39 0.6939 10 0.2510 25 0.7185 40 0.8486 11 0.3026 26 0.5266 41 12 27 42 0.7062 13 1.0948 28 43 14 1.1982 29 0.9963 44 0.8463 15 0.6693 30 0.7676 45

Dependent Variable: Method: Least Squares Sample: 1 50 Included observations: 44 Excluded observations: 6 Variable Coefficient Std. Error t-Statistic Prob. R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

DOM’e Alternatif Model Arama
Örnek büyüklüğü arttıkça hata terimi normal dağılıma yaklaşsa ve değişen varyans durumunda, ağırlıklı en küçük kareler yöntemi kullanılsa, modelin her iki tarafı ye bölünüp model değişimi yapılsa bile normallik ve değişen varyans varsayımlarıyla ilgili sakıncaları giderebilmek için logit ve probit modeller geliştirilmiştir. Bu modeller, hem şartını sağlayabilmekte ve hem de Pi ile Xi arasındaki ilişkiyi doğrusallıktan kurtarabilmektedirler. Yani, logit ve probit modelleri, farklı bağımsız X değişkeninin olasılığının 0 ile 1 arasında kalmasını sağladıkları gibi; ayrıca, değişik bağımsız değişkene ait belli bir artış karşısında, bu bağımsız değişkenin kullanılma olasılığının değişik miktarda artmasını sağlamaktadırlar.

Günümüzde nitel değişkenlerden oluşan kukla değişken verileri analiz etmek için çeşitli teknikler kullanılmaktadır. Bunlardan log-linear modeller iki veya daha fazla kukla değişkenin koşullu ilişkisini analiz etmek için geliştirilmiştir. Bununla birlikte, log-linear modeller sayesinde, değişkenlerin oluşturduğu bileşik dağılımı, iki veya daha fazla değişkenin birbirine bağımlı olup olmadığını ve iki veya daha fazla değişken arasındaki ilişkiyi neden-sonuç ilişkisine dayandırmaksızın test etmek mümkündür.

DOM ile ilgili sayılan sorunların hepsi bir şekilde aşılabilir Ancak, DOM, Pi=E(Y=1|X) olasılığının X’le doğrusal olarak arttığını varsayar. Yani X’deki marjinal veya küçük bir artış hep sabittir. Gerçek hayatta ise bu beklenen bir durum değildir. DOM ile ilgili sorunlar şu iki özellik sayesinde aşılabilir: 1.Xi arttıkça Pi=E(Y=1|X)’de artar ancak 0 ile 1 aralığının dışına çıkmaması gerekmektedir. 2.Pi ile Xi arasındaki ilişkinin doğrusal olmaması gerekmektedir.

Yukarıdaki iki özelliği taşıyan modelin şekli aşağıda verilmiştir: P 1 KDF X - + Yukarıdaki eğri kümülatif dağılım fonksiyonuna benzemektedir. Bu fonksiyon kukla bağımlı değişkenli regresyon modellerinde kullanılabilir.

Logit Model Logit modeller, genelleştirilmiş doğrusal modelin belirli koşullar altında oluşturulmuş özel durumlarıdır. Bu durumda, eğer bağımsız değişkenlerin bazısı sürekli veya uygun (ilgili) sınıflar içine ayrıştırılamazsa, o zaman log-linear analiz yerine logistik regresyon kullanılmalıdır. Aynı zamanda eğer değişkenlerin bazısı bağımlı olarak ele alınırsa, o zaman logit model uygundur. Böyle bir durumda 0’la 1 arasında kalma koşulunu sağlayabilmek için logit modelin uygulanması önerilmektedir. Logit model, bağımlı değişkenin tahmini değerlerini olasılık olarak hesaplayarak olasılık kurallarına uygun sınıflama yapma imkanı veren, tablolaştırılmış ya da ham veri setlerini analiz eden bir istatistiksel yöntemdir.

Logit Model Logistik Dağılım Fonksiyonu
kümülatif lojistik dağılım fonksiyonudur. Bahis yada olabilirlik oranı Bu orana ev sahibi olma lehine fark oranı denir. Lojistik modelin her iki tarafının doğal log. alındığında Li fark oranı logaritması olup hem X, hem parametrelere göre doğrusaldır.Z değişkeni dan a değişirken, P 0 ile 1 arasında değişir.

Logit Model Logit modelde olasılık iken. DOM’de şeklindedir.

Logit Model Zi, - ile + arasında değerler alırken Pi’nin aldığı değerler ise 0 ile 1 arasında değişmektedir. Zi ile Pi arasındaki ilişki doğrusal değildir.

Logit Modelin Özellikleri
1. Pi, 0’dan 1’e kadar değer aldığında, Logitte -ile + arasında değer alır. Pi=1 = + Pi=0 = - 2. Logit, X’e göre doğrusal iken olasılıklara göre değildir. 3. Logit modelin b2 katsayısı şu şekilde yorumlanır: Bağımsız değişkendeki bir birimlik değişme karşısında logitteki değişmeyi gösterir. 4. Logit model tahmin edildikten sonra, X bağımsız değişkeninin belirli bir değeri için logitin gerçekleşme olasılığı hesaplanabilir.

Logit Model Bir olayın gerçekleşme olasılığının birden büyük olması durumundan kaçınmak için olasılığın Z’nin S şeklinde bir fonksiyonu olduğunu varsaymaktır. Z açıklayıcı değişkenlerin fonksiyonu olarak ifade edilebilir. 2

Logit Model Birçok fonksiyon S şeklinde fonksiyon özelliklere sahiptir ve yukarıda gösterildiği gibi bunlardan biri de lojistik fonksiyondur. Z + sonsuza gideren, e-Z sıfıra gitmekte, ve p 1’e gitmektedir. (fakat 1’i geçmemektedir.). Z – sonsuza giderken, e-Z de sonsuza gitmekte ve p de sıfıra gitmektedir (fakat sıfırın altına inmemektedir.). 3

Logit Modelin EKKY İle Tahmini
1.Adım: ihtimalleri hesaplanır. 2.Adım: fark oranı logaritmaları hesaplanır. 3.Adım: orijinal lojistik modeli tahminlenir. Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir.

Logit Modelin EKKY İle Tahmini
Farklı varyans durumu söz konusu ise; orijinal lojistik modelin her iki tarafı da ile çarpılarak dönüşümlü lojistik model elde edilir. Dönüşümlü veya Tartılı EKK Lojistik Modeli

Logistik Model Uygulaması
300 aileden oluşan küçük bir kasabada ailelerin, yıllık gelirleri (Xi) ve ev sahibi olanların sayısı (ni) aşağıdaki tabloda gösterilmiştir. X Milyon TL) Aile Sayısı= Ni Ev Sahibi Olan Aile Sayısı=ni Nispi Frekanslar Pi=ni/Ni 12 20 5 0.25 16 25 6 0.24 35 10 0.28 26 45 15 0.33 30 50 0.50 40 34 18 0.53 0.66 60 0.61 70 0.75 80 0.67 Ni = 300 ni = 140

Xi 1 12 16 20 26 30 40 50 60 70 80 Ni 2 20 25 35 45 50 34 30 26 15 ni 3 5 6 10 15 25 18 20 16 Pi 4=3/2 0.25 0.24 0.28 0.33 0.50 0.53 0.66 0.61 0.75 0.67 1-Pi 5=1-4 0.75 0.76 0.72 0.67 0.50 0.47 0.34 0.39 0.25 0.33 Pi /1- Pi 6=4/5 0.33 0.31 0.39 0.49 1.00 1.13 1.94 1.56 3.00 2.03 Li 7=ln(6) 0.0000 0.1222 0.6626 0.4446 1.0986 0.7080

Dependent Variable: L Method: Least Squares Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C X R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

v=N.P.(1-P) 8=2.4.5 3.75 4.56 7.05 9.95 12.50 8.47 6.73 6.18 3.31 vi 9= 8 1.9365 2.1354 2.6552 3.1543 3.5355 2.9103 2.5942 2.4859 1.8193 L* 10=7.9 0.0000 0.3556 1.7189 1.1052 2.1274 1.2880 X* 11=1.9

Li*= vi Xi*, s= s(bi): (0.2315) ( ) , R2= 0.80 t= ( ) (6.0424) , d= 1.649, F= 36.95 Gelir bir birim arttığında, ev sahibi olma lehine fark oranının logaritması artmaktadır. Bu fark oranına göre belli bir gelir seviyesinde ev sahibi olma olasılığı hesaplanabilir: X=40 iken değerleri yukarıdaki denklemde yerine konduğunda L*= bulunur. olabilirlik oranı

40 birim gelirli bir ailenin ev sahibi olma olasılığı %47.43’dür.
Lojistik modelden, belli bir gelir seviyesinde gelirdeki bir birimlik artışın ev sahibi olma olasılığını ne ölçüde arttıracağı tahmin edilebilir: formülünden yararlanılır. X=40 iken gelir 1 birim arttığında ev sahibi olma olasılığı [ ( )0.4743]= (%0.8)

Probit Model Bağımlı kukla değişkenli modellerden kümülatif lojistik fonksiyonundan farklı olarak, normal kümülatif dağılım fonksiyonunu kullanan PROBİT(NORMAL) vardır. P R O B İ T (NORMAL) MODEL F(z)= Probit modeli şu şekilde tanımlayabiliriz: Herhangi bir i hanesinin ev sahibi olma veya olmama kararının gözlenemeyen bir fayda indeksi Ii’ye bağlı olduğunu varsayalım.

Ii, bağımsız değişkenlere bağlıdır. Örneğin Xi (gelir)değişkeni.
Y=1 hane ev sahibi Y=0 hane ev sahibi değil. (1) Ii= b1 + b2 Xi Her hane için Ii’nın belli bir değerinden itibaren ev sahibi olma durumu söz konusudur.Ii değeri, Ii* değerini aştığı zaman hane, ev sahibi olacak aksi durumda olmayacaktır. Ii*  Ii  ifadesi faydanın belli bir eşik değerinden sonra söz konusu olabileceğini gösterir. Ii* başlangıç değeri de Ii gibi gözlenemez. Ancak, aynı ortalama ve varyanslı normal dağıldığı varsayılarak Ii değerleri yukarıdaki regresyon denkleminden tahmin edilir. Tahminciler bulunur. Normal dağılım varsayımıyla Ii* ın Ii den küçük veya eşit olma olasılığı aşağıdaki standartlaştırılmış normal KDF ile hesaplanabilir:

Pi=Pr(Y=1)=Pr(Ii* Ii)=F(Ii)
(2) =Standartlaştırılmış Normal KDF =standartlaştırılmış normal değişken Pi=Bir ev sahibi olma olasılığı.

Probit Model Pi verilmişken, absiste Ii bulunur.
Pi=F(Ii) 1 Pi Ii* <=Ii verilmişken ev sahibi olma olasılığı Pi ordinatta bulunur Ii= b1 + b2 Xi - + Pi=F(Ii) 1 Pi Pi verilmişken, absiste Ii bulunur. - Ii=F-1(Pi ) +

Ii = F-1(Ii)= F-1 (Pi)=b1+b2Xi
Ii’yı bulabilmek için 2 no’lu ifadenin tersi alınmalıdır. Ii = F-1(Ii)= F-1 (Pi)=b1+b2Xi =Probit model F-1: normal kümülatif dağılım fonksiyonunun tersi.

Probit Modelin Tahmin Aşamaları
Pi= ni/Ni hesaplanır. Ii = F-1 (Pi)= normal eşdeğer sapma bulunur. Ii = b1 + b2 Xi + ui EKK ile tahmin edilir. İstenirse, Ii yerine, (Ii + 5)=probit değerleri alınarak, EKKY ile (13.19) tahmin edilir. modelinin hata terimi ui farklı varyanslıdır. Bu sebepten dönüşümlü değerler alınarak TEKKY uygulanabilir:=

fi= F-1 (Pi) ifadesine eşit standart normal yoğunluk fonksiyonudur.
Büyük örnekler için bi'lerin güven aralıkları ve hipotez testleri uygulanarak, anakütlede durumun geçerliliği araştırılabilir. Belirlilik katsayısı R2, modelin fonksiyonel biçiminin iyi seçilip seçilmediği konusunda bize fikir vermez.

Probit Model Uygulaması
Pi 0.25 0.24 0.28 0.33 0.50 0.53 0.66 0.61 0.75 0.67 Ii=F-1(Pi) 0.0000 0.0752 0.4124 0.2793 0.6745 0.4399 Probitler=Zi=(Ii+5) 4.3255 4.2937 4.4172 4.5601 5.0000 5.0752 5.4124 5.2793 5.6745 5.4399 Xi 12 16 20 26 30 40 50 60 70 80

Probit Model Uygulaması
Ii= Xi , r2= r= s(bi) (0.0028) s= 0.2 d= 1.59 t= (7.094) Zi= Xi , r2= r= s(bi) (0.0028) s= 0.2 d= t= (7.071)

Bağımlı Kukla Değişkenler

Benzer bir sunumlar

... konulu sunumlar: "Bağımlı Kukla Değişkenler"— Sunum transkripti:

Benzer bir sunumlar

Proje hakkında

Geri bildirim

Giriş

Sosyal ağ üzerinden giriş yapmak:

Bağımlı Kukla Değişkenler

Benzer bir sunumlar

... konulu sunumlar: "Bağımlı Kukla Değişkenler"— Sunum transkripti:

Benzer bir sunumlar

Proje hakkında

Geri bildirim