Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Bölüm 4: Normallik Varsayımı:Klasik Normal Dogrusal Regresyon Modeli

Benzer bir sunumlar


... konulu sunumlar: "Bölüm 4: Normallik Varsayımı:Klasik Normal Dogrusal Regresyon Modeli"— Sunum transkripti:

1 Bölüm 4: Normallik Varsayımı:Klasik Normal Dogrusal Regresyon Modeli
Eğer amacımız sadece nokta tahmini yapmak olsaydı SEK yeterli sayılabilirdi. Amac sadece β2 (^) yi elde etmek degıl, onu kullanarak birseyler söyleyebilme ya da gerçek β2’ ye ilişkin çıkarsamalar yapmaya da yöneliktir. SEK yöntemi ui’nin olasılık özelliğine ilişkin bir varsayımda bulunmadığı için ÖRF’den ARF için çıkarsamalar yapmada SEK bir işe yaramaz. Şayet ui ler belli bir olasılık dagılıma uydugu varsayarsak bu boşluk dolar 2.1.Normallik Varsayımı Klasik normal doğrusal regresyon modeli her bir ui’nin aşağıdaki değerlerle normal dağılgığını varsayar: Ortalama: E(ui) = 0 Varyans: E(ui) = σ² orv(ui,uj): E(ui,uj) = 0 i ≠ j ui ~ N(0, σ²) burada ~ ‘biçiminde dağılmıştır’ anlamına gelir; N ise ‘normal dağılımı’ temsil eder; parantez içindekiler ortalamayla varyansı göstermektedir.

2 Sampling Distribution Almost Normal regardless of shape of population
Central Limit Theorem As Sample Size Gets Large Enough Sampling Distribution Becomes Almost Normal regardless of shape of population

3 Central Limit Theorem Asymptotic Normality implies that P(Z<z)F(z) as n , or P(Z<z) F(z) The central limit theorem states that the standardized average of any population with mean m and variance s2 is asymptotically ~N(0,1), or

4 Properties of the Normal
If X~N(m,s2), then aX+b ~N(am+b,a2s2) A linear combination of independent, identically distributed (iid) normal random variables will also be normally distributed If Y1,Y2, … Yn are iid and ~N(m,s2), then

5 When the Population is Normal
Population Distribution Central Tendency m m _ = x Variation s s _ Sampling Distributions = x n = 4 s`X = 5 n =16 s`X = 2.5 Sampling with Replacement

6 O halde şöyle yazabiliriz. orv(ui,uj):0 E(ui,uj) = 0 i ≠ j
Normal dağılmış iki değişkenin sıfır ortak varyansı ya da korelasyonu iki değişkenin bağımsız oldukları anlamına gelir. O halde şöyle yazabiliriz. orv(ui,uj): E(ui,uj) = 0 i ≠ j ui ~ NBD(0,σ²) Normallik varsayımının nedenleri Merkezi Limit Teoremi,çok sayıda bağımsız ve aynı biçimde dağılmış rassal değişkenler varsa, bu değişkenlerin sayısı sonsuza doğru arttıkça, bunların toplam dağılımının,birkaç aykırılık dışında,normal dağılıma yaklaştığı gösterilebilir. Merkezi limit teoreminin bir başka biçimi, değişken sayısı çok büyük olmasa ya da bu değişkenler tam bağımsız dağılsalarda toplamlarının yine de normal dağılabileceğini ileri sürer. Normal dağılımın bir özelliğide, normal dağılmış değişkenlerin doğrusal fonksiyonunun da normal dağılmış olmasıdır. Normal dağılım yalnızca iki katsayı içerdiğinden göreli olarak basit bir dağılımdır.

7 Normallik Varsayımı SEK tahmin edicilerin özellikleri
Sapmasızdırlar. En küçük varyanslıdırlar Tutarlıdırlar.Yani örneklem sonsuza doğru büyürken tahmin ediciler gerçek değerlerine doğru yakınsanlar. β1 şu değerlerle normal dağılır: Ortalama : E(β1(^) ) = β1 ∑ Xi2 Var(β1) : σ²B1(^) = ——— σ2 n∑xi2 β2 şu değerlerle normal dağılır: Ortalama : E(β2(^)) = β2 σ2 Var (β2) : σ2= —— n ∑ x12 (n-2)σ2(^) / σ², n-2 serbestlik derecesi X2 (ki-kare) dağılımına uyar. (β1(^),β2(^)), σ2(^)’ den bağımsız olarak dağılırlar. β1(^) ve β2(^) , doğrusal olsun olmasın bütün sapmasız tahmin ediciler içinde en düşük varyanslı olanlarıdır. En küçük kareler tahmin edicileri En iyi sapmasız tahmin edicileridir

8 ui ‘nin 0 ortalama,σ2 varyansla normal dağıldığını varsayarsak, Yi’ nin kendisi de aşağıdaki ortalama ve varyansla normal dağılır : E(Yi) = β1 + β2Xi var(Yi) = σ2 EYO(En Yüksek Olabilirlik) Tahmin yöntemide aynı β’ regresyon katsayılarını verir. σ2 nin EYO tahmin edicisi ∑uı2/n ’ dir. Bu tahmin edici sapmalıdır ama σ2’ nin SEK tahmin edicisi ∑ui2/(n-2),görüldüğü gibi sapmasızdır. Öyleyse n∞ sonsuza doğru büyüdükçe σ2’ nin EYO tahmin edicisi de sapmasız olur.

9 Teorem 4.1. Z1,Z2,......,Zn değişkenleri, Zi ~ N( μ,σ2) dağılımına uyan normal ve bağımsız dağılmış değişkenlerse, Z = ∑kiZi toplamı da, ortalaması ∑kiμi, varyansı ∑ki2σi2 olan Zi ~N ( ∑kiμi, ∑ki2σi2 ) dağılımına göre normal dağılmıştır.Buradaki ki ‘ler hepsi sıfır olmayan sabitler,μ ortalama değerlerdir. Teorem Z1,Z2, ,Zn değişkenleri normal dağılmış ama bağımsız değilse, Z=∑kiZi toplamı da , ortalaması ∑ kiμi , varyansı [ ∑ki2σi2 + 2∑kikjorv(Zi,Zj), i≠j] olan bir normal dağılıma uygun dağılır. Teorem Z1,Z2, ,Zn değişkenleri, Zi ~ N(0,1) standart normal dağılımına uyan normal ve bağımsız dağılmış değişkenlerse, ∑Zi2 = Z12+Z Zn2 toplamıda, sd’si n olan ki-kare dağılımına uyar.Simgelerle, ∑Zi2 ~ Xn2. Burada n serbestlik derecesini (sd) gösterir.

10 The Chi-Square Distribution
Suppose that Zi , i=1,…,n are iid ~ N(0,1), and X=(Zi2), then X has a chi-square distribution with n degrees of freedom (df), that is X~2n If X~2n, then E(X)=n and Var(X)=2n Teorem Z1,Z2, ,Zn değişkenleri, herbirinin sd’si olan ki-kare dağılımlarına uyan bağımsız dağılmış rassal değişkenlerse, bunların toplamı olan ∑Zi = Z1 + Z Zn de, sd’si k = ∑ ki olan bir ki-kare dağılımına uyar.

11 The t distribution If a random variable, T, has a t distribution with n degrees of freedom, then it is denoted as T~tn E(T)=0 (for n>1) and Var(T)=n/(n-2) (for n>2) T is a function of Z~N(0,1) and X~2n as follows:

12 Teorem Zi standart normal değişken [Zi ~ N (0,1) ] iken Z2 de k sd’li ki-kare dağılımına uyuyorsa ve Z2’den bağımsızsa, o zaman, Z Z standart normal değişken t = ———— = ———— = ——————————— ~ tk √ Z2 / √k √ Z √ bağımsız ki-kare değişkeni / sd Teorem Z1 ile Z2 , sd’leri sırasıyla k1 , k2 olan bağımsız dağılmış ki-kare değişkenleriyseler Z1 / k1 F = ———— ~ Fk1,k burada k1= payın sd , k2= paydanın sd. Z2 / k2 Teorem sd’si k olan (student) t değişkeninin karesi, payın sd’si k1=1, paydanın sd’si k2 = k olan bir F dağılımıdır. Yani, F1,k = t2k Normallik varsayımının dayandığı kurumsal temel Merkezi Limit Teoremidir.

13 The F Distribution F is a function of X1~2k1 and X2~2k2 as follows:
If a random variable, F, has an F distribution with (k1,k2) df, then it is denoted as F~Fk1,k2 F is a function of X1~2k1 and X2~2k2 as follows:

14 What Make a Good Estimator?
Unbiasedness Efficiency Mean Square Error (MSE) Asymptotic properties (for large samples): Consistency

15 Properties of the Mean Unbiasedness
Mean of sampling distribution equals population mean Efficiency Sample mean comes closer to population mean than any other unbiased estimator Consistency As sample size increases, variation of sample mean from population mean decreases

16 Unbiasedness of Estimator
Want your estimator to be right, on average We say an estimator, W, of a Population Parameter, q, is unbiased if E(W)=E(q) For our example, that means we want

17 Unbiasedness P(X) Unbiased Biased m X

18 Proof: Sample Mean is Unbiased

19 Efficiency m P(X) X Sampling Distribution of Median
Sampling Distribution of Mean X m

20 Efficiency of Estimator
Want your estimator to be closer to the truth, on average, than any other estimator We say an estimator, W, is efficient if Var(W)< Var(any other estimator) Note, for our example

21 Consistency of Estimator
Asymptotic properties, that is, what happens as the sample size goes to infinity? Want distribution of W to converge to q, i.e. plim(W)=q For our example, that means we want

22 Consistency Larger sample size P(X) B Smaller sample size A X m

23 More on Consistency An unbiased estimator is not necessarily consistent – suppose choose Y1 as estimate of mY, since E(Y1)= mY, then plim(Y1) mY An unbiased estimator, W, is consistent if Var(W)  0 as n   Law of Large Numbers refers to the consistency of sample average as estimator for m, that is, to the fact that:

24 Inferences about the Slope: t Test
t Test for a Population Slope Is a Linear Relationship Between X & Y ? Null and Alternative Hypotheses H0: b1 = 0 (No Linear Relationship) H1: b1 ¹ 0 (Linear Relationship) Test Statistic: Where and df = n - 2

25 Example: Produce Stores
Data for 7 Stores: Regression Model Obtained: Annual Store Square Sales Feet ($000) , ,681 , ,395 , ,653 , ,543 , ,318 , ,563 , ,760 Ù Yi = Xi The slope of this model is Is there a linear relationship between the square footage of a store and its annual sales?

26 Inferences about the Slope: t Test Example
Test Statistic: Decision: Conclusion: H0: b1 = 0 H1: b1 ¹ 0 a = .05 df = = 7 Critical Value(s): From Excel Printout Reject H0 Reject Reject .025 .025 There is evidence of a relationship. t 2.5706

27 Inferences about the Slope: Confidence Interval Example
Confidence Interval Estimate of the Slope b1± tn-2 Excel Printout for Produce Stores At 95% level of Confidence The confidence Interval for the slope is (1.062, 1.911). Does not include 0. Conclusion: There is a significant linear relationship between annual sales and the size of the store.

28 Estimation of Predicted Values
Confidence Interval Estimate for mXY The Mean of Y given a particular Xi Size of interval vary according to distance away from mean, X. Standard error of the estimate t value from table with df=n-2

29 Estimation of Predicted Values
Confidence Interval Estimate for Individual Response Yi at a Particular Xi Addition of this 1 increased width of interval from that for the mean Y

30 Interval Estimates for Different Values of X
Confidence Interval for the mean of Y Confidence Interval for a individual Yi Y Ù Yi = b0 + b1Xi _ X X A Given X

31 Example: Produce Stores
Data for 7 Stores: Annual Store Square Sales Feet ($000) , ,681 , ,395 , ,653 , ,543 , ,318 , ,563 , ,760 Predict the annual sales for a store with 2000 square feet. Regression Model Obtained: Ù Yi = Xi

32 Estimation of Predicted Values: Example
Confidence Interval Estimate for Individual Y Find the 95% confidence interval for the average annual sales for stores of 2,000 square feet Ù Predicted Sales Yi = Xi = ($000) tn-2 = t5 = X = SYX = = ± Confidence interval for mean Y

33 Estimation of Predicted Values: Example
Confidence Interval Estimate for mXY Find the 95% confidence interval for annual sales of one particular stores of 2,000 square feet Ù Predicted Sales Yi = Xi = ($000) tn-2 = t5 = X = SYX = = ± Confidence interval for individual Y

34 Random Samples and Sampling
For a random variable Y, repeated draws from the same population can be labeled as Y1, Y2, , Yn If every combination of n sample points has an equal chance of being selected, this is a random sample A random sample is a set of independent, identically distributed (i.i.d) random variables

35 Estimators and Estimates
Typically, we can’t observe the full population, so we must make inferences base on estimates from a random sample An estimator is just a mathematical formula for estimating a population parameter from sample data An estimate is the actual number the formula produces from the sample data

36 Examples of Estimators
Suppose we want to estimate the population mean Suppose we use the formula for E(Y), but substitute 1/n for f(yi) as the probability weight since each point has an equal chance of being included in the sample, then Can calculate the sample average for our sample:

37 Estimate of Population Variance
We have a good estimate of mY, would like a good estimate of s2Y Can use the sample variance given below – note division by n-1, not n, since mean is estimated too – if know m can use n

38 Estimators as Random Variables
Each of our sample statistics (e.g. the sample mean, sample variance, etc.) is a random variable - Why? Each time we pull a random sample, we’ll get different sample statistics If we pull lots and lots of samples, we’ll get a distribution of sample statistics

39 Correlation: Measuring the Strength of Association
Answer ‘How Strong Is the Linear Relationship Between 2 Variables?’ Coefficient of Correlation Used Population correlation coefficient denoted r (‘Rho’) Values range from -1 to +1 Measures degree of association Is the Square Root of the Coefficient of Determination

40 Test of Coefficient of Correlation
Tests If There Is a Linear Relationship Between 2 Numerical Variables Same Conclusion as Testing Population Slope b1 Hypotheses H0: r = 0 (No Correlation) H1: r ¹ 0 (Correlation)


"Bölüm 4: Normallik Varsayımı:Klasik Normal Dogrusal Regresyon Modeli" indir ppt

Benzer bir sunumlar


Google Reklamları