Bölüm 4: Normallik Varsayımı:Klasik Normal Dogrusal Regresyon Modeli

Slides:



Advertisements
Benzer bir sunumlar
İstatistik Tahmin ve Güven aralıkları
Advertisements

Chapter Seventeen 11. HAFTA.
PORTFÖY TEORİSİ. İSTATİSTİKSEL TEMEL Olasılık dağılımı –Getirinin beklenen değeri –Getirinin varyansı –Standart sapma –Kovaryans –Korelasyon.
Chapter 11 – 1 7. Bölüm Biz nekadar Kesiniz? Örnekleme ve Normal Dağılım.
ÖRNEKLEME TEKNİKLERİ Neuman, 2000: CHP.8.
Atama ve eşleme (eşleştirme) problemleri (Matching and Assignment problems)
VARYANS STANDART SAPMA
Hareket halindeki insanlara ulaşın.Mobil Arama Ağı Reklamları Reach customers with Mobile Search Network.
Mehmet Vedat PAZARLIOĞLU
GÖRÜNÜRDE İLİŞKİSİZ REGRESYON MODELLERİ
THY Uygulaması Araştırması
NOUN CLAUSES (İSİM CÜMLECİKLERİ).
DEVRE TEOREMLERİ.
Kampanyanızı optimize edin. Görüntülü Reklam Kampanyası Optimize Edici'yi Kullanma Display Ads Campaign Optimizer. Let Google technology manage your diplay.
Tüketim Gelir
GAUSS-MARKOV TEOREMİ İLE b1 VE b2’nin SAPMASIZLIĞI
Key Terms from the Chapters. Chapter -1 Statistics, Data, and Statistical Thinking Fundemantal Elements of Statistics Statistics: EN: Statistics is the.
BM-305 Mikrodenetleyiciler Güz 2015 (6. Sunu) (Yrd. Doç. Dr. Deniz Dal)
Database for APED Büşra Bilgili | Emirhan Aydoğan | Meryem Şentürk | M. Arda Aydın COMPE 341.
AVL Trees / Slide 1 Silme * Anahtar hedefi silmek için, x yaprağında buluruz ve sonra sileriz. * Dikkat edilmesi gereken iki durum vardır. (1) Hedef bazi.
Copyright © 2013 Pearson Education, Inc.. All rights reserved.
21/02/2016 A Place In My Heart Nana Mouskouri « Istanbul « (A Different Adaptation)
"Askeri bir helikopter firtina da kaybolur, rotasini sasirir. Hava duzelince nerde olduklarini tayin edemezler. Derken uzakta cok yuksek bi bina gorurler.Yuzbasi.
Copyright © 2013 Pearson Education, Inc.. All rights reserved.
Doğrusal Programlama Linear Programming
İSTATİSTİK II Hipotez Testleri 3.
1 İ STATİSTİK II Tahminler ve Güven Aralıkları - 1.
2.1 Some Basic Probability Concepts Chapter 2 September 2, 2005.
Searching Thy Lover, To Be One Looking at the sky.. Behind every cloud and over the wings of the birds.. I always dreamt of you. You were looking for.
Practice your writing skills
Students social life and join the social clubs. BARIŞ KILIÇ - EGE DÖVENCİ IŞIK ÜNİVERSİTESİ
Sieve Analysis Concrete Mix Design Technician School.
Doğrusal programlama:İkililik teorisi (Duality theory)
İSTATİSTİK II Hipotez Testleri 1.
Bölüm 3: Doğrusal Gerileme (Regresyon)
İSTATİSTİK II Hipotez Testleri 3.
İSTATİSTİK II Hipotez Testleri 3.
İKİ DEĞİŞKENLİ BASİT DOĞRUSAL REGRESYON MODELİ
Chapter 1: Introduction to Statistics
İSTATİSTİK-II Korelasyon ve Regresyon.
İSTATİSTİK II Hipotez Testleri 1.
Dinamik Yapay Sinir Ağı Modelleri
İSTATİSTİK II Varyans Analizi.
CHAPTER 1 uzm. Psk. Özlem ataoğlu
İSTATİSTİK II Hipotez Testleri - 2.
Chapter 1.
The Simple Linear Regression Model
BİLİMSEL ÇALIŞMA BASAMAKLARI SCIENTIFIC WORKING STEPS MHD BASHAR ALREFAEI Y
LEFM and EPFM LEFM In LEFM, the crack tip stress and displacement field can be uniquely characterized by K, the stress intensity factor. It is neither.
İSTATİSTİK II Tahminler ve Güven Aralıkları - 2.
Would you like a different color?
Chapter 9: Box-Jenkins (ARIMA) Methodology
CONDITIONALS TYPE
Döngüler ve Shift Register
NİŞANTAŞI ÜNİVERSİTESİ
İSTATİSTİK II Hipotez Testleri 1.
İSTATİSTİK II Varyans Analizi.
Relations between angles and sides.. Examples and meaning Larger angles longer side If two angles in a tringle have unequal measures then the sides opposite.
İSTATİSTİK II Varyans Analizi.
“Differentiation for making a positive Difference!!!!”
İSTATİSTİK II Hipotez Testleri 3.
İSTATİSTİK II Hipotez Testleri 3.
Chapter 5 – Balancing of accounts
Imagine that you are a teacher and you are taking your 20 students to England for the summer school.
CONDITIONALS TYPE
Farklı Varyans Var(ui|Xi) = Var(ui) = E(ui2) = s2  Eşit Varyans Y X.
Examples: In the Figure, the three points and coordinates are given that is obtained with CAD program. If these three points are represented by the curve.
İSTATİSTİK II Örnekleme Dağılışları & Tahminleyicilerin Özellikleri.
İSTATİSTİK II Tahminler ve Güven Aralıkları - 1.
Sunum transkripti:

Bölüm 4: Normallik Varsayımı:Klasik Normal Dogrusal Regresyon Modeli Eğer amacımız sadece nokta tahmini yapmak olsaydı SEK yeterli sayılabilirdi. Amac sadece β2 (^) yi elde etmek degıl, onu kullanarak birseyler söyleyebilme ya da gerçek β2’ ye ilişkin çıkarsamalar yapmaya da yöneliktir. SEK yöntemi ui’nin olasılık özelliğine ilişkin bir varsayımda bulunmadığı için ÖRF’den ARF için çıkarsamalar yapmada SEK bir işe yaramaz. Şayet ui ler belli bir olasılık dagılıma uydugu varsayarsak bu boşluk dolar 2.1.Normallik Varsayımı Klasik normal doğrusal regresyon modeli her bir ui’nin aşağıdaki değerlerle normal dağılgığını varsayar: Ortalama: E(ui) = 0 Varyans: E(ui) = σ² orv(ui,uj): E(ui,uj) = 0 i ≠ j ui ~ N(0, σ²) burada ~ ‘biçiminde dağılmıştır’ anlamına gelir; N ise ‘normal dağılımı’ temsil eder; parantez içindekiler ortalamayla varyansı göstermektedir.

Sampling Distribution Almost Normal regardless of shape of population Central Limit Theorem As Sample Size Gets Large Enough Sampling Distribution Becomes Almost Normal regardless of shape of population

Central Limit Theorem Asymptotic Normality implies that P(Z<z)F(z) as n , or P(Z<z) F(z) The central limit theorem states that the standardized average of any population with mean m and variance s2 is asymptotically ~N(0,1), or

Properties of the Normal If X~N(m,s2), then aX+b ~N(am+b,a2s2) A linear combination of independent, identically distributed (iid) normal random variables will also be normally distributed If Y1,Y2, … Yn are iid and ~N(m,s2), then

When the Population is Normal Population Distribution Central Tendency m m _ = x Variation s s _ Sampling Distributions = x n = 4 s`X = 5 n =16 s`X = 2.5 Sampling with Replacement

O halde şöyle yazabiliriz. orv(ui,uj):0 E(ui,uj) = 0 i ≠ j Normal dağılmış iki değişkenin sıfır ortak varyansı ya da korelasyonu iki değişkenin bağımsız oldukları anlamına gelir. O halde şöyle yazabiliriz. orv(ui,uj):0 E(ui,uj) = 0 i ≠ j ui ~ NBD(0,σ²) Normallik varsayımının nedenleri Merkezi Limit Teoremi,çok sayıda bağımsız ve aynı biçimde dağılmış rassal değişkenler varsa, bu değişkenlerin sayısı sonsuza doğru arttıkça, bunların toplam dağılımının,birkaç aykırılık dışında,normal dağılıma yaklaştığı gösterilebilir. Merkezi limit teoreminin bir başka biçimi, değişken sayısı çok büyük olmasa ya da bu değişkenler tam bağımsız dağılsalarda toplamlarının yine de normal dağılabileceğini ileri sürer. Normal dağılımın bir özelliğide, normal dağılmış değişkenlerin doğrusal fonksiyonunun da normal dağılmış olmasıdır. Normal dağılım yalnızca iki katsayı içerdiğinden göreli olarak basit bir dağılımdır.

Normallik Varsayımı SEK tahmin edicilerin özellikleri Sapmasızdırlar. En küçük varyanslıdırlar Tutarlıdırlar.Yani örneklem sonsuza doğru büyürken tahmin ediciler gerçek değerlerine doğru yakınsanlar. β1 şu değerlerle normal dağılır: Ortalama : E(β1(^) ) = β1 ∑ Xi2 Var(β1) : σ²B1(^) = ——— σ2 n∑xi2 β2 şu değerlerle normal dağılır: Ortalama : E(β2(^)) = β2 σ2 Var (β2) : σ2= —— n ∑ x12 (n-2)σ2(^) / σ², n-2 serbestlik derecesi X2 (ki-kare) dağılımına uyar. (β1(^),β2(^)), σ2(^)’ den bağımsız olarak dağılırlar. β1(^) ve β2(^) , doğrusal olsun olmasın bütün sapmasız tahmin ediciler içinde en düşük varyanslı olanlarıdır. En küçük kareler tahmin edicileri En iyi sapmasız tahmin edicileridir

ui ‘nin 0 ortalama,σ2 varyansla normal dağıldığını varsayarsak, Yi’ nin kendisi de aşağıdaki ortalama ve varyansla normal dağılır : E(Yi) = β1 + β2Xi var(Yi) = σ2 EYO(En Yüksek Olabilirlik) Tahmin yöntemide aynı β’ regresyon katsayılarını verir. σ2 nin EYO tahmin edicisi ∑uı2/n ’ dir. Bu tahmin edici sapmalıdır ama σ2’ nin SEK tahmin edicisi ∑ui2/(n-2),görüldüğü gibi sapmasızdır. Öyleyse n∞ sonsuza doğru büyüdükçe σ2’ nin EYO tahmin edicisi de sapmasız olur.

Teorem 4.1. Z1,Z2,......,Zn değişkenleri, Zi ~ N( μ,σ2) dağılımına uyan normal ve bağımsız dağılmış değişkenlerse, Z = ∑kiZi toplamı da, ortalaması ∑kiμi, varyansı ∑ki2σi2 olan Zi ~N ( ∑kiμi, ∑ki2σi2 ) dağılımına göre normal dağılmıştır.Buradaki ki ‘ler hepsi sıfır olmayan sabitler,μ ortalama değerlerdir. Teorem 4.2. Z1,Z2,.......,Zn değişkenleri normal dağılmış ama bağımsız değilse, Z=∑kiZi toplamı da , ortalaması ∑ kiμi , varyansı [ ∑ki2σi2 + 2∑kikjorv(Zi,Zj), i≠j] olan bir normal dağılıma uygun dağılır. Teorem 4.3. Z1,Z2,........,Zn değişkenleri, Zi ~ N(0,1) standart normal dağılımına uyan normal ve bağımsız dağılmış değişkenlerse, ∑Zi2 = Z12+Z22 +........ +Zn2 toplamıda, sd’si n olan ki-kare dağılımına uyar.Simgelerle, ∑Zi2 ~ Xn2. Burada n serbestlik derecesini (sd) gösterir.

The Chi-Square Distribution Suppose that Zi , i=1,…,n are iid ~ N(0,1), and X=(Zi2), then X has a chi-square distribution with n degrees of freedom (df), that is X~2n If X~2n, then E(X)=n and Var(X)=2n Teorem 4.4. Z1,Z2,.........,Zn değişkenleri, herbirinin sd’si olan ki-kare dağılımlarına uyan bağımsız dağılmış rassal değişkenlerse, bunların toplamı olan ∑Zi = Z1 + Z2 + .....+ Zn de, sd’si k = ∑ ki olan bir ki-kare dağılımına uyar.

The t distribution If a random variable, T, has a t distribution with n degrees of freedom, then it is denoted as T~tn E(T)=0 (for n>1) and Var(T)=n/(n-2) (for n>2) T is a function of Z~N(0,1) and X~2n as follows:

Teorem 4.5 Zi standart normal değişken [Zi ~ N (0,1) ] iken Z2 de k sd’li ki-kare dağılımına uyuyorsa ve Z2’den bağımsızsa, o zaman, Z2 Z1 standart normal değişken t = ———— = ———— = ———————————----- ~ tk √ Z2 / √k √ Z2 √ bağımsız ki-kare değişkeni / sd Teorem 4.6 Z1 ile Z2 , sd’leri sırasıyla k1 , k2 olan bağımsız dağılmış ki-kare değişkenleriyseler Z1 / k1 F = ———— ~ Fk1,k2 burada k1= payın sd , k2= paydanın sd. Z2 / k2 Teorem 4.7 sd’si k olan (student) t değişkeninin karesi, payın sd’si k1=1, paydanın sd’si k2 = k olan bir F dağılımıdır. Yani, F1,k = t2k Normallik varsayımının dayandığı kurumsal temel Merkezi Limit Teoremidir.

The F Distribution F is a function of X1~2k1 and X2~2k2 as follows: If a random variable, F, has an F distribution with (k1,k2) df, then it is denoted as F~Fk1,k2 F is a function of X1~2k1 and X2~2k2 as follows:

What Make a Good Estimator? Unbiasedness Efficiency Mean Square Error (MSE) Asymptotic properties (for large samples): Consistency

Properties of the Mean Unbiasedness Mean of sampling distribution equals population mean Efficiency Sample mean comes closer to population mean than any other unbiased estimator Consistency As sample size increases, variation of sample mean from population mean decreases

Unbiasedness of Estimator Want your estimator to be right, on average We say an estimator, W, of a Population Parameter, q, is unbiased if E(W)=E(q) For our example, that means we want

Unbiasedness P(X) Unbiased Biased m X

Proof: Sample Mean is Unbiased

Efficiency m P(X) X Sampling Distribution of Median Sampling Distribution of Mean X m

Efficiency of Estimator Want your estimator to be closer to the truth, on average, than any other estimator We say an estimator, W, is efficient if Var(W)< Var(any other estimator) Note, for our example

Consistency of Estimator Asymptotic properties, that is, what happens as the sample size goes to infinity? Want distribution of W to converge to q, i.e. plim(W)=q For our example, that means we want

Consistency Larger sample size P(X) B Smaller sample size A X m

More on Consistency An unbiased estimator is not necessarily consistent – suppose choose Y1 as estimate of mY, since E(Y1)= mY, then plim(Y1) mY An unbiased estimator, W, is consistent if Var(W)  0 as n   Law of Large Numbers refers to the consistency of sample average as estimator for m, that is, to the fact that:

Inferences about the Slope: t Test t Test for a Population Slope Is a Linear Relationship Between X & Y ? Null and Alternative Hypotheses H0: b1 = 0 (No Linear Relationship) H1: b1 ¹ 0 (Linear Relationship) Test Statistic: Where and df = n - 2

Example: Produce Stores Data for 7 Stores: Regression Model Obtained: Annual Store Square Sales Feet ($000) 1 1,726 3,681 2 1,542 3,395 3 2,816 6,653 4 5,555 9,543 5 1,292 3,318 6 2,208 5,563 7 1,313 3,760 Ù Yi = 1636.415 +1.487Xi The slope of this model is 1.487. Is there a linear relationship between the square footage of a store and its annual sales?

Inferences about the Slope: t Test Example Test Statistic: Decision: Conclusion: H0: b1 = 0 H1: b1 ¹ 0 a = .05 df = 7 - 2 = 7 Critical Value(s): From Excel Printout Reject H0 Reject Reject .025 .025 There is evidence of a relationship. t -2.5706 2.5706

Inferences about the Slope: Confidence Interval Example Confidence Interval Estimate of the Slope b1± tn-2 Excel Printout for Produce Stores At 95% level of Confidence The confidence Interval for the slope is (1.062, 1.911). Does not include 0. Conclusion: There is a significant linear relationship between annual sales and the size of the store.

Estimation of Predicted Values Confidence Interval Estimate for mXY The Mean of Y given a particular Xi Size of interval vary according to distance away from mean, X. Standard error of the estimate t value from table with df=n-2

Estimation of Predicted Values Confidence Interval Estimate for Individual Response Yi at a Particular Xi Addition of this 1 increased width of interval from that for the mean Y

Interval Estimates for Different Values of X Confidence Interval for the mean of Y Confidence Interval for a individual Yi Y Ù Yi = b0 + b1Xi _ X X A Given X

Example: Produce Stores Data for 7 Stores: Annual Store Square Sales Feet ($000) 1 1,726 3,681 2 1,542 3,395 3 2,816 6,653 4 5,555 9,543 5 1,292 3,318 6 2,208 5,563 7 1,313 3,760 Predict the annual sales for a store with 2000 square feet. Regression Model Obtained: Ù Yi = 1636.415 +1.487Xi

Estimation of Predicted Values: Example Confidence Interval Estimate for Individual Y Find the 95% confidence interval for the average annual sales for stores of 2,000 square feet Ù Predicted Sales Yi = 1636.415 +1.487Xi = 4610.45 ($000) tn-2 = t5 = 2.5706 X = 2350.29 SYX = 611.75 = 4610.45 ± 980.97 Confidence interval for mean Y

Estimation of Predicted Values: Example Confidence Interval Estimate for mXY Find the 95% confidence interval for annual sales of one particular stores of 2,000 square feet Ù Predicted Sales Yi = 1636.415 +1.487Xi = 4610.45 ($000) tn-2 = t5 = 2.5706 X = 2350.29 SYX = 611.75 = 4610.45 ± 1853.45 Confidence interval for individual Y

Random Samples and Sampling For a random variable Y, repeated draws from the same population can be labeled as Y1, Y2, . . . , Yn If every combination of n sample points has an equal chance of being selected, this is a random sample A random sample is a set of independent, identically distributed (i.i.d) random variables

Estimators and Estimates Typically, we can’t observe the full population, so we must make inferences base on estimates from a random sample An estimator is just a mathematical formula for estimating a population parameter from sample data An estimate is the actual number the formula produces from the sample data

Examples of Estimators Suppose we want to estimate the population mean Suppose we use the formula for E(Y), but substitute 1/n for f(yi) as the probability weight since each point has an equal chance of being included in the sample, then Can calculate the sample average for our sample:

Estimate of Population Variance We have a good estimate of mY, would like a good estimate of s2Y Can use the sample variance given below – note division by n-1, not n, since mean is estimated too – if know m can use n

Estimators as Random Variables Each of our sample statistics (e.g. the sample mean, sample variance, etc.) is a random variable - Why? Each time we pull a random sample, we’ll get different sample statistics If we pull lots and lots of samples, we’ll get a distribution of sample statistics

Correlation: Measuring the Strength of Association Answer ‘How Strong Is the Linear Relationship Between 2 Variables?’ Coefficient of Correlation Used Population correlation coefficient denoted r (‘Rho’) Values range from -1 to +1 Measures degree of association Is the Square Root of the Coefficient of Determination

Test of Coefficient of Correlation Tests If There Is a Linear Relationship Between 2 Numerical Variables Same Conclusion as Testing Population Slope b1 Hypotheses H0: r = 0 (No Correlation) H1: r ¹ 0 (Correlation)