İSTATİSTİK-II Korelasyon ve Regresyon
Korelasyon ve Regresyon Genel Bakış Korelasyon Regresyon Belirleme katsayısı Varyans analizi Kestirimler için aralık tahminlemesi
Genel Bakış İkili veriler aralarında bir ilişki var mıdır? varsa bu ilişki bir eşitlik ile temsil edilebilir mi? bu eşitliğin kestirimler (öngörümler) için kullanılması page 506 of text
Korelasyon
Tanım Korelasyon bir değişkenin değeri değişirken diğer bir değişken bununla doğrusal ilişkili olarak değişiyorsa korelasyon vardır denebilir.
Varsayımlar 1. (x,y) ikili verilerden oluşan örnek bir şans örneğidir. 2. x ve y’lerin dağılışı normaldir. page 507 of text Explain to students the difference between the ‘paired’ data of this chapter and the investigation of two groups of data in Chapter 8.
Tanım Saçılma diyagramı yatay eksen x, dikey eksen y olmak üzere, (x,y) ikili örnek verilerinin işaretlendiği bir grafiktir. Her bir (x,y) ikilisi tek bir noktadır. Relate a scatter plot to the algebraic plotting of number pairs (x,y).
Satış Personeli Sayısı (x) Satış Gelirleri (yüz bin $) (y) Örnek Bir firma bünyesindeki satış personeli sayısı ile satış gelirleri arasındaki ilişkiyi bilmek istemektedir. Yıllar Satış Personeli Sayısı (x) Satış Gelirleri (yüz bin $) (y) 1999 15 1,35 2000 18 1,63 2001 24 2,33 2002 22 2,41 2003 25 2,63 2004 29 2,93 2005 30 3,41 2006 32 3,26 2007 35 3,63 2008 38 4,15
İkili Verilerin Saçılma Diyagramı Page 507 of text
Pozitif Korelasyon y y y x x x (a) Pozitif (a) Pozitif (b) Güçlü page 508 of text x x (a) Pozitif (a) Pozitif (b) Güçlü pozitif (b) Güçlü pozitif (c) Mükemmel pozitif
Negatif Korelasyon y y y x x x (d) Negatif (e) Güçlü (f) Mükemmel
(h) Doğrusal olmayan güçlü ilişki Emphasize that graph (h) does have a correlation - just not linear. Other types of correlation, such as (h), will be briefly discussed in Section 9-6. x x (g) Korelasyon yok (h) Doğrusal olmayan güçlü ilişki
Korelasyon Katsayısı r Tanım Korelasyon Katsayısı r Bir örnekteki x ve y ikili değerleri arasındaki doğrusal ilişkinin gücünü ölçmektedir. nxy - (x)(y) r = n(x2) - (x)2 n(y2) - (y)2
Korelasyon Katsayısı r’nin Özellikleri 2. Mükemmel pozitif doğrusal ilişki olduğunda r = 1 olur. 3. Mükemmel negatif doğrusal ilişki olduğunda r = -1 olur. 4. Doğrusal ilişki yok ise r = 0 olur. page 512 of text If using a graphics calculator for demonstration, it will be an easy exercise to switch the x and y values to show that the value of r will not change.
Korelasyon ile ilgili hatalar 1. Nedensellik: Korelasyon değişkenler arasındaki sebep sonuç ilişkilerini açıklamaz. 2. Doğrusallık: x ile y arasında anlamlı bir korelasyon olmadığı halde, aralarında farklı şekilde bir ilişki olabilir. (Bakınız izleyen slayt) page 513 of text
Korelasyon ile ilgili hatalar 50 100 150 200 250 1 2 3 4 5 6 7 8 y One example of data that does have a relationship but not a linear one. x
Örnek Verileri İçin Korelasyon Hesaplamaları Yıllar Satış Personeli Sayısı (x) Satış Gelirleri (yüz bin $) (y) x2 y2 xy 1999 15 1,35 225 1,8225 20,25 2000 18 1,63 324 2,6569 29,34 2001 24 2,33 576 5,4289 55,92 2002 22 2,41 484 5,8081 53,02 2003 25 2,63 625 6,9169 65,75 2004 29 2,93 841 8,5849 84,97 2005 30 3,41 900 11,6281 102,3 2006 32 3,26 1024 10,6276 104,32 2007 35 3,63 1225 13,1769 127,05 2008 38 4,15 1444 17,2225 157,7 Toplamlar 268 27,73 7668 83,8733 800,62
Örnek Verileri İçin Korelasyon Hesaplamaları nxy - (x)(y) r = n(x2) - (x)2 n(y2) - (y)2 (10)(800,62) - (268)(27,73) r = (10)(7668) - (268)2 (10)(83,8733) - (27,73)2 r = 0,987 Güçlü pozitif korelasyon
Anakütle Korelasyon Katsayısının Testi H0: = (anlamlı bir korelasyon yoktur) H1: (anlamlı bir korelasyon vardır) page 514 of text
Test İstatistiği t Test istatistiği: r t = 1 - r 2 n - 2 Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. This method is preferred by some instructors because it follows the format presented in Chapter 7 for hypothesis testing.
Ret Bölgeleri This is the drawing used to verify the position of the sample data t value in regard to the critical t values for the example which begins on page 517. Drawing is at the bottom of page 516.
Anakütle Korelasyon Katsayısının Testi H0: = (satış personeli sayısı ile satış gelirleri arasında anlamlı bir korelasyon yoktur) H1: (satış personeli sayısı ile satış gelirleri arasında anlamlı bir korelasyon vardır) page 514 of text
Test İstatistiği t = 17,39 t = = Test istatistiği: r Kritik değer 0,987 = 17,39 t = = 1 - r 2 1 – 0,987 2 n - 2 10 - 2 Kritik değer serbestlik derecesi = n - 2 = 10 – 2 = 8, a = 0,05 için t0,025, 8= 2,31 < 17,39 Karar: H0 ret. Korelasyon anlamlıdır. This method is preferred by some instructors because it follows the format presented in Chapter 7 for hypothesis testing.
Regresyon x bağımsız değişken (açıklayıcı değişken) y bağımlı değişken (cevap = yanıt değişkeni) y = b0 + b1x + e Basit doğrusal regresyon modeli b0 = kesen b1 = eğim
Regresyon Regresyon Eşitliği y = b0 + b1x b0 = kesen b1 = eğim Verilen bir ikili veriler topluluğu için regresyon eşitliği, y = b0 + b1x ^ iki değişken arasındaki ilişkiyi tanımlamaktadır. b0 = kesen b1 = eğim Regresyon Doğrusu Regresyon eşitliğinin grafiğidir.
Regresyon Doğrusu Page 528 of text
Notasyon Regresyon eşitliğinde kesen 0 b0 Anakütle Parametresi Örnek istatistiği Regresyon eşitliğinde kesen 0 b0 Regresyon eşitliğinin eğimi 1 b1 Regresyon modeli ve eşitliği y = 0 + 1 x + e y = b0 + b1 ^ x
Artıklar ve En Küçük Kareler Yöntemi e = (y - y) En Küçük Kareler Yöntemi Se2’yi minimum yapan b0 ve b1 değerlerinin bulunmasıdır. ^ page 533 of text
b0 and b1 için En Küçük Kareler Tahminleyicileri (y) (x2) - (x) (xy) b0 = n(x2) - (x)2 n(xy) - (x) (y) b1 = n(x2) - (x)2
Önce b1 bulunursa, ardından b0 = y - b1x
Satış geliri için regresyon eşitliğinin tahminlenmesi n(xy) - (x) (y) b1 = n(x2) - (x)2 10(800,62) - (268) (27,73) b1 = 10(7668) - (268)2 b1 = 0,118 b0 = y - b1x = 2,773 – (0,118)(26,8) = - 0,398
Kestirimler (Öngörümler) Verilen bir x değeri için y’nin değeri ne olur?.. Eğer anlamlı bir korelasyon varsa, en iyi öngörülen y değeri, x değerinin regresyon eşitliğinde yerine konulmasıyla bulunur. Önemli Not: Regresyon doğrusu yalnızca tahminlemede kullanılan x uzayı içinde geçerlidir. Mevcut x’lerden uzak bir noktada öngörümleme yapılmamalıdır.
30 satış personeli çalıştığında satış gelirinin kestirilmiş değeri nedir? ^ y = - 0.398 + 0.118 (30) ^ y = 3.1516, 315160 $ The example at the top of page 530 is one where there is no significant linear correlation. Consequently, one should not use any regression equation that might be developed from such data for prediction. One should use the mean value of the data value desired. Exercise #9 also has no significant linear correlation. Therefore, to predict the BAC of a person 21.0 years who has been convicted and jailed for DWI should be found by computing the mean value of the sample BAC values.
Toplam Değişkenlik, Açıklanan Değişkenlik ve Açıklanamayan Değişkenlik (5, 19) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 • Açıklanamayan değişkenlik (y - y) Toplam değişkenlik (y - y) (5, 13) ^ • Açıklanan değişkenlik (y - y) ^ • (5, 9) y = 9 page 539 of text y = 3 + 2x ^ x 1 2 3 4 5 6 7 8 9
(y - y) 2 = (y - y) 2 + (y - y) 2 (toplam değişkenlik) = (açıklanan değişkenlik) + (açıklanamayan değişkenlik) (y - y) = (y - y) + (y - y) ^ ^ (toplam değişkenlik) = (açıklanan değişkenlik) + (açıklanamayan değişkenlik) (y - y) 2 = (y - y) 2 + (y - y) 2 ^ ^ (Genel kareler toplamı) = (regresyon kareler toplamı) + (artık kareler toplamı)
Tanım r2 = r2 = Belirleme Katsayısı ^ (y - y)2 RKT = (y - y)2 GKT y’deki değişkenliğin ne kadarının regresyon doğrusu tarafından açıklanabildiğini söyler. r2 = Regresyon kareler toplamı Genel kareler toplamı Example found at bottom of page 540 of text. ^ (y - y)2 RKT r2 = = (y - y)2 GKT
r2 = r2 = = = %97,4 ^ (y - y)2 b12( x2 – (Sx)2/n) (y - y)2 y2 – (Sy)2/n 0,1182(7668 – (268)2/10) r2 = = %97,4 83,873– (27,73)2/10 y’deki değişmelerin %97,4’ü regresyon doğrusu ile açıklanabilmektedir.
Varyans Analizi Tablosu (VAT)
Tahminin Standart Hatası Hata Varyansının Tahmini (y - y)2 ^ s2 = = Artık Kareler Ortalaması n - 2 Tahminin Standart Hatası Second formula is found on page 542 of text. Example found on this page. (y - y)2 ^ s = n - 2
F - Testi H0: b1 = b2 = ... = bk= (Model anlamsızdır) H1: en az bir i için bi (Model anlamlıdır) page 514 of text
F – Testi (Basit Doğrusal Regresyon İçin) H0: b1 = (Model anlamsızdır) H1: b1 (Model anlamlıdır) Test İstatistiği = F – oranı Ret Bölgesi = F > Fa, 1, (n – 2) ise H0 RET. page 514 of text
Varyans Analizi Tablosu (VAT) (Satış Gelirleri Örneği)
F – Testi (Satış Gelirleri Örneği İçin) H0: b1 = (Model anlamsızdır) H1: b1 (Model anlamlıdır) Test İstatistiği = F – oranı = 302,41 Karar = F = 302,41 > F0,05, 1, 8 = 5,32 H0 RET. page 514 of text
Anakütle Regresyon Katsayısılarının Testi b1=Anakütle regresyon katsayısı (X1 için) H0: b1 = (b1 anlamsızdır) H1: b1 (b1 anlamlıdır) page 514 of text
Test İstatistiği t t = Test istatistiği: b1 Sb1 Sb1 Sb1= = b1’in standart hatasıdır. This method is preferred by some instructors because it follows the format presented in Chapter 7 for hypothesis testing. S Sb1= (x2 – (Sx)2/n)
Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. |t | > t a/2, n – 2 ise H0 RET.
Anakütle Regresyon Katsayısılarının Testi (Satış Gelirleri Örneği) b1=Anakütle regresyon katsayısı (X1 için) H0: b1 = (b1 anlamsızdır) H1: b1 (b1 anlamlıdır) page 514 of text
Test İstatistiği t t = = = 17,39 Test istatistiği: 0,118 b1 Sb1 Sb1 0,006804 Sb1 = b1’in standart hatasıdır. This method is preferred by some instructors because it follows the format presented in Chapter 7 for hypothesis testing. S 0,1499 Sb1= = =0,006804 (x2 – (Sx)2/n) (7668 – (268)2/10)
Basit doğrusal regresyonda t2 = F olmaktadır. Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. a = 0,05 olsun. |17,39 | > t a/2, n – 2 = t 0,025, 8 = 2,306 H0 RET. b1 anlamlıdır. Basit doğrusal regresyonda t2 = F olmaktadır.
Anakütle Regresyon Katsayısılarının Testi b0=Anakütle regresyon modelinde sabit terim H0: b0 = (b0 anlamsızdır) H1: b0 (b0 anlamlıdır) page 514 of text
Test İstatistiği t t = Test istatistiği: b0 Sb0 Sb0 Sb0= = b0’in standart hatasıdır. This method is preferred by some instructors because it follows the format presented in Chapter 7 for hypothesis testing. S x2 Sb0= n(x2 – (Sx)2/n) n(x2 – (Sx)2/n)
Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. |t | > t a/2, n – 2 ise H0 RET.
Anakütle Regresyon Katsayısılarının Testi (Satış Gelirleri Örneği) b0=Anakütle regresyon modelindeki sabit terim H0: b0 = (b0 anlamsızdır) H1: b0 (b0 anlamlıdır) page 514 of text
Test İstatistiği t t = = = - 2,11 Test istatistiği: b0 Sb0 Sb1= - 0,398 t = = = - 2,11 Sb0 0,1884 S x2 (0,1499) (7668) Sb1= = n(x2 – (Sx)2/n) (10)(7668 – (268)2/10) This method is preferred by some instructors because it follows the format presented in Chapter 7 for hypothesis testing. =0,1884
H0 REDDEDİLEMEZ. b0 anlamsızdır. Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. a = 0,05 olsun. |- 2,11 | < t a/2, n – 2 = t 0,025, 8 = 2,306 H0 REDDEDİLEMEZ. b0 anlamsızdır.
E(y) Değeri İçin Kestirim Aralığı ^ y - E < E(y) < y + E ^ Burada n(x0 - x)2 1 E = t2,n - 2 s + n n(x2) - (x)2 Example found on pages 543-544 of text. x0, x’in verilen bir değeridir. Karekök içindeki ifade ile S’nin çarpımı ise x0’daki y değeri için standart hatadır. Standart hata en düşük değerini x0 = x olduğunda alır. ^
E(y) Değeri İçin Kestirim Aralığı x0 = 30 personel için satışların beklenen değeri %95 güven ile hangi aralıkta gerçekleşir? 3.1516 - E < E(y) < 3.1516 + E 1 (10)(30 -26,8)2 E = (2,306)(0,1499) + 10 (10)(7668) - (268)2 Example found on pages 543-544 of text. E = (2,306)(0,01815) = 0,04186 3,1097 < E(y) < 3,1935