Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Ders 11 - 1 Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin.

Benzer bir sunumlar


... konulu sunumlar: "Ders 11 - 1 Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin."— Sunum transkripti:

1 Ders Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin derecesi ve yönü ise korelasyon analizi ile açıklanır. Değişkenler arasındaki ilişkilere bazı örnekler vermek gerekirse; -İnsanların boyları ile kiloları -Futbol takımlarının çalışma süreleri ve maç skorları toplamları -Öğrencilerin çalışma miktarları ve sınav notları -Bir malın fiyatı ve talep miktarı -Bir ürünün verimi ve verilen gübre miktarı, vb.

2 Ders Değişkenler arasındaki ilişkiler aşağıdaki gibi sınıflandırılabilir: i)Belirleyici (deterministik) ilişkiler ii)Yarı belirleyici ilişkiler iii)Deneysel (ampirik, stokastik) ilişkiler Kesin (Deterministik) Model Değişkenler arasında kesin bir ilişki olduğunu varsayan modeller, kesin (deterministik) modeller olarak adlandırılmaktadır. Örneğin arz miktarı y'nin, fiyat düzeyi x'in tam bir buçuk katı olduğuna inanıyorsak: y=1.5x Bu denklem, x ve y değişkenleri arasındaki kesin bir ilişkiyi temsil etmektedir. Bu tahminde hata payı yoktur.

3 Ders Stokastik (Olasılıklı) Model Eğer arz miktarında, önemli fakat ele alınmayan değişkenlerin veya tesadüfi olguların yol açtığı açıklanmayan değişimlerin olacağına inanıyorsak, kesin model yerine tesadüfi hataya yer veren modelden yararlanmamız gerekir. Olasılıklı model hem kesin öğeyi hem de tesadüfi hata öğesini içerir. Örneğin eğer arz miktarı y'nin, fiyat düzeyi x ile: y = 1.5x + Tesadüfi Hata şeklinde bir ilişkisi olduğunu düşünüyorsak, x ile y arasında olasılıklı bir ilişki olduğunu anlarız. Görüldüğü gibi, olasılıklı modelin kesin öğesi 1.5x’tir.

4 Ders Kesin (Deterministik) ve StokastikOlasılıklı Model... Bu kez grafikten yararlanalım: Kesin Model: y=1.5xOlasılıklı Model: y=1.5x + Tesadüfi hata

5 Ders Yarı belirleyici ve deneysel ilişkilerin (stokastik) incelenmesi regresyon analizinin kapsamına girmektedir. Regresyon analizinde değişkenler iki grup altında incelenir: -Bağımsız değişkenler (açıklayıcı değişkenler) -Bağımlı değişkenler Bağımlı değişken: Modelin ifade ettiği olay tarafından belirlenirken, Bağımsız değişken: Modelin ifade edilen olaydan bağımsız olan verileridir.

6 Ders Örneğin kişilerin gelirlerinin değişmesi, harcama miktarlarının da değişmesine neden olur. Bu durumda gelir bağımsız değişken, harcama miktarı ise bağımlı değişkendir. Regresyon analizinde genellikle bağımsız değişkenler (X), bağımlı değişkenler (Y) ile gösterilirler.

7 Ders Basit doğrusal regresyondaki basit kelimesi iki değişken arasındaki ilişkiyi açıklamak için kullanılır. Doğrusal kelimesi, kurulan modelin parametreleri açısından doğrusal bir model olmasındandır. İki değişken arasındaki en basit ilişki, bir doğru ile açıklanabilen ilişkidir. X Y Genel olarak bir doğrunun matematik gösterimi: Y=  0 +  1 X şeklindedir. Burada  1, eğimdir ve X’teki 1 birimlik değişmenin Y’de yaptığı değişikliği gösterir. 00 ise X’in değeri 0 olduğunda Y’nin almış olduğu değerdir ve Y ekseninin kesme noktası olarak isimlendirilir.

8 Ders Doğrusal ilişki Doğrusal olmayan ilişki Değişkenler arasındaki ilişki

9 Ders Regresyon Parametrelerinin Tahmininde Kullanılan Metod EKK Metodu Normal Denklemlerle Klasik Çözüm Yolu Determinantlarla Çözüm Yolu Orjin kaydırma Çözüm Yöntemi

10 Ders EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE BİR DOĞRUNUN UYUMU Gözlemleri en iyi açıklayan doğrunun belirlenmesi için çeşitli yöntemler ileri sürülebilir. Fakat günümüzde en çok kullanılan yöntem “En Küçük Kareler” adı verilen yöntemdir. Bu yöntem gözlemlerin belirlenen doğrudan uzaklıklarının (hata terimlerinin) karelerinin toplamının en küçük yapılmasına dayanır. modelinde hata terimi: olarak yazılabilir. Bu ifadenin karesi alınıp tüm gözlemler için toplanırsa: ifadesi elde edilir. EKK yöntemine göre bu ifadeyi minimize eden b 0 ve b 1 değerleri  0 ve  1 ’ in tahmincileri olur. 1. NORMAL DENKLEMLER

11 Ders İfadesini minimize eden parametre tahmincilerinin değerlerini bulabilmek için eşitliğin  0 ve  1 ’e göre türevleri alınıp 0’a eşitlenir. Her iki denklemi de 0’a eşitlersek;  0 ’ a göre türev alınırsa;  1 ’ e göre türev alınırsa;

12 Ders Parantezleri açarsak; Bu denklemlere doğrunun NORMAL DENKLEMLERİ denir. Normal denklemler alt alta yazılıp birlikte çözüldüklerinde b 0 ve b 1 tahmincileri bulunur. şeklindeki formüller yardımıyla da tahminciler bulunabilir.

13 Ders DETERMİNANT METODU

14 Ders ORJİN KAYDIRMA YÖNTEMİ Olarak gösterirsek Olur. Burada hata karelerini minimum yapmak için aşağıdaki yol izlenir. Orjini kaydırsakta kaydırmasakta doğrunun eğimi değişmeyeceğinden istersek modele tekrar b0’ ı ekleyebiliriz. olacağından alınarak yerine konulursa veya Bulunur.

15 Ders Bir fabrikada taşıma işleri için kullanılan tırların yaşı ile bakım harcamaları arasındaki ilişkiyi ele alalım. Verilerin grafiği çizildiğinde tam olarak düz bir doğrunun üzerinde olmadıkları, fakat tırlar eskidikçe bakım harcamalarının da arttığı görülmektedir. Burada bağımsız değişken yaş, bağımlı değişken ise bakım harcamalarıdır, çünkü yaş değiştikçe bakım harcamaları değişiklik göstermektedir. Pratiklik olması açısından yaş ve bakım harcaması arasındaki ilişkinin bir doğru şeklinde olduğunu varsayarsak, bu modelin matematik gösterimi: Bakım harcaması yaş Hata terimi

16 Ders e hata terimi, tır için yapılan harcamanın, ilişkiyi açıklayan doğrudan ne kadar saptığını gösterir. Tırların yaşı ile yapılan bakım harcamaları arasındaki gerçek ilişkiyi belirleyen model henüz belirlenmiş değildir. Bunun için modelde bulunan parametrelerin (  0 ve  1 ) bilinmesi gerekir.  0 ve  1 birer parametre olduklarından, gerçek değerlerinin bulunması için taşıma işinde kullanılan tüm tırların (populasyonun) bakım harcamaları ve yaşlarının bilinmesi gerekmektedir. Bu da çoğu zaman imkansız olduğundan elimizdeki örneği kullanarak parametreleri tahminleriz veya başka bir ifade şekliyle grafikteki noktalara en iyi uyan bir doğruyu buluruz.

17 Ders Böylece veri noktalarımızdan geçen en iyi doğru denklemi: Gerçek Y’nin tahmincisi Traktör örneğimiz için gereken hesaplamaları yapıp normal denklemleri oluşturalım: = 12b 0 +42b = 42b b =42b b = 42b b = -41b 1 b 1 = *(72725 = 12b 0 +42b 1 ) = 42b b 1

18 Ders =12b 0 +42b =12b 0 +42*1390 b 0 = 1195 Doğrunun denklemi: Hesaplanan bu denklem kullanılarak yaşını bildiğimiz bir tır için yapılacak ortalama bakım masrafını tahmin edebiliriz. Örneğin x=4 yaşındaki bir tır için bakım masrafları: olarak bulunur. Tahmincileri elde etmek için normal denklemler yerine formüller kullanılırsa da aynı sonuçlar elde edilir.

19 Örnek: Firmanın yılları arasındaki yıllık satışları aşağıda verildiği gibidir. Bu verilere dayanarak regresyon (yalın regresyon) denkleminin tahminlenmesi istenmektedir.(satışlar 1000 br olarak) YıllarSatışlar (Y)XXY Paremetrelerin E.K.K.tahminlerini elde etmek için Y = x şeklinde regresyon denklemi elde edilir.

20 Determinant metodu ile parametre tahminlerinin hesaplaması ise ; orjin kaydırma ile parametre tahmini ise; Yıllar Y x xY x 2 Y 2 Y = x

21 a) 2001 yılı satışları ne olacaktır? Y2001= (9)=92.1 b) Hangi yıl 100 birim satar? 100 = x x = 9.7 Modeli için Y= x modeli de yapılacak aynı tahminler de aynı sonucu verecektir. a) 2001 yılı satışları ne olacaktır? Y= (5)=92 br. b) Hangi yıl 100 birim satar? 100= x x=5.7 (2001 yılı 8 inci ayı ortaları) 2001 yılı 8 inci ayın ortalarında

22 Ders REGRESYON DENKLEMİNİN İNCELENMESİ Regresyon denklemini incelerken genellikle bizi en çok ilgilendiren soru incelediğimiz iki değişken arasında gerçekten bir ilişki olup olmadığı sorusudur. Bu soru aslında basit doğrusal regresyonda  1 ’in değerinin 0 olup olmadığının araştırılmasıdır. Bu araştırmayı yaparken istatistiksel testle kullanmak gerektiğinden hata terimi ve parametre tahmincilerinin dağılışları hakkında bazı varsayımlarda bulunmak gerekir. Hata terimi e’ler, ortalaması 0 ve varyansı olan birbirinden bağımsız normal dağılışlar gösterirler. E(e)=0 Var(e)= s 2 - Tahminin Standart Hatası ve Varyansı Tahminin standart hatası s, noktaların regresyon doğrusu etrafındaki dağılımlarının ortalama bir ölçüsünü verir.

23 Ders Tahminlenen Regresyonun Duyarlılığı Y ortalama doğrusu Gözlem değeri (Y) Regresyon doğrusu Y i tahmin değeri Regresyon denklemi tahminlendikten sonra bu denklemin ilişkiyi ne derece açıkladığı ve bu denklem kullanılarak yapılacak tahminlerin ne derece hassas olacağının araştırılması gerekir. Bunun için gözlenen değerler ile tahmini değerleri arasındaki farkı yazıp y’lerin ortalamasını buna ekleyip çıkarırsak aşağıdaki ifadeyi elde ederiz. Bu ifadenin grafiksel karşılığı şekilde görülmektedir. e

24 Ders Daha sonra her iki tarafın kareleri alınıp tüm gözlemler için toplanırsa; İfade tekrar düzenlenirse: Ortalama etrafındaki kareler toplamı (genel KT) Regresyon kareler toplamı Regresyondan sapmalar (hata) kareler toplamı Y ortalama doğrusu Gözlem değeri (Y) Regresyon doğrusu Y i tahmin değeri

25 Ders Eğer gözlenen değerlerin hepsi tahmin edilen doğru üzerinde olsaydı, hata kareler toplamı “0” olacak ve uyumun çok iyi olduğu söylenebilecektir. Bu bilgiyi kullanarak, regresyon doğrusunun ne derece iyi tahminlenmiş olduğunu regresyon kareler toplamının ortalama etrafındaki kareler toplamına oranına bakarak söyleyebiliriz. Bu orana BELİRLEME KATSAYISI adı verilir ve R 2 ile gösterilir. R 2 ’nin 1’e yaklaşan değerleri bize uyumun iyi olduğunu belirtir. (0

26 Ders Hesaplama kolaylığı açısından kareler toplamları formülleri aşağıdaki şekilde de kullanılabilir: Genel kareler toplamı (GKT) Regresyon kareler toplamı (RKT) Hata kareler toplamı (HKT)

27 Ders Korelasyon Katsayısı Korelasyon katsayısı, regresyon modeli ile bulunan tahmini Y değerlerinin, gerçek değerlere uygunluğunu ölçmede kullanılır. Korelasyon katsayısı -1 ile 1 arasında değişir. Katsayının -1 çıkması, iki değişken arasında ters yönlü tam bir ilişkinin olduğunu, 1 çıkması ise doğru yönlü tam bir ilişkinin olduğunu ifade eder. Katsayının -1’e doğru yaklaşması, değişkenler arasında ters yönlü kuvvetli bir ilişkiyi gösterirken, 1’e yaklaşması değişkenler arasında doğru yönlü kuvvetli bir ilişkiyi ifade eder. Korelasyon katsayısının işareti, regresyon doğru veya eğrisine ait eğim katsayısının işaretidir. Korelasyon katsayısının karesi, belirleme katsayısını determinasyon katsayısını) verir.

28 Ders Sınırlı sayıda veri üzerinden hesaplanan korelasyon katsayısı bir istatistiktir ve r ile gösterilir.Bu istatistiğin anakütle parametresi olarak karşılığı ’dur. Korelasyon katsayısı için genel formül; yada Bu formülde;

29 Ders Bütün bu değerler n katsayısı ile çarpılırsa sonuç değişmez ve korelasyon katsayısı; Hesaplanan korelasyon katsayısının gerçekten önemli olup olmadığını anlamak için belirli bir önem seviyesinde test etmek gerekir. Doğrusal korelasyon katsayısının önemli olup olmadığını test ederken test hipotezleri,

30 Ders v=n-2 sd. ve değerlerine göre t kritik değerleri tespit edilir. Test istatistiği; korelasyon katsayısının standart hatasıdır.

31 Ders Test istatistiği, mutlak olarak kritik değerden büyük çıktığında X ile Y değişkenleri arasında önemli bir ilişki olduğunu söyleyebiliriz. Bununla birlikte bu değişkenlerin arasında mantıki bir ilişkinin bulunması şarttır. Bazen hiç alakası olmayan değişkenler arasında da yüksek bir korelasyon çıkabilmektedir.Bu tip korelasyonlara sahte korelasyon denir. ÖRNEK Bir süper market yöneticisi tesadüfi olarak seçilen bir saatlik sürelerde kasaya gelen müşteri sayısını ve ödedikleri toplam para miktarını aşağıdaki gibi kaydetmiştir. Müşteri Sayısı Ödenen Para (10000 TL)

32 Ders Müşteri sayısını bağımsız (X), kasalara ödenen para miktarını bağımlı değişken olarak kabul ederek, doğrusal korelasyon katsayısı; formülü ile kolayca hesaplanabilir. XYXYX2X2 Y2Y Toplam

33 Ders Korelasyon katsayısının önemli olup olmadığı %5 önem düzeyinde test edilirse, test hipotezleri şeklinde kurulur. v=n-2=5-2=3 sd. ve önem seviyesine göre kritik değerler ‘dir.

34 Ders Test istatistiği, kritik t değerinden büyük olduğu için %5 önem seviyesinde H 0 hipotezi red edilerek hesaplanan doğrusal korelasyon katsayısının önemli olduğuna karar verilir.

35 Ders E(b 0 )=  0 E(b 1 )=  1 Katsayıların Standart Hataları Katsayıların Güven Aralıkları

36 Ders Parametrelerin teker teker anlamlılığı testi: Sabit terim  0 ’ın testi için hipotezler: H 0 :  0 =0test istatistiği: H 1 :  0  0 Eğim katsayısı  1 ‘in testi için hipotezler: H 0 :  1 =0test istatistiği: H 1 :  1  0 t istatistiği değerleri genelde paket programlar tarafından hesaplanıp verilmektedir. Hesaplanan test istatistikleri (n-2) serbestlik dereceli t dağılışı değeri ile kontrol edilir.

37 Ders Regresyon doğrusunun tüm parametrelerinin istatistiksel açıdan anlamlı olup olmadığını test etmek için önce Varyans Analizi Tablosu aşağıdaki şekilde oluşturulur: Daha sonra sabit terim dışındaki parametrelerin 0’dan farklı olup olmadığı hipotezi test edilir. H 0 :  0 =  1 =0 H 1 :  0 =  1  0 Test İstatistiği: Serbestlik derecesi: 1, (n-2)

38 Ders TAHMİNİN VARYANSI VE GÜVEN ARALIĞININ BULUNMASI Regresyon denkleminin elde edilmesinin en önemli amaçlarından biri bağımsız değişkenin herhangi bir değeri için Y’nin alacağı değerin tahminlenmesidir. şeklinde hesaplanan bu tahminin, varyansı ve o noktadaki gerçek değer için güven aralıklarının bulunması istenir. Bu tahminin varyansı: Hatanın varyansı X k noktasında Y’nin alacağı ortalama değer için güven % (1- )’lık güven aralığı: yada

39 Ders Örnek: yıllarındaki Türkiye’nin turizm gelirleri ile Türkiye’ye gelen turist sayısı tabloda verilmiştir. YıllarTurizm Gelirleri Yabancı Ziyaretçi Sayısı

40 Ders Turizm Gelirleri ile Yabancı Ziyaretçi Sayısı verileri arasındaki dağılma diyagram

41 Ders YXY*XX2X  Y=  X=  YX=  X 2 = Doğrusal tüketim fonksiyonunun normal denklemler yoluyla tahmini: Tablo 2: Verilerin normal denklemler ile çözüm için düzenlenmesi

42 Ders  Y = b 0.n + b 1.  X  YX = b 0.  X + b 1.  X = b b = b b b 0 =0.597b 1 =0.640 Doğrusal tüketim fonksiyonunun normal denklemler yoluyla tahmini: Yabancı ziyaretçi sayısı arttıkça turizm geliri artmaktadır.

43 Ders Doğrusal tüketim fonksiyonunun formülden tahmini: (

44 Ders  y=  x=  yx=  x 2 =  y 2 = Doğrusal gelir fonksiyonunun ortalamadan farklara göre tahmini

45 Ders

46 Ders Tahminin standart hatası ve varyansı: YY2Y (8.614) = (9.689) = (9.752) = (7.464) = (10.412) = (11.569) = (13.247) = (14.030) = (17.517) = (21.122) =  Y 2 =  e 2 =

47 Ders Katsayıların standart hata ve varyansları: (0.367) (0.028) (1.626) (2.306)

48 Ders Katsayıların güven aralıkları  (0.367)   b 0   (0.028)   b 1  Katsayıların anlamlılıklarını testi H 0 : b 0 = 0 H 1 : b 0  0 t 0.05/2, 8 = = t hes =1.626 < t 0.05/2, 8 = H 0 Kabul b 0 istatistiki olarak anlamsız

49 Ders H 0 : b 1 = 0 H 1 : b 1  0 t hes =22.85 > t 0.05/2, 8 = t 0.05/2, 8 = H 0 Red b 1 istatistiki olarak anlamlı

50 Ders Genel kareler toplamı (GKT) Regresyon kareler toplamı (RKT) Hata kareler toplamı (HKT) (0.367) (0.028) (1.626) (2.306)  X 2 =  X=  Y=  Y 2 =

51 Ders R 2 Belirlilik Katsayısı: YORUM: Bu sonuç bize, turizm gelirlerindeki değişkenliğin (varyasyonun) %98.44’ünün gelen ziyaretçi sayısı ile açıklanabildiğini göstermektedir. Turizm geliri ile gelen ziyaretçi değişkenleri arasında pozitif yönde kuvvetli bir ilişki vardır. Korelasyon Katsayısı

52 Ders Turizm örneği için varyans analizi tablosunu oluşturup regresyonun anlamlılığını test edersek: H 0 :  0 =  1= 0 H 1 :  0 =  1  0 sdKTKO Regresyon Hata Genel F 0.05,1,8 = 5.32 F hesap > F tablo ; H 0 reddedilir, katsayılar istatistiksel olarak topluca anlamlıdır

53 Ders X k =  (0.362)  Y k  X k  Tahminin Güven Aralığı

54 Ders ÖRNEK: İstatistik dersi sınavına çalışmak için 5 öğrencinin etkin olarak harcadıkları süreler ve sınav sonuçları aşağıda verilmiştir. Bu veriler ışığında çalışılan süre ile sınav notu arasındaki ilişkiyi çiziniz, denklemini tahmin ediniz. Belirleme katsayısını hesaplayarak yorumlayınız. Daha sonra varyans analizi tablosunu hazırlayarak belirlediğiniz doğrunun eğiminin 0 olup olmadığını kontrol ediniz. Aynı hipotezi t testi ile tekrar kontrol ediniz ve bulgularınızı karşılaştırınız.

55 Ders b b 1 = b b 1 =0 5*(19 - 5b b 1 = 0) b b 1 = b b 1 = b b 1 = b 1 =0 b 1 = b b 1 = b 0 -25*0.3=0 b 0 = 2.3 Formülle hesaplarsak:

56 Ders Böylece doğrunun denklemi: YORUM: Bu sonuç bize, sınavdan alınan notların değişkenliğinin (varyasyonunun) %81’inin çalışılan saatler arasındaki farklılıklar ile açıklanabildiğini göstermektedir.


"Ders 11 - 1 Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki ilişkinin." indir ppt

Benzer bir sunumlar


Google Reklamları