Temel İstatistik Terimleri ve Dağılımlar

Slides:



Advertisements
Benzer bir sunumlar
Normal Dağılım Dışındaki Teorik Dağılımlar
Advertisements

Çıkarımsal İstatistik
Uygun Hipotezin Kurulması, Tip I Hata ve Tip II Hata
Bölüm 5 Örneklem ve Örneklem Dağılımları
Kütle varyansı için hipotez testi
GİRİŞ BÖLÜM:1-2 VERİ ANALİZİ YL.
Sosyal Bilimlerde Araştırma Yöntemleri
İki kütle ortalamasının farkının güven aralığı
Normal dağılan iki kütlenin ortalamalarının farkı için Hipotez testi
Hipotez Testlerine Giriş
İKİ ÖRNEKLEM TESTLERİ.
Kalibrasyon.
İstatistik Tahmin ve Güven aralıkları
R2 Belirleme Katsayısı.
VARYANS ANALİZİ İki örnek ortalaması arasındaki farkın önem kontrolü, örnek büyüklüğüne göre z veya t testlerinden biriyle yapılır. Bu testlerle, ikiden.
Farklı örnek büyüklükleri ( n ) ve farklı populasyonlar için ’nın örnekleme dağılışı.
ANOVA.
Etkensel Deney Tasarımı
ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ
Standart Normal Dağılım
HİPOTEZ TESTLERİ.
HAZIRLAYAN:SAVAŞ TURAN AKKOYUNLU İLKÖĞRETİM OKULU 2/D SINIFI
Normal Dağılım.
Analitik Verilerin Değerlendirilmesi  Ortalama Değer tekrarlanan ölçüm sonuçlarının toplamının toplam ölçüm sayısına bölünmesiyle elde edilen sayıdır.
TAHMİNLEYİCİLERİN ÖZELLİKLERİ ÖRNEKLEME DAĞILIMI
Kısmi Etkensel Deney Tasarımı
Regresyonla Etkensel Deneylerin İncelenmesi
Hesaplanan Parametrelerin Hassasiyeti ve Güvenirlik Bölgesi
Prof. Dr. Hüseyin BAŞLIGİL
T Dağılımı.
OLASILIK ve OLASILIK DAĞILIMLARI
ÖNEMLİLİK TESTLERİ Dr.A.Tevfik SÜNTER
Temel İstatistik Terimler
Büyük ve Küçük Örneklemlerden Kestirme
SÜREKLİ ŞANS DEĞİŞKENLERİNİN OLASILIK YOĞUNLUK FONKSİYONLARI
OLASILIK ve KURAMSAL DAĞILIMLAR
İki Ortalama Farkının Test Edilmesi
Merkezi Eğilim (Yer) Ölçüleri
MATEMATİKSEL İSTATİSTİK VE OLASILIK II
FEN LABORATUVARINDA ÖLÇÜ HATALARI VE ANLAMLI RAKAMLAR
İSTATİSTİKTE GÜVEN ARALIĞI VE HATALAR
Ölçme Sonuçlarının Değerlendirilmesi
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
Tüketim Gelir
Yrd. Doç. Dr. Hamit ACEMOĞLU
SÜREKLİ ŞANS DEĞİŞKENLERİ
Uygulama I.
HİPOTEZ TESTLERİNE GİRİŞ
Örneklem Dağılışları.
Bilişim Teknolojileri için İşletme İstatistiği
Bilişim Teknolojileri için İşletme İstatistiği
Olasılık Dağılımları ve Kuramsal Dağılışlar
Örneklem Dağılışları ve Standart Hata
ANALİTİK YÖNTEM VALİDASYONU 5.ders
HİPOTEZ TESTLERİNE GİRİŞ
İstatistik Tahmin ve Güven aralıkları
İSTATİSTİKTE TAHMİN ve HİPOTEZ TESTLERİ İSTATİSTİK
İSTATİSTİK II Hipotez Testleri 3.
1 İ STATİSTİK II Tahminler ve Güven Aralıkları - 1.
OLASILIK ve İSTATİSTİK
Teorik Dağılımlar: Diğer Dağılımlar
TEMEL BETİMLEYİCİ İSTATİSTİKLER
Merkezi Eğilim Ölçüleri
ANLAM ÇIKARTICI (KESTİRİMSEL) İSTATİSTİK
Numerik Veri Tek Grup Prof. Dr. Hamit ACEMOĞLU.
HİPOTEZ TESTLERİ.
Temel İstatistik Terimler
Hipotez Testinde 5 Aşamalı Model
Tüketim Gelir
Temel İstatistik Terimler
Sunum transkripti:

Temel İstatistik Terimleri ve Dağılımlar

Temel Tanımlar Her bilim kolunda olduğu gibi istatistik de kendine ait terimler üretmiştir. Bunlardan belli başlılarını ilerideki konuların anlaşılmasını sağlamak üzere tanımlayalım: Yığın (Population): N gözlemden oluşan geniş veri seti Örnek: Yüksek Lisans Öğrencileri Örneklem: Topluktan alınan n tane gözlemden oluşmuş grup Örnek: GYTE’deki Yüksek Lisans Öğrencileri Rasgele değişken: deneydeki bir sonraki gözlemin değeri.

Temel tanımlar Yığını tanımlayan bir nicelikle örneklemi tanımlayan bir nicelik birbirinden farklıdır. İstatistik: Yığını temsil ettiği düşünülen verileri kullanarak hesaplanmış nicelikler Parametre: Yığınla özdeşleştirilen idealize edilmiş nicelik. Parametreler direkt olarak ölçülemezler ve bu nedenle istatistikle tahmin edilirler. Parametreler Yunan harfleriyle istatistikler ise Roma harfleriyle gösterilir.

Yığın ve Örneklem Örneklem Yığın N: gözlem sayısı Ortalama: m Varyans: s2 Standard Sapma: s n: gözlem sayısı Ortalama: y Varyans: s2 Standard Sapma: s

Yığın ve Örneklem Örneklem Yığın Ortalama yi: gözlem Varyans (Değişke): belli bir gözlemin yığın ortalamasından ne kadar farklı olduğunun ölçüsüdür. Deneyi yapan, yığın parametrelerini örneklem istatistiği ile elde edebilir. Standard sapma

Yığın ve Örneklem varyans Bağımsızlık derecesi: n = n-1 varyansı hesaplarken ortalamanın kullanılmasıyla bağımsızlık derecesi n = n-1 olur. Bağımsızlık derecesi: bir parametrenin hesaplanmasında kullanılan her bir bağımsız veri sayısı Standard sapma Bağımsız veri girdisinin azalmasıyla, hesaplanan s toplam gözlem sayısının bir eksiğine bölündüğü için örneklemdeki sapma yığına göre daha büyük olacaktır.

Ortalama ve Standard Sapma Verilen değerlerin ortalaması en az bir daha fazla anlamlı basamakla gösterilmelidir. Standard sapma ise en az üç anlamlı basamağa kadar hesaplanmalıdır. Örnek: NO3 ölçümleri = 6.9, 7.8, 7.9,7.1 Ortalama = 7.42 mg/l s = 0.499

Hassasiyet, Yanlılık ve Doğruluk Verideki saçılmanın derecesi Yanlılık ve hassasiyetin bir fonksiyonu Sistematik Hatalar Gerçek Değer A B C D Y H D A Çok Yüksek Yok B Az Düşük C Var 7.5 8.00 8.5 9 Yanlış ölçümler düşük hassasiyet ya da yanlılığa, veya bunların her ikisine de sahip olan ölçümlerdir.

Yanlılık Yığın ortalamasının (m) 8 mg/l olduğunu biliyorsak, yanlılık ölçüm sonuçlarının ortalaması (y) ile 8 mg/l arasındaki farktır. Yanlılık = y-m Yanlılık sistematik hataya işaret eder. Eğer kaynağı tespit edilirse ortadan kaldırılabilir. Soru: Daha fazla sayıda ölçüm yapmak yanlılığı ortadan kaldırır mı?

Hassasiyet Tekrar edilen ölçümler arasındaki farklara göre belirlenir. Ölçümler arası farklardan kaynaklanan bu saçılmalar deneydeki rasgele (deneysel) hatalar ile ilgilidir. Eğer hassas bir ölçüm söz konusuysa bu hatalar küçüktür. Hata miktarı daha fazla sayıda ölçüm yapıp ortalaması alınarak azaltılabilir. Soru: Deneysel hatalar tamamen ortadan kaldırılabilir mi?

Deneysel Hatalar (gürültü) Gerçek değer m ve ölçülen değer yi ise Yi = m + ei ei: hata payı, gözlemlerdeki dalgalanma ya da bir deneyden diğerine değişen fark. Bir yanlışlık, yanlılık, bir gaf değil, istatistiksel ölçmenin kaçınılamaz bir sonucudur. Aletin durumu Kullananın becerisi Numune alma sırasındaki hatalar Ortam şartlarındaki farklılıklar Deneysel hatanın kaynakları

Normallik,Rastsallık ve Bağımsızlık Birçok istatistiksel işlemin dayandığı üç önemli özellik Normallik Rastsallık Bağımsızlık Normallik: ölçümdeki hatalar normal olasılık dağılımından gelir. Bu da hatanın bir çok nedeni olduğu ama hiçbirinin diğerine baskın olmadığı varsayımına dayanır. Her zaman olmamakla birlikte çoğunlukla bu varsayım geçerlidir.

Rastsallık Rastsallık, bir yığına ait gözlemlerden rasgele birinin çekilmesi durumunda, yığındaki her bir elementin eşit çekilme şansı olması demektir. Rastsallık terimi aksi söylenmediği takdirde, genellikle yanlılık veya bir korelasyon olmadığı anlamına gelir.

Örnek SORU: Bu laboratuarda nitrat ölçümlerindeki hata rastsal mıdır? Ölçüm No NO3 Kons 1 6.9 2 7.8 3 8.9 4 5.2 5 7.7 6 9.6 7 8.7 8 6.7 9 4.8 10 11 10.1 12 8.5 13 6.5 14 9.2 15 7.4 16 6.3 17 5.6 18 7.3 19 8.3 20 7.2 21 7.5 22 6.1 23 9.4 24 5.4 25 7.6 26 8.1 27 7.9 Örnek Bir laboratuarın nitrat ölçüm işlemleri 8.0 mg/L lik olduğu bilinen 27 numuneyi laboratuara gönderip ölçtürerek değerlendiriliyor. Sürekli ve çok sayıda ölçümün yapıldığı laboratuarda teknik elemanlar bunun bir değerlendirme olduğunu bilmiyorlar. Yığın: 8.0 mg/L lik konsantrasyona sahip olduğu bilinen tüm örnekler Örneklem: Yığından alınan 27 tane numune ölçümü Örneklem Büyüklüğü: n = 27 SORU: Bu laboratuarda nitrat ölçümlerindeki hata rastsal mıdır?

Ölçüm No NO3 Kons Fark 1 6.9 1.1 2 7.8 0.2 3 8.9 -0.9 4 5.2 2.8 5 7.7 0.3 6 9.6 -1.6 7 8.7 -0.7 8 6.7 1.3 9 4.8 3.2 10 11 10.1 -2.1 12 8.5 -0.5 13 6.5 1.5 14 9.2 -1.2 15 7.4 0.6 16 6.3 1.7 17 5.6 2.4 18 7.3 0.7 19 8.3 -0.3 20 7.2 0.8 21 7.5 0.5 22 6.1 1.9 23 9.4 -1.4 24 5.4 2.6 25 7.6 0.4 26 8.1 -0.1 27 7.9 0.1 Örnek,Devam Şekilde görüldüğü gibi nitrat ölçümlerindeki hatalar için rastsal diyebiliriz.

Örnek Ancak rastsallığın kontrolünde deneye etki eden tüm faktörler göz önüne alınmalıdır. Örneğin nitrat örneklerinde deneyi yapan kişilere göre veri çizildiğinde şekildeki gibi bir durum çıktığında verilerin rastsallığından söz edemeyiz. Teknisyen B 2 -2 Fark Teknisyen A

Bağımsızlık Bir dizi gözlemden bilinmeyen nedenlerden deneysel hataların bir süre etkin olarak kaldığını varsayalım. Öyle ki birinci gözlem y1 yüksekse ikinci gözlem y2 de yüksek oluyor. Bu durumda y1 ve y2 istatistiksel olarak bağımsız değildir. Bir veri setinin bağımsız olmaması hesaplanan varyans değerini önemli ölçüde bozar ve normal ya da t dağılımına bağlı olarak yapılan çıkarımlar hatalı olabilir.

Bu örnekte ölçümler birbirinden bağımsız görünüyor. Bağımsızlık, Örnek Soru: Verilen nitrat verilerinin bağımsız olup olmadığı hakkında ne diyebilirsiniz? Bu örnekte ölçümler birbirinden bağımsız görünüyor.

Bağımsızlık Çevresel veriler söz konusu olduğunda,- arıtma tesisi giriş çıkış konsantrasyonları , ırmaktaki su kalitesi değerleri gibi- bir ölçümün bir önceki ölçüm değerinden etkilenmemesi mümkün değildir. Çıkış kalitesi çok kötü ise bu bir süre devam edecektir. O nedenle bu tip verileri değerlendirirken otomatik olarak bağımsızdır varsayımı yapılmamalıdır.

İstatistiksel Dağılımlar

Normal Dağılım Deneysel hatalar yüzünden tekrar edilen ölçümler arasındaki fark genellikle merkezi bir değerin çevresinde çan eğrisi şeklinde simetrik ve küçük sapmaların büyük sapmalardan daha çok olduğu bir şekilde dağılır. Bu şekilde sürekli yığın frekans dağılımına “Gauss” ya da “normal” dağılım denir. Normal dağılımın Olasılık yoğunluğu fonksiyonu (PDF veya P(x)) aşağıdaki şekilde görülebilir.                                           N(ortalama,varyans) N(m,s2): N(52,144)

Standartlaştırılmış Normal Dağılım Standartlaştırılmış normal sapmalarla çalışmak daha kolaylık sağlar. (veri Standard sapma cinsinde yazılarak orijinal ölçüm birimlerinden bağımsız hale gelir.) z = (y-m)/s N(0,1) Normal Dağılım P(x) s ortalama değerden büküm noktasına olan uzaklık Ortalama değerden bir standartlık sapmayı geçen pozitif bir sapmanın olasılığı 0.1587 (0.00135+0.0214+0.1359) ya da 1/6, 2 s’yı geçme olasılığı 0.0228 (0.0135+0.0214) (1/40), 3 s’yı geçme olasılığı 0.0013 (1/750)

Örnek SORU 1: Standartlaştırılmış sapmanın 1.57’den büyük olma olasılığı kaçtır? (Z tablosunu ve Excel’i kullanarak bulun) P(x) z = 1.57 a = 0.0582 = % 5.82 (Tablodan) Excel’de, a = 1-Normsdağ(z) = 1-0.9418 = 0.0582 = %5.82

Örnek SORU 2: Verinin %10’unun üzerinde olacağı z değeri kaçtır? Eğrinin altındaki yeşille gösterilmiş alana karşılık gelen z değerine tablodan ( a = 0.1) bakılır. z = 1.28 (Excel’de, = normsters(1-olasılık) = normsters(0.90) = 1.28

t dağılımı (Student’s t) Herhangi bir normal değişkeni standartlaştırmak için m ve s’yı bilmemiz gerekir. z = (y-m)/s s = s t = (y-m)/s Ancak yığına ait standard sapma genellikle bilinmediğinden s yerine s kullanılması artıdan bir hata devreye sokacak ve dağılım da buna göre farklı olacaktır. İşte bu farklı dağılım 1906’da William S. Gossett tarafından bulundu ve 1908’de yayımlandı. İngiliz kimyacı Dublin’de bir bira fabrikasında çalışıyordu. Ticari sırları ortaya çıkarmamak için takma isim “Student” ile yayımlandı. O nedenle bu dağılım Student’s T dağılımı olarak bilinir.

t dağılımı (Student’s t) Student’s t dağılımının olasılık yoğunluk fonksiyonu PDF : y = test değeri G = gama fonksiyonu n = serbestlik derecesi

t dağılımı Eğer örneklem büyüklüğü sonsuz ise (N  ) t dağılımı normal dağılıma eşittir. Eğer örneklem büyüklüğü küçük ise kuyruklar daha yayılmış hale gelir ve t değerleri kullanılır. t tablosunu kullanırken serbestlik derecesi (n / sd) gerekir. (Tabloda df, degree of freedom) n = N-1

t Dağılım Tablosu df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005 1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588 7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079 8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413 9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809 10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869 11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208

t Dağılım Tablosu df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005 15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728 16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150 17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651 18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216 19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834 20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495 21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193 22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921 23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676 24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454 25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251 inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

Örnek 20 birimli bir örneklem için verinin %5’nin büyük olacağı t değeri kaçtır? Normal dağılımda karşılık gelen z değeri kaçtır? t = 1.724 (Tablo’dan). Excel’de =tters (2*olasılık;Serbestlik derecesi) = tters(0.1;19) = 1.729 z = 1.64 (Tablo’dan) Excel’de =normsters (1-olasılık) = normsters(0.95) = 1.64

Ortalama ve Varyansın (Değişkenin) Dağılımı Tüm istatistikler rastsal değişkenlerdir ve bir ortalama ile bir değişke değerine sahip bir olasılık dağılımı ile tanımlanabilirler. Ortalamanın örnekleme dağılımını incelemek için n birimli rastsal örneklemleri aldığımızı varsayalım ve her birinin ortalamasını hesaplayalım.

Ortalamanın Değişkesi Yığın N Bir çok farklı ortalama y değeri elde ederiz ve olasılık dağılımı şeklinde y dağılımını çizebiliriz. Bu ortalamanın örneklem dağılımını verir. Eğer gözlemlerin (y) ortalama civarındaki sapmaları rastsal ve bağımsızsa o zaman y¯’nin dağılımının ortalaması m ve değişkesi s2/n olacaktır. m,s2 n y¯4 n y¯3 n y¯1 n y¯2 sy örneklem ortalamasının (y¯) yığın ortalaması (m) civarındaki yayılımını verir. s ise örneklemdeki gözlemlerin (y) m civarındaki yayılımını verir. Ortalamanın varyansı: s2/n Ortalamanın standart hatası: s/√n ≈ s/√n

Ortalamanın Değişkesi Eğer ana dağılım normalse y¯’nin dağılımı da normal olacak, normal değilse y¯ dağılımı normale yakın olacaktır. Ortalamanın hesaplanmasında kullanılan birim sayısı (n) arttıkça y¯nin dağılımı normal dağılıma daha çok yaklaşır. Ortalaması m ve varyansı s2/n olan dağılımı referans dağılım gibi alıp y¯ hakkında y¯’nin belli bir sayıdan büyük ya da küçük olma ya da iki sayı arasında olma olasılığının değerlendirilmesi gibi istatistiksel çıkarımlar yapmamızı sağlar. Yığın N m,s2 n y¯3 n y¯1 n y¯2 n y¯4

Örnek 27 adet nitrat numune ölçümünün ortalaması 7.51 mg/l. s = 1.383. Ortalamanın standart hatası kaçtır? sy = s/ √n=0.266 mg/l Örneklemin ortalamasının değişkenliği, örneklemdeki gözlemlerin değişkenliğinden daha azdır.

Karşılaştırmalar Eğer yığın varyansı bilinmiyorsa, ki çoğunlukla böyledir, normal dağılımı karşılaştıracağımız referans dağılım olarak kullanamayız. Bunun yerine sy yerine sy’yi yerleştirip t dağılımını kullanırız. Örnek: Nitrat verisi (n=27) için y¯= 7.51 mg/l m = 8 mg/l. Eğer gerçek ortalama 8 mg/l ise 7.51 gibi düşük bir ölçüm ortalaması çıkma olasılığı nedir?

Örnek, devam Serbestlik derecesi 26, t değeri -1.842 için a değeri (yüzde) bulunabilir. t dağılımı m = 8 -3 -2 -1 0 1 2 3 -1.842 a =%4 a= 0.05 t = -1.706 a= 0.025 t = -2.056 a= 0.01 t = -2.479 Bu değerlerin ara-değerlemesi (interpolasyon) ile t = -1.842’e karşılık gelen a değeri 0.04 veya %4 bulunur. (Excel’de = TDAĞ(1.842;26;1) Yani 8 mg/l lik bir çözeltiden yollanan 27 ölçümün ortalamasının şans eseri 7.51 çıkma olasılığı %4 gibi küçük bir olasılıktır.

Örnek t dağılımı m = 8 -3 -2 -1 0 1 2 3 -1.842 a =%4 t referans dağılımı bir olayın sırf şans eseri olma olasılığını verir. Dağılımın kuyruk bölgesine düşen bir olay sıradışı olarak düşünülebilir. Eğer olay sıradışı bulunmuyorsa buna “istatistiksel olarak anlamlı” denir. Nitrat ölçümlerin göz önüne alırsak ölçüm işleminin gerçek değeri altında değerler verecek şekilde sistemli bir hataya, yanlılığa sahip olduğu söylenebilir. Ya da yanlılık değil de tamamen şans eseri öyle olduğunu kabul edebiliriz.

Anlamlılık Testleri ve Güvenlik Aralığı İstatistiksel tümevarım: Bilinmeyen yığın parametreleri hakkında deneysel veriye dayanarak değerlendirme yapmak Diyelim ki gerçek yığın ortalamasının değerini bilmiyoruz. Eğer nitrat numunesi ölçümlerinin ortalamasını 7.51 bulduysak, yığının gerçek ortalamasının 8.00 mg/l olma olasılığı nedir? Bu değerlendirme için anlamlılık testleri ve güvenlik aralığı kullanılan en yaygın iki metottur.

Anlamlılık Testleri 1. Hipotez testi şeklinde olur: Hipotez testi için bir “sıfır hipotezi”, bir “alternatif hipotez” ve bir de testin sonucunun belirleneceği anlamlılık düzeyi değeri (a) ‘ya ihtiyaç vardır. Test edilecek hipotez: Ho : m = 8 mg/l Ho “sıfır hipotezi” veya “geçersizlik” hipotezi diye adlandırılır. Ha :m<8 veya m>8 (tek yönlü) veya Ha: m≠8 (çift yönlü) H: “alternatif hipotez” Anlamlılık düzeyi: 0.05 (sıfır hipotezinin yanlışlıkla reddedilme riski)

1. Hipotez Testleri, Örnek Nitrat ölçüm sonuçları için ortalamanın 8.0 mg/l olduğunu a =0.05 düzeyinde test edin. Çözüm: Ho=m=8 mg/l Ha=m<8 mg/l (tek yönlü test) a=0.05 Hesaplanan t, a=0.05 yani %5 olma olasılığı olan t istatistiğinden küçükse, Sıfır hipotezi reddedilecektir. Serbestlik derecesi 26 için bu kritik t değeri tablodan veya Excel’de bulunur. tk=t(26,0.05)=-1.706 (excel’de =tters(0.10;26)) t<tk .

Hipotez Testleri, Örnek t<tk . -1.842<-1.706. Bu durumda alternatif hipotez lehine sıfır hipotezi reddedilir. Yani ortalamasının 7.51 bulunduğu nitrat ölçümlerinin ait olduğu yığının ortalamasının %5 riskle, 8 olmadığını söyleyebiliriz. t dağılımı m = 8 -3 -2 -1 0 1 2 3 tk-1.706 a =%5 Hesaplanan t=-1.842

Çift Yönlü Test Ho : m = 8 mg/l Ha : m ≠ 8 mg/l (çift yönlü test) Bu durumda t referans dağılımının hem negatif hem de pozitif kuyruk alanları dikkate alınır. Simetriden dolayı bu kuyruk alanları birbirine eşittir. 0.05/2 = 0.025. Serbestlik derecesi 26 için kritik t değeri tablodan bulunur. tk=t(26,0.025)=±2.056 (excel’de =tters(0.05;26)) t = ±1.842 t>tk (-1.842>-2.056). Sıfır hipotezini reddetmek için yeterli kanıt yok.

Tek Yönlü Çift Yönlü t dağılımı m = 8 -3 -2 -1 0 1 2 3 a =%5 -3 -2 -1 0 1 2 3 tk-1.706 a =%5 t dağılımı m = 8 -3 -2 -1 0 1 2 3 tk-2.056 a =%2.5 Tek ve çift yönlü hipotez testleri sonuçları farklı çıkarımlar doğurdu, aynı ortalama, aynı veri, aynı anlamlılık düzeyi ve aynı sıfır hipotezi kullanılmasına rağmen. Tek fark alternatif hipotezdi, Ha. İstatistiksel olarak sıfır hipotezini reddetmek için için y- ile m arasındaki sapma çift yönlü testte tek yönlü teste göre daha fazla olmalıdır. SORU: HANGİ TESTİ KULLANMALIYIZ?

Hangi Test? Genel olarak bir yanıtı yoktur. Problemin içeriği hangi testin kullanılması gerektiğini belirler. Örneğin eğer pozitif sapma bir sorun ama negatif sapma sorun değilse tek yönlü test kullanılır. Örneğin yüksek değerler kanuna uygunluğu ihlal etmek demek olduğu bir durumda uygunluğunu değerlendirmek ya da verimliliği artırılması bir A maddesi eklediğinizdeki durumu değerlendirmek için tek yönlü test diğer taraftan örneğin A maddesinin verimliliği değiştirip değiştirmediğine bakmak isterseniz çift yönlü testi kullanabilirsiniz.

2. Güvenilirlik Aralığı Genellikle parametre değerinin hangi değerler arasında kalacağını belirtmek daha bilgilendiricidir. a = 0.05 ise, yukarıdaki ifade bize gerçek değerin %95 ihtimalle güvenilirlik aralığı içinde olduğunu gösterir.

Örnek Nitrat ölçümleri için %95’lik güvenlik aralığını hesaplayın. m=8 mg/l a=0.05 n=27 v=26 t(26,0.025)=-2.056 t dağılımı a =%2.5 6.96 < m < 8.05 8 mg/l bu aralığın içinde. tk-2.056 7.0 7.25 7.5 7.75 8.0

Özet Yığın: m,s,s2 Örneklem, y¯,s Yığının parametreleri örneklemden elde edilen istatistikler yardımıyla hesaplanır. İstatistikler rastsal değişkenlerdir ve ortalaması ve varyansı olan bir olasılık dağılımına sahiptirler. Tüm deneyler ölçüm hatasına sahiptirler. Doğruluk hem yanlılığın hem de hassaslığın bir fonksiyonudur. Bilimsel araştırmalarda istatistiğin görevi hatayı nicelendirmek ve karar vermek üzere veri kullanıldığında hatayı göz önüne almaktır.

Özet Eğer normal ana dağılımın ortalaması m, varyansı s2 ise örneklem ortalaması y¯, ortalaması m ve varyansı s2 /n olan normal bir dağılıma sahiptir. s2 bilinmiyorsa s2 ile tahmin edilir ve t dağılımı kullanılır. Hipotez testleri istatistiksel tümevarım için kullanılan bir yöntem olmakla birlikte basit bir karşılaştırmayı bile gereksiz yere karmaşıklaştırırlar. Güvenilirlik aralığı istatistiksel olarak hipotez testlerinin karşılığı olup daha basit ve anlaşılırdır. Yığın parametresinin düşmesi gereken aralığı verir.