İstatistiksel Yöntemlerin Tıp Alanında Kullanımına Yönelik Eğitim Biyoistatistik-2 İstatistiksel Yöntemlerin Tıp Alanında Kullanımına Yönelik Eğitim Doç.Dr. Cem S. Sütçü Marmara Üniversitesi İletişim Fakültesi Bilişim A.B.D. csutcu@marmara.edu.tr
Temel Kavramlar Veri kelimesi Latince’de “gerçek”, “reel” anlamına gelen “datum” kelimesine karşılık gelmektedir. “Data” olarak kullanılan kelime ise “datum” kelimesinin çoğuludur. Her ne kadar kelime anlamı olarak gerçeklik temel alınsa da her veri mutlaka somut gerçeklik göstermez. Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir.
Temel Kavramlar Enformasyon (Information), veri kavramının tanımından yola çıkıldığında, piramiddeki ikinci basamaktır. Yani verilerin ilişkilendirilmiş, düzenlenmiş, işlenmiş halidir. Bu haliyle enformasyon, potansiyel olarak içinde bilgi barından bir veri halindedir. Bilgi (Knowledge), bu süreçteki üçüncü aşamadır. Enformasyonun alıcı için taşıdığı anlamdır. Diğer bir deyişle alıcının bir fonksiyonudur. Enformasyonun, bilgiye dönüşmesi, bireyin onu algılaması, özümsemesi ve sonuç çıkarmasıyla gerçekleşir. Dolayısıyla bireyin algılama yeteneği, yaratıcılık, deneyim gibi kişisel nitelikleri de bu süreci doğrudan etkilemektedir. Bilgelik (Wisdom) ulaşılmaya çalışılan noktadır ve bu kavramların zirvesinde yer alır. Bilgilerin kişi tarafından toplanıp bir sentez haline getirilmesiyle ortaya çıkan bir olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır. Veri, oldukça esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş, ham haldeki kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş, düzenlenmemiş yani anlamlandırılmamışlardır. Ancak bu durum her zaman geçerli değildir. İşlenerek farklı bir boyut kazanan bir veri, daha sonra bu haliyle kullanılmak üzere kayıt altına alındığında, farklı bir amaç için veri halini koruyacaktır. BİLGELİK BİLGİ ENFORMASYON VERİ
Bilimsel Araştırma Ho: Sıfır Hipotezi H1: Alternatif Hipotez Araştırma yapmadan önce en temel olan, araştırılacak bir sorunun (bir hipotezin) varlığıdır. Ho: Sıfır Hipotezi H1: Alternatif Hipotez
Bilimsel Araştırma Daha sonra bu sorunun ne kadar anlam taşıdığı, yani olası cevabın diğer hangi yeni soruları ve araştırmaları gündeme getireceği, pratik kullanım alanlarının neler olduğu, bilgi birikimine (knowledge) ne kadar katkıda bulunacağı, aynı hipotezin daha önce yeterli derecede araştırılıp araştırılmadığı, bulunan sonuçların tutarlılığı gibi sorular gündeme getirilmelidir.
Bilimsel Araştırma Bilimsel bir merak ve bu merakın tatmini, söz konusu soruların yeterince cevaplanamadığı durumlarda günümüzde artık destek bulmamakta ve yayımlanma şansını zorlukla yakalayabilmektedir.
Bilimsel Araştırma Bundan sonraki aşama ise soru/hipotezin nasıl test edileceğidir. Kullanılacak yöntemin bilimsel (yani tekrar test edilebilir, diğer araştırmacılar ve klinisyenler tarafından anlaşılabilir, matematiksel geçerliliği mutabık olunan istatistiksel yöntemlerle incelenmiş) olması gereklidir.
Bilimsel Araştırma Araştırmanın nasıl yapılacağı (uygun finansal destek, denek sayısı, ortam, vs.) daha sonra sorulacak bir sorudur. Yani araştırma sorusunun bilimsel olarak geçerli bir yöntemle nasıl test edileceği sorusunun cevabı aranmadan başlanan çalışmalar pek çok açıdan sıkıntılarla karşılaşacaktır.
Bilimsel Araştırma Bu sıkıntılara örnek olarak; seçilen anket/ görüşme yöntemi/ labaratuar testi/ ilaç dozu vs. sonradan değiştirilmesi, çalışma deseninin bozulması (yeniden başlama), denek sayısı ve/veya finans desteğinin yetmemesi, tanıların yanlış konması, sonuçlara etki eden kofaktörlerin unutulması, eksik data toplanması, zaman ve motivasyon kaybı, araştırmanın bitmemesi ve asla yayımlanmaması vs. sayılabilir.
Bilimsel Araştırma Öncelikle yapılması gereken değişkenlerimizin tanımlanmasıdır. Bilimsel düşüncenin temelinde neden-sonuç ilişkisi yatar. Neredeyse tüm bilimsel araştırmalar da bu ilişkiyi inceler. Sonuç yani bağımlı değişken pek çok faktörden (bağımsız değişken) etkilenir.
Bilimsel Araştırma İdeal araştırma, araştırdığı faktörler dışındaki değişkenlerin sabit tutulduğu araştırmadır. Fakat bunu gerçekleştirmek imkansızdır. Bu sebeple ideale en yakın araştırma incelediği faktörler dışındaki değişkenleri mümkün olduğunca hesaba katar. Araştırmalarda faktör (bağımsız değişken) sayısı arttıkça denek sayısının artması gerekir ve kullanılan istatistiksel yöntem değişir.
İstatistik İstatistik, verilerin toplanması, organize edilmesi, özetlenmesi, sunulması, analiz edilmesi ve bu verilerden bir sonuca varılabilmesi ile ilgili olarak kullanılan bilimsel metodlar topluluğudur.
İstatistik Uygun istatistik yöntemin seçilmesi için değişkenlerin ölçüm özellikleri iyi belirlemek gerekir. Kategorik değişkenlere, sayısal değişkenlerde uygulanabilecek istatistik yöntemleri uygulamak gibi hatalara düşmemek için, bu özellik çok önemlidir.
Ölçekler İsimsel, Kalitatif (Nominal) Ölçekler Sıralı (Ordinal) Ölçekler Aralık (Interval) Ölçekler Oransal (Ratio) Ölçekler
İstatistiksel Yöntemler Betimsel (Tanımsal) İstatistik Yöntemleri Merkezi Eğilim Ölçüleri Dağılım (Değişim) Ölçüleri Çıkarımsal İstatistik Yöntemleri Farkların önemli olup olmadığının incelendiği teknikler (Parametrik ve Nonparametrik Testler). İlişki saptama ve eldeki verilerin kestirim yapabilme gücünü test eden teknikler (Regresyon ve Korelasyon Analizi).
UYGUN İSTATİSTİKSEL ANALİZ YÖNTEMİNİN SEÇİMİ Bu aşamaya gelmeden; Araştırma soru/hipotezimiz var. Araştırma hipotezi bilimsel bir anlam ve değer taşıyor. Daha önceki literatür bilgileri incelenmiş, sorunun cevabı araştırılmamış ya da yeterince aydınlatılamamışsa; Şu soruların cevapları aranmalıdır: Araştırma bir farklılık araştırması mı yoksa bir ilişkisellik araştırması mı olacaktır? Verilerin ölçekleri ne türdedir? Çalışmada kaç hasta/denek grubu vardır? Bağımsız değişkenlerimiz (faktörlerimiz) bir tane mi yoksa daha fazla mıdır? Veri gruplarımız bağımlı (grup içi/repeated) mı yoksa bağımsız mıdır? Sayısal verilerin dağılımı normal midir?
Merkezi Eğilim Ölçüleri Aritmetik Ortalama: Değerlerin toplamının denek sayısına bölünmesiyle elde edilir. Sayısal değişkenler için merkezi eğilim ölçütüdür. Ordinal değişkenler için kullanılamaz. Aşırı değerlerden etkilenir. Uç değerleri değerlendirme dışı tutan ya da uç değerlere daha az ağırlık veren kareli ortalama veya geometrik ortalama uç değerlerin etkisini azaltmak için kullanılabilir. Ortanca =Orta değer=Median: Küçükten büyüğe ya da büyükten küçüğe doğru sıralandığında, tam ortadaki deneğin değeridir. Denek sayısı çiftse, ortadaki iki deneğin ortalamaları alınır. Ordinal veriler için en iyi merkezi dağılım ölçütüdür. Aşırı değerlerden etkilenmez. Nominal değerler için uygun değildir. Tepe değeri = Mod: Değişkenler içinde en fazla görülen, en çok tekrarlanan değerdir. Tıpta nadir kullanılan bir merkezi eğilim ölçütüdür. Ordinal ve sayısal değişkenlerde kaba bir merkezi eğilim ölçütü olarak kullanılabilir. Nominal veriler için uygun bir merkezi eğilim ölçütüdür.
Dağılım (Değişim) Ölçüleri Farklı grupların merkezi eğilim ölçütleri aynı olduğu halde, gruplar birbirlerinden çok farklı olabilir. Bu nedenle merkezi eğilim ölçütleri yanında, yayılma ölçütleri de çok önemlidir. Değer aralığı = Genişlik = Range: En basit yaygınlık ölçüsüdür. En küçük ve en büyük değer arasındaki farktır. Örnek büyüklüğü ile artma eğilimi vardır. Ortalama gibi, uç değerlerden çok etkilenir. En uçtaki iki değer arasında kalan değerler hakkında bilgi vermez. Standart sapma ve varyans : Tüm değerlerin dağılımı ile bilgi verirler. Tüm değerler eşitse, her ikisi de sıfıra eşittir. Değerler arasında farklar arttıkça standart sapma (Ss) ve varyans büyür. Standart sapma değişken değerlerinin ortalamanın etrafındaki yayılmasını temsil eden bir yayılma ölçütüdür. Ss’ nın karesine varyans adı verilir. Merkezi eğilim ölçütü olarak ortalama kullanıldığında, yayılma ölçütü olarak da standart sapma kullanılır. Dağılım özelliği ne olursa olsun, değerlerin en az % 75’i ortalama ± 2Ss içinde yer alır. Normal dağılım gösteren değişken değerleri için aşağıdaki kurallar geçerlidir : 1. Değerlerin % 67’si ortalama ± 1 Ss içindedir. 2. Değerlerin % 95’i ortalama ± 2 Ss içindedir. 3. Değerlerin % 99’u ortalama ± 3 Ss içindedir.
Dağılım (Değişim) Ölçüleri Standart hata: Aynı evrenden seçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklemlerin ortalamalarının dağılmasına ortalamanın örneklem dağılımı denir. Ortalamanın örneklem dağılımının ölçütü ortalamanın standart hatası (standard error of mean = SEM)’ dır. Çalışmaya alınan örneklemin dağılma özellikleri verilmek isteniyorsa, doğru olanı Ss’nın verilmesidir. Çünkü, SEM örneklemdeki deneklerin dağılması ile ilgili olmadığı için, çalışma grubunun değişkenliğini göstermez. Çalışma gruplarındaki ortalamaların karşılaştırıldığı grafiklerde ise SEM kullanılması daha doğrudur. Değişim katsayısı [coefficient of variation (CV)]: Birimleri farklı olan değişkenlerin yayılmalarını karşılaştırmak için değişim katsayıları kullanılır. Değişim katsayısı, standart sapmanın ortalamaya oranının yüzde olarak ifadesidir.
Grafiksel Gösterimler Histogramlar Eğiklik (Skewness) Basıklık (Kurtosis)
Neden Örnekleme Anakütledeki tüm elemanları kontrol etmenin fiziksel zorluğu. Tüm anakütleyi kapsamanın uzun zaman alması. Anakütledeki tüm elemanları incelemenin maliyeti. Pek çok durumda örnek sonuçlarının yeterli bulunması. Bazı testlerin yokedici özelliği olması.
Olasılık örneklemesi ya da sondaj bir ana kütlenin her biriminin belirli bir olasılıkla örneğe dahil olabileceği bir örnekleme planıdır. Basit Tesadüfi Örnekleme Anakütleden örnek kütleye seçilecek her elemanın eşit şansa sahip olması durumudur. Sistematik Tesadüfi Örnekleme Anakütledeki elemanlar belirli bir sırada dizilir. Tesadüfi bir başlangıç noktası seçilir ve sonra her k’ıncı eleman örnek kütleye seçilir.
Tabakalı Tesadüfi Örnekleme: Anakütle önce ortak özelliklere sahip altgruplara bölünür. Bunlara tabaka denir. Sonra herbir tabakadan bir örnek kütle seçilir.
Küme Örneklemesi: Önce anakütle temel birimlere bölünür Küme Örneklemesi: Önce anakütle temel birimlere bölünür. Sonra örnekler bu temel birimlerden seçilir. Her birimden eleman seçmek şart değildir.
Tesdüfi olmatan örneklemede bir elemanın örneğe seçilmesi örneği seçen kişinin kararına bağlıdır. Örneklem hatası örnek istatistiği ile ona karşılık gelen anakütle parametresi arasındaki farktır. Örnek ortalamalarının örneklem dağılımı bir anakütleden seçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklerin ortalamalarının dağılımıdır. Ortalamanın örneklem dağılımı da denir.
Standart Hata s x s n s n s x Örnek ortalamalarının örneklem dağılımının ölçütü, ortalamanın standart hatası (standard error of mean = SEM)’ dır. s x = s n s n veya eğer n >30 ise s x = SEM, Ss’nın denek sayısının kareköküne bölümüne eşittir. Ör. Ort = 15, Ss = 3.5, n = 50, SEM = 0.5 ise deneklerin % 95’inin yayılımı 15 ± 2SD = 8 – 22, evrenden seçilecek 50 denekli örneklemin % 95’inin ortalamaları 15 ± 2SEM = 14 – 16 olacaktır.
Güven Aralığı Eğer anakütle standart sapması biliniyor veya örnek kütle çapı 30 dan büyükse, örnekleme dağılımı z dağılımına uygundur. Eğer anakütle standart sapması bilinmiyor ve anakütle dağılımı normale yakınsa ve örnek kütle çapı 30 dan küçükse, örnekleme dağılımı t dağılımına uygundur.
Anakütle Ortalaması için güven aralığı Anakütle ortalaması için % 95 CI Anakütle ortalaması için % 99 CI
Güven aralığı limitleri 12.88 ile 15.12 arasındadır. 49 kişi üzerinde yapılan bir araştırmada hastaların tedavi sonrası ESR (Eriythrocyte Sedimentation Rate) değerlerinin 14 ve standart sapmasının da 4 olduğu bulunmuştur. %95 olasılıkla Anakütle ortalaması kaçtır? Güven aralığı limitleri 12.88 ile 15.12 arasındadır.
Anakütle oranı için güven aralığı 60 yaşın üstünde 500 kişilik bir örnek üzerinde üzerinde yapılan bir taramada 175 kişinin daha önce kalp krizi geçirdiği tespit edilmiştir. %98 olasılıkla kalp krizi geçirenlerin anakütle ortalamasının hangi aralıkta bulunabileceğini belirleyiniz.
Örnek çapını belirleyen 3 faktör: Seçilen güven düzeyi İzin verilen maksimum hata Anakütledeki değişim
Örnek çapının hesaplanması E İzin verilen hata z seçilen güven düzeyine karşılık gelen z değeri s pilot araştırmanın örnek standart sapması
Arthiritis için antibiyotik tedavisinin ortalama 70 gün sürdüğün ve standart sapmanın da 20 gün olduğu bilinmektedir. 5 günlük bir hata miktarını göze alarak %99 olasılıkla ortalama tedavi süresi tahmin edilmek istenirse ne kadar büyüklükte bir örnek çapı gerekir?
Elimizde olasılık değerleri varsa kullanılacak formül: p geçmişteki tecrübelere veya pilot çalışmaya göre kestirilen olasılık değeri Z seçilen güven düzeyine karşılık gelen z değeri E Araştırmacının tolerans gösterebileceği maksimum hata
Diabet hastalığı bulunanların ailelerinde başka bir diabetli hasta bulunması olasılığı %90 olduğu önceki çalışmalardan bilinmektedir. Kestirimimizi anakütle oranına göre %3 yanılma payı ile hesaplamayı kabul ederek, %95 güven düzeyinde kaç kişilik bir örnek kütle seçmek gerektiğini hesaplayınız.
Birinci Adım: Örnek çapını önceden yaptığınız gibi hesaplayın. Eğer anakütlede örnek çapı hesaplamasının gerektirdiğinden daha az denek olursa ne yapacağız? Birinci Adım: Örnek çapını önceden yaptığınız gibi hesaplayın. no İkinci Adım: Yeni örnek çapını hesaplayın. n = no N 1 + no birinci adımda hesaplanan örnek çapı.
Bir denetimci bir hastanede bulunan doktorların Toplam Kalite Yönetim Sistemi kurallarına uyup uymadıklarını araştırmak istemektedir. Denetçi, doktorların %80’inin kurallara uyduklarını söyleyeceğini beklemektedir. Hastanede 200 doktor bulunmaktadır. Denetçi sonuçlardan %95 emin olmak istemektedir. Hata marjının da %3 ten fazla olmamasını istemektedir. Araştırma için denetçi kaç doktor ile görüşmelidir?
Birinci Adım İkinci Adım no n = 1 + Örnek çapını önceden yaptığınız gibi hesaplayın. 2 1.96 .03 = (.80)(.20) = 683 İkinci Adım Yeni örnek çapını hesaplayın. no 683 n = = = 155 683 200 1 + no N 1 +
Örnek kütleden alınan delillere ve olasılık teorisine dayanarak Hipotez Testleri Örnek kütleden alınan delillere ve olasılık teorisine dayanarak ya bir hipotezin doğru bir ifade olduğunu ve reddedilmemesi gerektiğini veya doğru bir ifade olmadığını ve reddedilmesi gerektiğini belirlemek için yapılan testlerdir.
Adım 1: Sıfır ve alternatif hipotezleri belirleyin Adım 2: Anlam Düzeyini belirleyin Adım 3: Test istatistiğini belirleyin (t, z, F gibi) Adım 4: Bir karar kuralı belirleyin (kritik değer) Adım 5: Bir örnek kütle belirleyin, bir karara varın H0 hipotezini reddetme H0 hip. reddet ve H1 hip. kabul et
Anakütle parametresi hakkında bir ifade Hipotezler H0 hipotezi Anakütle parametresi hakkında bir ifade Alternatif hipotez H1: Örnek kütlenin, sıfır hipotezin yanlış olduğuna dair delil sağlaması durumunda kabul edilen ifade Anlam düzeyi Gerçekte doğru olan sıfır hipotezinin reddedilme olasılığı; yani bunun riski.
Hiptezler üç farklı şekilde kurulabilir. H0: m = 0 H1: m = 0 Hiptezler üç farklı şekilde kurulabilir. Sıfır hipotezinde daima eşitlik sözkonusudur. H0: m < 0 H1: m > 0 H0: m > 0 H1: m < 0
Risk Tablosu Araştırmacı Sıfır Kabul Red Hipotezi Ho Ho Ho doğru Ho yanlış Doğru karar Tip I hatası (a) Tip II Hatası (b)
Sıfır hipotezinin doğru olduğu kabul edildiğinde, en az test için hesaplanan değer (kritik değer) kadar büyük bir değer bulma olasılığıdır. p-Değeri Karar Kuralı Eğer p-değeri, anlamlılık düzeyi olan a dan daha büyük ya da ona eşitse H0 reddedilmez. Eğer p-değeri anlamlılık düzeyi olan a dan daha küçükse H0 reddedilir.
P değerlerinin anlamları Ho‘ın doğru olmadığına dair BAZI deliller var. Ho‘ın doğru olmadığına dair GÜÇLÜ deliller var. Ho‘ın doğru olmadığına dair ÇOK GÜÇLÜ deliller var.
Bu teknik varyans analizi veya ANOVA olarak adlandırılır. ANOVA Testi Bu testte iki ya da daha fazla örnek ortalamasının aynı veya eşit anakütleden gelip gelmediği incelenir. Bu teknik varyans analizi veya ANOVA olarak adlandırılır. Sıfır hipotezi ve alternatif hipotez şu şekilde oluşturulur: Ho: m1 = m2 = m3 = m4 H1: m1 = m2 = m3 = m4
ANOVA şu şartları gerektirir Örneklem alınan anakütleler normal dağılıma sahiptir. Örnekler bağımsızdır. Anakütleler eşit standart sapmalara sahiptir.
Tek-Yönlü ANOVA
i stands for the ith observation xG is the overall or grand mean ANOVA Table Source of Variation Sum of Squares Degrees of Freedom Mean Square F Treatments (k) SST k Snk(Xk-XG)2 k-1 SST/(k-1) =MST MST MSE Error SSE i k SS(Xi.k-Xk)2 n-k SSE/(n-k) =MSE Total TSS i S(Xi-XG)2 n-1 ANOVA divides the Total Variation into the variation due to the treatment, Treatment Variation, and to the error component, Random Variation. In the following table, i stands for the ith observation xG is the overall or grand mean k is the number of treatment groups Treatment variation Random variation Total variation
Çift-Yönlü ANOVA
Repeated Measures ANOVA Üç ayrı zamanda ölçülmüş tedavi değerleri var
Tedaviyi dependent var. Zamanı fixed factor olarak seçin Tedaviyi dependent var. Zamanı fixed factor olarak seçin. Post hoc tuşuna basın
Zaman faktörünü seçip ortadaki oka basın
LSD yi işaretleyip Continue tuşuna basın. Sonra OK LSD yi işaretleyip Continue tuşuna basın. Sonra OK. Sonuçlara bakabilirsiniz
benim verilerde Zaman grupları arasında Fark çıkmadı. P=0.130 Anlamlı fark olsaydı p değerleri 0.05 den küşük olacaktı
Parametrik Olmayan Testler Kullanım Yeri Özelliği Ki-Kare Nominal ölçekte İki bağımsız örnek kütle Değişkenler arasında bağımlılık test eder Mann-Whitney U (Wilcoxon rank-sum test) Sıralı ölçekte İki bağımsız örnek kütle İki bağımsız örnek kütle için t-testinin alternatifidir Wilcoxon İşaret Testi Sıralı ölçekte İki bağımlı örnek kütle İki eşli (paired) örnek kütle için t-testinin alternatifidir Kruskal-Wallis H Sıralı ölçekte İkiden fazla bağımsız örnek kütle Tek yönlü varyans analizinin alternatifidir Friedman Sıralı ölçekte İkiden fazla bağımlı örnek kütle Çift yönlü varyans analizinin alternatifidir Kolmogorov-Smirnov Z Mann-Whitney U testinden daha güçlüdür
Ki-Kare Testi Üç Farklı antibiyotiğin kadınlarda cystitis’in tedavisinde etkin olup olmadığının belirlenmesi için yapılan Ki-kare testinin sonuçlarını yorumlayınız. (data153.xls)
Mann-Whitney U Testi 16 Carcinoid Kalp hastası olan ve 12 Carsinoid Kalp hastası olmayan kişiden alınan 5HIAA urinary excretions değerleri arasında anlamlı bir fark olup olmadığını test ediniz. (data117.xls)
Wilcoxon İşaret Testi İki hemşireden 10 ameliyat hastasının, “hasta bakım zorluk düzeyine” göre sıralamasını istediğimizde hemşirelerin sıralamaların arasında fark olup olmadığını test edelim. (data178.xls)
Kruskal-Wallis H Testi Hasta ve kontrol gruplarındaki 36 kişinin farklı choline acetyltransferase düzeylerine sahip olup olmadıklarını test edelim (data140.xls) K-W testi ANOVA gibi hangi gruplar arasında fark olduğunu öyleyemez. Gruplar arasındaki farka bakmak için Mann-Whitney testi kullanılır.
Friedman Testi Genç ve Yaşlı Hasta ve kontrol gruplarındaki 24 kişinin farklı choline acetyltransferase düzeylerine sahip olup olmadıklarını test edelim (data141.xls)
Kolmogorov-Simirnov Z Testi Perioperative Parenteral Nutrition tedavi yönteminde komplikasyon sayılarının hasta ve kontrol grubunda farklılık gösterip göstermediğini test ediniz. (data223.xls)
Korelasyon analizi iki değişen arasındaki ilişkinin ölçmek için yapılır Serpilme Diyagramı incelenen iki değişken arasındaki ilişkinin durumunu grafiksel olarak gösterir. Bağımlı Değişken kestirilmeye (estimation) veya tahmin edilmeye (prediction) çalışılan değişkendir. Bağımsız değişken kestirim için temel oluşturur. Tahmin edici değişkendir.
Sıfıra yakın değerler zayıf ilişkiyi gösterir. Korelasyon Katsayısı (r) iki değişken arasındaki ilişkinin bir ölçüsüdür. Pearson’s r olarak da adlandırılır. Aralık veya oran ölçeğine sahip veriler için kullanılır.Sıralı ölçeğer sahip veriler için ise Spearman rho değeri kullanılır. -1<=r<=1 -1.00 ve 1.00 değerleri güçlü ve mükemmel ilişkiyi gösterir. Negatif değerler negatif ilişkiyi, pozitif değerler de aynı yönde ilişkiyi ifade eder. Sıfıra yakın değerler zayıf ilişkiyi gösterir.
10 9 8 7 6 5 4 3 2 1 Y 0 1 2 3 4 5 6 7 8 9 10 X Pozitif korelasyon
10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 X Negatif Korelasyon
10 9 8 7 6 5 4 3 2 1 Y 0 1 2 3 4 5 6 7 8 9 10 X Sıfır Korelasyon
Örnek: Kilo ile yaş arasında anlamlı bir ilişki var mıdır Örnek: Kilo ile yaş arasında anlamlı bir ilişki var mıdır? %95 anlam düzeyinde test ediniz.
Örnek: Patalojik tümör büyüklüğü ile süre (ay) arasında anlamlı bir ilişki var mıdır? %95 anlam düzeyinde test ediniz.
Doğrusal Regresyon Doğrusal regresyon, bir bağımlı değişkenin değerini, bir veya daha fazla bağımsız değişken ile olan ilişkisine bağlı olarak belirleyen bir model oluşturmak amacıyla kullanılır.
Doğrusal regresyon modeli bağımlı değişken ile bağımsız değişkenler arasında “doğrusal çizgi” ile ifade edilebilecek bir ilişki olduğunu kabul eder. Bu ilişki aşağıdaki formülle gösterilir: Bu model doğrusaldır, çünkü bağımsız değişkenlerin birindeki (örneğin x2) 1 birim artış bağımlı değişkenin değerinin b2 kadar artmasına sebep olur.
Belirlilik Katsayısı (coefficient of determination r2) bağımlı değişkende meydana gelen toplam değişimin, bağımsız değişkenlerin sebep olduğu veya bunlar tarafından açıklanan oranıdır. Korelasyon katsayısının karesidir. 0 ile 1 arasında değer alır. Değişkenler arasındaki ilişkinin yönü hakında herhangi bir bilgi vermez. Tahminin Standart Hatası (Standard Error of Estimate) gerçek değerlerin regresyon doğrusu etrafındaki dağılımlarını gösterir. Çoklu Tahminin Standart Hatası (Multiple Standard Error of Estimate) regresyon modelinin etkinliğini göserir.
Collinearity Collinearity (multicollinearity - çoklubağımlılık) istenen bir durum değildir. Bağımsız değişkenler arasında doğrusal ilişki olduğu zaman ortaya çıkar. Artık değer (residual) gerçek Y değeri ile onun tahmini olan Y’ arasındaki farktır.
Örnek: Body Mass Index değeri ile ağırlık, cinsiyet, diabet durumu, ve yaş değişkenleri arasında bir ilişki var mıdır? Bu ilişkinin durumunu gösteren bir regresyon modeli oluşturulabilir mi?
ANOVA tablosunda anlamlı bir F değerinin bulunması oluşturulan modelin anakütle ortalamasını tahmin etmekten daha iyi olduğunu gösterir.
When the tolerances are close to 0, there is high multicollinearity and the standard error of the regression coefficients will be inflated. A variance inflation factor (VIF) greater than 2 is usually considered problematic. Beta nın mutlak değeri o değişkenin modele katkısını göterir. Values greater than 15 indicate a possible problem with collinearity; greater than 30, a serious problem.