İstanbul Medipol Üniversitesi Biyoistatistik I Doç. Dr. Hanefi Özbek İstanbul Medipol Üniversitesi Tıp Fakültesi Farmakoloji AD
İstatistik İstatistik: Bir araştırmanın bilimsel ilkelere göre düzenlenmesini (dizayn edilmesini), Araştırmayla ilgili verilerin usûlüne uygun olarak toplanmasını, Bu verilerin probabilite (olasılık, ihtimal) ilkelerine göre objektif bir şekilde değerlendirilmesini sağlayan bilim dalıdır.
Bilimsel araştırma ve istatistik 1986’da 30 dergi üzerinde yapılan bir araştırmada 4.200 makale incelenmiştir: Dergiler arasında JAMA, The Lancet, British Medical Journal gibi dergiler de bulunmaktadır. Bu makalelerin % 20’sinde: çalışma düzeni ve istatistiğin geçerli olduğu saptanmıştır. Çalışma grupları arasında istatistiksel olarak anlamlı fark bulunması oranı % 25’tir. Bu makalelerin % 80’sinde: çalışma düzeni ve istatistiğin geçersiz olduğu saptanmıştır. Çalışma grupları arasında istatistiksel olarak anlamlı fark bulunması oranı % 80’dir.
Bilimsel araştırma ve istatistik İstatistik gerekli midir? Araştırma sonucu elde edilen verilerin tüm bilim çevrelerinde kabul görmesi için: çalışma düzeninin (dizayn), verilerin işlenmesinin (değerlendirme) varılan sonuçların, sonuçların sunumunun Herkesin kabul ettiği geçerli bir standartta olması gerekir. Bilimsel araştırmaları geçerli bir standartta planlamak ve elde edilen verileri değerlendirmek, istatistikle mümkün olmaktadır.
Bilimsel araştırma ve istatistik Araştırmaların istatistik esaslarına göre optimum düzeyde düzenlenmesi ve değerlendirilmesi için: Araştırmacıların biraz istatistik bilmesi, İstatistikçilerin de biraz olsun ilgili alana yakın olması gerekmektedir.
İstatistik niçin kullanılmalıdır? İstatistiğin en büyük uğraşısı; örneklem (denekler, evreni temsil ettiğine inanılan topluluk) üzerinde inceleme yaparak, evren (toplum, popülasyon) hakkında tahminlerde bulunmaya çalışmaktır. Tüm evreni araştırmak zaman ve ekonomik yönden genelde imkânsızdır. Bu durumda toplumdan çekilecek az sayıda örneklemle evreni tahmin etmek zamandan tasarruf sağlar ve daha ekonomiktir.
Tanımlar İstatistik konu olarak ikiye ayrılır: 1. Tanımlayıcı istatistik, 2. Çıkarımsal (analitik) istatistik.
Tanımlar 1. Tanımlayıcı istatistik: Verilerin sınıflandırılması, Verilerin frekans dağılımlarının yapılması, Verilerin ortalama, standart sapma, medyan, mod gibi ölçülerle tanımlanması, Bulguların tablo veya grafiklerle sunulması.
Tanımlar 2. Çıkarımsal (analitik) istatistik: Örneklemden elde edilen bulgularla, örneklemin çekildiği evren hakkında: Tahminlerde bulunma, Karşılaştırmalar yapma, Kararlara varma. ANOVA, Student’s t testleri, Z istatistiği, korelasyon analizi, regresyon analizi, Mann Whitney U testi, Ki-kare testleri gibi.
İstatistiksel Analiz, araştırmanın planlanmasından sunumuna kadar tüm aşamaları kapsar
İstatistik Analiz Basamakları-I Araştırmanın düzenlenmesi (dizaynı): Çalışma grubu sayısı? Gruplar bağımlı mı-bağımsız mı olmalı? Gruplardaki denek sayısı? Deneklerin çalışmaya alınma veya çalışmadan çıkarılma kriterleri. Randomizasyon. Araştırmada kullanılacak değişkenler: Değişkenler eksiksiz olarak tespit edilmeli, Değişkenlerin ölçülme yöntemi, mümkünse en gelişmiş sistemlerle olmalı (artık geçerli olmayan cihazlarla ölçüm yapılmamalı).
İstatistik Analiz Basamakları-II Uygun istatistik yöntemin seçilmesi: 1. Tanımlayıcı istatistik yöntemleri: Merkezî eğilim ölçütleri: Ortalamalar, ortanca, mod. Yayılma ölçütleri: Standart sapma, varyans, varyasyon katsayısı, persentiller. 2. Analitik (çıkarımsal) istatistik yöntemleri: a. Araştırma grupları arasındaki farkların araştırılması: Grupların (iki veya daha fazla) karşılaştırılması testleri gibi. b. Araştırma grupları arasındaki: İlişkinin saptanması (korelasyon), Eldeki verilerden kestirim yapabilme gücü (regresyon).
İstatistik Analiz Basamakları-III İstatistik paket programı: Uygun paket programın seçilmesi (Excel, Minitab, Statistica, SPSS, SAS). Elde edilen verilerin bilgisayara (paket programa) girilmesi. Gerekiyorsa verilerin işlenmesi (dönüştürme gibi). İstatistik analiz yapılması.
İstatistik Analiz Basamakları-IV Sonuçların sunumu: Tablo veya grafik yapma. Sonuçların yorumlanması.
Bu Kursun Konu Başlıkları Hangi istatistik yönteminin kullanılacağının tespiti. Verilerin SPSS’e girilmesi ve tespit edilen yöntemin uygulanması. Sonuçların yorumlanması. İstatistik öğrenmek isteyenleri formüllere boğmadan, istatistikten soğutmadan istatistikle buluşturmak gerekir.
Tanımlayıcı istatistik yöntemleri
Tanımlar Evren: Belirli bir özelliğe sahip bireylerin tümünün oluşturduğu topluluktur. Evren: Büyük olabilir, Küçük olabilir, Sonlu olabilir, Sonsuz olabilir. Örneğin: Kavacık’taki okulların tümü, Kavacık’taki bir okul, Kavacık’taki bir okulun tüm 4. sınıfları. Kavacık’taki bir okulun yalnızca 4-A sınıfı.
Tanımlar Örnek: Örneklem: Herhangi bir evreni temsil ettiği düşünülen ve o evrenden çekilen küçük veya büyük bir grubun oluşturduğu topluluktur. Örnek: Kavacık’taki bir okulun yalnızca 4-A sınıfından seçilen 10 öğrenci: Bu 10 öğrenci, örneklemi temsil eder. Bu okulun 4-A sınıfı veya yerine göre bu okulun tüm 4. sınıfları veya yerine göre İstanbul’daki tüm okulların 4. sınıfları ise evreni temsil eder.
Tanımlar Veri: İsatistiksel bir olayı aydınlatmak için toplanan materyaldir. Bu materyali aşağıdaki yollarla temin edebiliriz: Ölçüm, Bilgi, Belge, vs.
Yanlılık (Bias) Yanlılık (bias): Başlıca iki tür bias vardır: Araştırma sonuçlarını etkileyen, Araştırmanın herhangi bir aşamasında yapılabilen Sistematik bir hatadır. Başlıca iki tür bias vardır: Seçme yanlılığı: Bilgilenme yanlılığı:
Yanlılık (Bias) Seçme yanlılığı: Deneklerin seçimindeki hatalardır. Seçme yanlılığını azaltmak için uygulanacak yöntemler: Randomizasyon, Tabakalama.
Yanlılık (Bias) Bilgilenme yanlılığı: Araştırmalarda ölçme ve değerlendirmelerden kaynaklanan yanlılıktır. Nedenleri: Değerlendirmelerin standart olmaması, Teknik yetersizlikler, Tanı farklılıkları, vs. Bilgilenme yanlılığını azaltmak için uygulanacak yöntemler: Standart çalışma yöntemlerinin uygulanması, Körleme.
Tanımlar Değişken: Deneklerin herhangi bir özelliğidir. Biyokimya verileri (AKŞ, AST, ALT, ALKP, vs.), Hematoloji verileri (Hb, Htc, lökosit sayısı, vs.), Boy (cm), Kilo (kg), Yaş, Vücut ısısı, Eğitim durumu, Saç rengi, Göz rengi, vs.
Tanımlar Canlılardaki değişkenlere karakter, cansızlardaki değişkenlere faktör denir. !!! Değişken terimi parametre terimi ile karıştırılmaktadır !!! Parametre: Popülasyonu tanımlamak için kullanılan ölçülere (popülasyon özelliklerinin sayısal değerine) parametre denir. Ortalama, oran, varyans, standart sapma, standart hata ortalaması gibi değerler birer parametredir.
Tanımlar Örnek: Hb değeri bir değişkendir. 20 kişinin (örneklemin) Hb değerlerinin ortalaması bir parametredir (aynı zamanda tanımlayıcı bir istatistiktir). Örneklemden yola çıkarak toplumun Hb değerinin ortalamasını tahmin etmek veya başka bir örneklem grubu ile yukarıdaki örneklem grubunun Hb değerlerini karşılaştırmak istatistiktir.
Merkezî Eğilim Ölçüleri Ortalama (aritmetik ortalama, geometrik ortalama), Ortanca (medyan): Değişkene ait değerler küçükten büyüğe doğru sıralandığında ortadaki değerdir. Mod: Değişken değerleri içerisinde en sık görülen değerdir. Ne zaman, hangi merkezi eğilim ölçütünü kullanalım? Simetrik dağılan sayısal veriler için aritmetik ortalama, Logaritmik skalada ölçülen veriler için geometrik ortalama, Ordinal (sırasal) veriler ya da simetrik olmayan sayısal veriler için ortanca (medyan) kulanılır.
Dağılımın Yaygınlık Ölçütleri Standart sapma (Standart Deviation, STD): Dağılımdaki her bir değerin ortalamaya göre ne uzaklıkta olduğunu, yani dağılımın ne yaygınlıkta olduğunu gösterir. Standart sapma büyüdükçe dağılım her iki yönde yaygınlaşır.
Dağılımın Yaygınlık Ölçütleri Standart Hata (Standard Error): Standart sapmanın eleman sayısının kareköküne bölünmesiyle elde edilir. Yani STD/√n = Standart hata. Standart hataya, Standart Hata Ortalaması (Standard Error Mean, SEM) da denir.
Dağılımın Yaygınlık Ölçütleri Bir örneklemdeki denek değerlerinin örneklem ortalamasından, aşağı ya da yukarı olmak üzere, ne kadar uzaklaştığının, yani denek değerlerinin yayılmasının ölçütü standart sapmadır. Aynı evrenden seçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklemlerin ortalamalarının yayılmasının ölçütü ortalamanın standart hatasıdır (Standard Error of Mean, SEM).
Ne zaman standart sapma, ne zaman standart hata kullanılır? Çalışmaya alınan örneklemin yayılma özellikleri verilmek isteniyorsa ortalama ile birlikte standart sapma verilmelidir.
Ne zaman standart sapma, ne zaman standart hata kullanılır? Örnek: Multipl myelomalı 81 hastanın yaş ortalaması 50, standart sapması 9 ve standart hatası 1 olsun. Bu veriler ortalama ± standart sapma şeklinde değil de ortalama ± standart hata şeklinde gösterilirse (50 ± 1 olur), makaleyi okuyan kişi, hastaların büyük çoğunluğunun 50 yaşına çok yakın yaşlarda olduğunu zannedecektir. Oysa değerler Ort ± STS (yani 50 ± 9) şeklinde ifade edilirse, okuyucu hastaların yaşlarının 50 sayısına o kadar da çok yakın değerler olmadığını fark edecektir. Bu durumda yaş değişkenini Ort ± STS olarak ifade etmek daha doğru olacaktır.
Ne zaman standart sapma, ne zaman standart hata kullanılır? Çalışma gruplarının ortalamalarının karşılaştırılması durumunda (yani birden fazla örneklem grubunun karşılaştırılması durumunda) ortalamanın yanında standart hata (Ort ± SEM) verilmelidir. Çünkü burada bir adet örneklemin yayılımı yerine esas itibariyle aynı evrenden çekilecek (aynı sayıdaki) birden fazla örneklemin yayılımı bizi ilgilendirmektedir. Birden fazla örneklemin yayılımının ölçütü standart hata ortalamasıdır (SHO, SEM).
Ne zaman standart sapma, ne zaman standart hata kullanılır? Örnek: Multipl myelomalı 70 hasta ile sağlıklı 65 deneğin yaş ortalamaları sırası ile 50 ve 55, SHO değerleri ise 2.5 ve 1.4’tür. Bu örnekte iki ayrı örneklem grubunun yaşları arasında fark olup olmadığına bakılıyor ise her bir grubu tabloda gösterirken Ort ± SHO değerlerini vermek gerekir. Her bir grubun eleman sayısının eşit olması, istenen bir durumdur. Ancak yukarıdaki örnekte olduğu gibi birbirine yakın değerler de (70 ve 65) kabul edilebilir.
Dağılımın Yaygınlık Ölçütleri Örneklemin normal dağılım göstermesi şartıyla, bir evrenden çekilen n elemanlı herhangi bir örneklemin yayılımı (değerlerin ortalamadan ne kadar uzaklaştıkları) % 95 ihtimalle; örneklem ortalamasına 2 Standart sapma ekleyip çıkarmakla bulunur (yani: Ort ± 2 STD). bir evrenden çekilen n elemanlı birden fazla sayıda örneklem ortalamalarının yayılımı ise % 95 ihtimalle; ortalamaya 2 Standart hata ekleyip çıkarmakla bulunan değerdir (yani: Ort ± 2 SEM).
Çalışma Gruplarının Sunumu Gruplara ait değişkenler (Ort ± StS) Yaş (yıl) Boy (cm) Hb (g/dL) 1. Grup (n=16) 34.2 ± 2.50 167.3 ± 3.50 14.5 ± 1.50 2. Grup (n=20) 30.1 ± 2.30 172.3 ± 3.70 15.4 ± 1.70 3. Grup (n=18) 38.6 ± 2.60 180.0 ± 4.20 13.2 ± 1.60
Çalışma Gruplarının İstatistik Analiz Sonuçlarının Sunumu Gruplara ait değişkenler (Ort ± SHO) Yaş (yıl) Boy (cm) Hb (g/dL) 1. Grup (n=16) 34.2 ± 0.63 167.3 ± 0.88 14.5 ± 0.38 2. Grup (n=20) 30.1 ± 0.51* 172.3 ± 0.83* 15.4 ± 0.38 3. Grup (n=18) 38.6 ± 0.61*# 180.0 ± 0.99*# 13.2 ± 0.38# *: p<0.05 (1. grupla karşılaştırma). #: p<0.05 (2. grupla karşılaştırma).
Verilerin Sınıflandırılması
Verilerin Sınıflandırılması Özellikle denek sayısı fazla olduğunda; Veriler üzerinde yapılacak hesaplamaları kolaylaştırır, Verilerin kolay anlaşılır biçimde sunulmasını sağlar.
Verilerin Sınıflandırılması Sınıflandırma kuralları: 1) Sınıf sınırları kesin olmalı, sınıflar birbirine karışmamalıdır. Örneğin: 10-14, 14-19, 19-24 şeklindeki sınıflandırma yanlıştır. 10-14, 15-19, 20-24 şeklindeki sınıflandırma doğrudur. 2) Sınıflama, bütün verileri içine almalıdır. Hiçbir değer dışarıda kalmamalıdır.
Verilerin Sınıflandırılması 3) Sınıf aralıklarının eşit olması bazı analizler için yararlı olabilir. Ama her zaman eşit olması gerekmez. Örneğin: 10-14, 15-20, 21-35 gibi. 4) Sınıf sayısının 8-15 arasında olması tavsiye edilir. Sınıf aralığı büyük alınırsa: Sınıf sayısı azalır, böylece sınıfların hassasiyeti azalmış olur. Elde edilecek bilgi kaba olur. Sınıf aralığı küçük alınırsa: Sınıf sayısı çok artabilir, bu kez verileri kolay biçimde ve özet olarak incelemek zorlaşır. En iyisi verileri uygun şekilde özetleyecek ve dağılım hakkında yeterli bilgiyi verecek kadar sınıf sayısı olmasıdır.
Verilerin Sınıflandırılması Örnek: Üniversite Araştırma ve Uyglama Hastanesi’nde ocak 2006 ayı içerisinde doğum yapan 50 kadının eğitim durumlarına göre dağılımı aşağıdaki gibidir. Bu verileri SPSS programına girerek sonuçları bir tablo halinde gösteriniz. Eğitim Durumu Kod Kadın Sayısı (çetele) (frekans) Okur-yazar 1 IIIII I 6 İlkokul 2 IIIII IIIII II 12 Orta ve dengi okul 3 IIIII IIIII III 13 Lise ve dengi okul 4 IIIII II 7 Meslek Yük. Okulu 5 Fakülte IIIII Toplam - 50
Teşekkürler