Geçerliği ve Güvenilirliği Araştırma Enstrümanlarının Geçerliği ve Güvenilirliği 7 Kasım 2010 – 14:00 – 14:30 Zekeriya Aktürk Prof. Dr., Atatürk Üniversitesi Tıp Fakültesi Aile Hekimliği AD, zekeriya.akturk@gmail.com, http://aile.atauni.edu.tr / 27
Sizde depresyon olabilir! Şu soruları cevaplayın: Hayır = 0 Biraz = 1 Evet = 2 Müzikten hoşlanıyor musunuz? İntihar etmeyi düşünüyor musunuz? Susuzluk hissediyor musunuz? Şimdi puanlarınızı toplayın: 2 puan ve üzerinde aldıysanız sizde depresyon var; bir doktora görünün! / 27
Geçersiz – Güvenilmez / 27 Kuder-Richardson 20 (KR20) ve Alfa katsayısı Range 0-1 Higher value indicates a strong relationship between items and test Lower value indicates a weaker relationship between test item and test r = n / n-1[s2 + Σp1q1 / s2 ] n = number of items on test s= standard deviation p1= proportion of correct responses q1= 1- p1 / 27
Güvenilir ama Geçersiz Geçerlilik. Norm-referenced or Criterion-referenced Norm-referenced – defines the performance of test-takers in relation to one another. Use the frequency distribution and can rank students. Often used to predict success like GRE or GMAT. Criterion-referenced – defines the performance of each test taker without regard to the performance of others. The success is being able to perform a specific task or set of competencies. Uses a mastery curve. / 27
Geçerli ve Güvenilir Güvenilirlik: Test-retest reliability (measure of an individual score is consistent over time) Inter-rater reliability (consistency of individual judges’ ratings of a performance) / 27
Sunum İçeriği Geçerlilik çeşitleri Özetleme Genel bilgi ve öneminin tartışılması Güvenilirlik çeşitleri Paralel formlar Uygulayıcılar arası (Interrater) Test/tekrar test (Test/retest) Yarıya bölme (Split half) Kuder-Richardson Cronbach alfa Geçerlilik çeşitleri İçerik geçerliliği (Content validity) Tahmin ettirici geçerlilik (Predictive validity) Yapı geçerliliği (Construct validity) Eş zamanlı geçerlilik (Concurrent validity) Görünüm geçerliliği (Face validity) Özetleme / 27
Araştırma aracımız geçerli ve güvenilir değilse ne olur? Temelin silahlarla dostluğu meşhurdur: Bir gün arkadaşının alnına konan sineğe ateş eder… Bir sizden, bir bizden! Siz de ola ki bir hedef belirlersiniz ama… Sadece “zaman, para ve emek” gibi kendi kaynaklarınızı vurursunuz Çok bizden, hiç sizden! / 27
Önce geçerlilik mi, güvenilirlik mi? Bir ölçüm güvenilir olduğu halde geçerli olmayabilir. Ancak, bir ölçeğin geçerli olabilmesi için önce güvenilir olması gerekir. Yine de güvenilirlik tek başına geçerlilik için yeterli değildir. Bir araştırmada hem geçerlilik, hem de güvenilirlik aranmalıdır. / 27
Güvenilirlik çeşitleri Paralel formlar Uygulayıcılar arası (Interrater) Test/tekrar test (Test/retest) Yarıya bölme (Split half) Kuder-Richardson Cronbach alfa / 27
1. Paralel formlar Aynı kişilere iki farklı ölçek uygulanır ve aralarındaki korelasyona bakılır. Korelasyon ne kadar yüksekse ölçekler o kadar eşdeğerdir Ölçülen aynı şeydir. Sadece ifade tarzları ve/veya soruların tasarımı farklıdır. Bunu yapmanın bir yolu, soruları hazırlamak ve rastgele ikiye ayırarak uygulamaktır. Paralel formlar uygulaması ölçeğin STABİLLİĞİNİ de ölçer. / 27
2. Gözlemciler arası güvenilirlik Ölçek kategorik bir ölçüm yapıyorsa (evet/hayır gibi) iki araştırmacının uygulamasında ne kadar uyum olduğuna bakılır. Aralarındaki uyum (örn. %82) rapor edilir. Ölçek nümerik bir ölçüm yapıyorsa iki araştırmacının uygulamasının ne kadar korelasyon gösterdiğine bakılır. Şunlar hesaplanabilir: Phi (basit korelasyon) Kappa (rastlantı açısından düzeltme yapılmış) Kendall’s tau (sıralı veriler için) / 27
Ölçeğin Stabilliği Aynı örneklemde yapılan tekrarlayan ölçümlerden aynı sonucun alınması halinde ölçeğin stabil olduğu söylenir. / 27
3. Test – tekrar test Aynı araştırma aracı aynı deneklere benzer şartlar altında 2 veya daha fazla kez uygulanır. İki ölçüm arasında fazla bir farklılık olmamalıdır. Ölçüm yapılan zaman aralığının ne kadar olduğu da önemlidir. Uygulama ne kadar erken tekrarlanırsa o kadar benzer sonuçlar elde edilir. / 27
Homojenlik açısından güvenilirlik Ölçeğin iç özelliğiyle ilgilidir (iç tutarlılık da "internal consistency“ denir). Aynı yapıyı ölçen maddelerin ne kadar benzer sonuçlar verdiğinin ölçülmesidir. Yani aynı özelliği ölçmede farklı maddelerin ne kadar tutarlı olduğunun incelenmesidir. / 27
4. Yarıya bölme (split half) Bir özelliği ölçmek için kullanılan tüm maddeler rastgele ikiye ayrılır. Ölçek bir grup bireye uygulanır ve her iki yarımın puanları hesaplanır. Bu iki yarımın karşılaştırılmasıyla güvenilirliğin derecesi belirlenir. / 27
5. Cronbach alfa Cronbach alfa yarıya bölmenin (matematiksel anlamda) eşdeğeridir. Ölçek maddeleri rastgele ikiye ayrılarak karşılaştırılır. Bu rastgele ikiye ayırma işlemi tüm ihtimaller için tekrarlanır. Benzer bir ölçüm de Kuder-Richardson’dur. / 27
Güvenilirlik çeşitleri Testin Eşdeğerliliği Paralel formlar Uygulayıcılar arası (Interrater) Test/tekrar test (Test/retest) Yarıya bölme (Split half) Kuder-Richardson Cronbach alfa Testin Stabilliği Testin Homojenliği / 27
Geçerlilik çeşitleri İçerik geçerliliği (Content validity) Tahmin ettirici geçerlilik (Predictive validity) Yapı geçerliliği (Construct validity) Eş zamanlı geçerlilik (Concurrent validity) Görünüm geçerliliği (Face validity) / 27
1. İçerik geçerliliği Ölçeğin içeriğinin gerçekten ölçülmesi hedeflenen fenomenle ilgili olup olmamasıdır. İçeriğin boyutlarının belirlenmesini gerektirir. Belki en zor kısımdır. Uzman paneli ve literatür desteği gerekir. / 27
2. Tahmin ettirici (=criterion=ölçüt) geçerlilik Araştırma aracının gerçek yaşamda durumları ne kadar tahmin ettirici olduğuyla ilgilidir. Depresyon ölçeğinde intihar riski saptananların ne kadarı intihar ediyor? Trafik sınavında yüksek puan alanlar trafikte ne kadar iyi araç kullanıyor? / 27
3. Yapı geçerliliği Aracın ölçülmeye çalışılan teorik psiko sosyal yapı ile ne kadar korelasyon gösterdiği ile ilgilidir. Bu ölçek ölçmeye çalıştığımız fenomeni ne kadar ölçüyor sorusuna cevap aranmasıdır. Altta yatan fenomenle ilgili farklı konseptleri ölçmeye çalışır (Madde analizi). Depresyon için geliştirilen bir ölçekle birlikte fonskiyonel durum ölçeğinin de uygulanması.. In science (e.g. social sciences and psychometrics), construct validity refers to whether a scale measures or correlates with the theorized psychological scientific construct (e.g., "fluid intelligence") that it purports to measure. It is related to the theoretical ideas behind the trait under consideration, i.e. the concepts that organize how aspects of personality, intelligence, etc. are viewed.[1] The scale seeks to operationalise the concept, typically measuring several observable phenomena that supposedly reflect the underlying psychological concept. Construct validity is a means of assessing how well this has been accomplished. In lay terms, construct validity answers the question: "Are we actually measuring (are these means a valid form for measuring) what (the construct) we think we are measuring?" A construct is not restricted to one set of observable indicators or attributes. It is common to a number of sets of indicators. Thus, "construct validity" can be evaluated by statistical methods that show whether or not a common factor can be shown to exist underlying several measurements using different observable indicators. This view of a construct rejects the operationist past that a construct is neither more nor less than the operations used to measure it. Evaluation of construct validity requires that the correlations of the measure be examined in regards to variables that are known to be related to the construct (purportedly measured by the instrument being evaluated or for which there are theoretical grounds for expecting it to be related). This is consistent with the multitrait-multimethod matrix of examining construct validity described in Campbell and Fiske's landmark paper (1959).[2] Correlations that fit the expected pattern contribute evidence of construct validity. Construct validity is a judgment based on the accumulation of correlations from numerous studies using the instrument being evaluated. here are variants of construct validity: content validity, convergent validity, discriminant validity, and nomological validity. / 27
4. Eşzamanlı geçerlilik Aynı veya ilişkili bir yapıyı inceleyen ve daha önce geçerliliği ispat edilmiş bir ölçekle eşzamanlı olarak uygulanır. Bu da tahmin ettirici geçerlilik gibi bir ölçütü tahmin etmeye ne kadar yaradığını gösterir. Yeni geliştirilen depresyon ölçeğinin Beck depresyon ölçeği ile birlikte uygulanması.. / 27
5. Görünüm geçerliliği Bir arabanın hızının dış görünüşünden tahmin edilmesi gibidir. Maddelerin görünüşü, okunabilirliği, uygulama kolaylığı gibi konular açısından değerlendirme yapılır. / 27
6. Goodness of fit – Likelihood ratio Ne kadar büyükse model o kadar uyumsuz / 27
Özet Split half reliability Kuder-Richardson A. Testin bir kez uygulanmasıyla iç güvenilirliğini hesaplayan puan B. Ölçütle ilişkili geçerlilik C. İki eğiticinin bir öğrenciyi ayrı ayrı değerlendirmesi D. Yeni geliştirdiğimiz depresyon testinin uygulanması ve Beck depresyon testi ile uyumluluğuna bakılması Cronbach's alpha Predictive validity Interrater reliability Concurrent validity / 27
Özet F. Zaman içerisinde aynı bireylere uygulanan puanların değişip değişmediğinin incelenmesi G. Test iki kez uygulanır H. Tıpta uzmanlık sınavının doktorların iyi hekimlik uygulamalarını tahmin ettirme durumunun incelenmesi Test/retest reliability Test/retest reliability Interrater reliability Concurrent validity Predictive validity / 27
Özet I. Araştırmacı, “kişinin etkinliğini” inceleyen bir ölçeği “kendini kontrol edebilme” ölçütü ile karşılaştırıyor ve arada ilişki olup olmadığına bakıyor J. “Bu anketi beğendim” K. Araştırmacı, bir grup uzmandan geliştirmeye çalıştığı ölçüm aracında hangi maddeler olması gerektiğini soruyor ve bunları literatürle karşılaştırıyor. Construct validity Content validity Face validity Content validity / 27