Geçerliği ve Güvenilirliği

Slides:

Advertisements

Benzer bir sunumlar

Normal Dağılım Dışındaki Teorik Dağılımlar

Advertisements

ÖLÇME ARACINDA BULUNMASI İSTENİLEN NİTELİKLER

Zaman Yönetimi Sınıf 1, Atatürk Üniversitesi Tıp Fakültesi

GEÇERLİLİK 1- Tarihsel Gelişim 2- Geçerlilik Tanımı

ANKET SORULARININ DEĞERLENDİRİLMESİNDE GÜVENİRLİK ANALİZİ

ÖLÇME VE DEĞERLENDİRME DERSİ

Bu slayt ‘ten indirilmiştir.

GÜVENİRLİK ve GEÇERLİK ÇÖZÜMLEMESİ

Güvenirlilik, Geçerlilik Kaynakları ve Model Oluşturma

Bölüm 6 Nicel Veri Toplama

GÜVENİRLİK 1-Tarihsel gelişimi 2- Güvenirlik Tanımı

Öğretim Görevlisi: Hasan Avcıoğlu Doç. Dr. Gönül Akçamete

ÖLÇME ARACINDA BULUNMASI GEREKEN NİTELİKLER

Ölçme Araçlarının Nitelikleri

Ölçme Düzeyleri Ölçeklerin Kullanılması

GEÇERLİLİK ve GÜVENİLİRLİK

EĞİTİMDE ÖLÇME & DEĞERLENDİRME -5-

ÖLÇME ARACINDA BULUNMASI İSTENİLEN NİTELİKLER

BİLİMSEL ARAŞTIRMA YÖNTEMLERİ

EĞİTİMDE ÖLÇME & DEĞERLENDİRME -6-

TEST İSTATİSTİĞİNİN SEÇİLMESİ

Ölçme Araçlarında Bulunması Gereken Nitelikler

GEÇERLİLİK Kapsam Geçerliliği

PSİKİYATRİDE ÖLÇEK KULLANIMI

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

5.GRUP Şule Şahin Tuğba Karakuş Gizem Osan

Ölçme ve Değerlendirme

Mevlana Üniversitesi Tıp Fakültesi

İSTANBUL ÜNİVERSİTESİ AÇIK VE UZAKTAN EĞİTİM FAKÜLTESİ KPI ANALİZİ – ŞUBAT 2015 KALITE GELIŞTIRME AR-GE ŞUBESI.

/ 61 Zekeriya Aktürk, Nezih Dağdeviren EQuiP Türkiye Delegeleri Aile Hekimliğinde Kalite Kursu Bir Kalite İyileştirme Planı (KİP) Oluşturma Grup Çalışması.

Ölçüm Geçerliği Murat Coşar Afyon Kocatepe Üniversitesi

/ 271 BolognaSürecinde 13 Nisan Dr. Zekeriya Aktürk Ders Bilgi Paketi Hazırlama - Amaç - Öğrenim.

Bilimsel Araştırma Yöntemleri

ÖLÇME ARAÇLARININ NİTELİKLERİ

2 - ÖLÇME ARAÇLARININ TAŞIMASI GEREKEN NİTELİKLER

Ölçme AraçlarInda BulunmasI İstenen NİTELİKLER

ÖĞRENME AMAÇLARI Kişi, yer ve nesnelerin ölçümüne ilişkin temellerin anlaşılmasın Pazarlama araştırmacıları tarafından kullanılan üç tür ölçeği.

IMGK 207-Bilimsel araştırma yöntemleri

MELİKŞAH ÜNİVERSİTESİ ÖĞRENCİLERİNİN OKUDUKLARI KİTAP MİKTARI İLE KİTAP TÜRÜNÜN AKADEMİK BAŞARI ÜSTÜNE ETKİSİ NUTELLA ESRA SİVAS HABİBE NUR AMARATLICAN.

İNCELEME Bilimin İşlevleri İstatistiksel Yöntemler Değişken Türleri

ARAŞTIRMAYA GİRİŞ Doç.Dr Halim Kazan.

Araştırma Başlığı: İlköğretim öğrencilerinde matematik kaygısı ile matematik başarısı arasında bir ilişki olup olmadığının incelenmesi Grup Adı: M&M’S.

POLATLILILAR FER İ YA NUR TA Ş KAYA-EZG İ M İ HR İ BAN TARHAN.

GRUP ADI LAST SEEN.

KafaDark Özge Eymur Aşkın Mezgitli

Ölçeklerde Aranan Özellikler a) Geçerlik b) Güvenirlik c) Kullanışlılık Bu özelliklerden en önemlisi geçerlik, sonra güvenirlik, sonuncusu ise kullanışlılıktır.

SINAVMATİK Soru Bankası Raporlarının Yorumlanması Zekeriya AKTÜRK Prof. Dr. / 171.

İstatistiksel Analizler

ÖLÇME ve DEĞERLENDİRME

Ders 5: ÖLÇME VE DEĞERLENDİRME

GÜNEŞTEN KORUNMA DAVRANIŞ ÖLÇEĞİNİN TÜRK ADÖLESAN TOPLUMUNDA GEÇERLİLİK VE GÜVENİRLİLİĞİ Özcan Aygün1, Ayşe Ergün2 1 Sakarya İl Sağlık Müdürlüğü, Adapazarı-SAKARYA.

VERİLERİN TOPLANMASI Doç. Dr. Ender DURUALP.

KLASİK TEST KURAMI VE GÜVENİLİRLİK

PSİKOLOJİK TESTLER.

GÜVENİRLİK ve GEÇERLİK

KGO KR-20 ve KR-21 Korelasyon Hesaplamaları.

Yrd.doç.dr.h.denİz GÜlleroĞlu

Geçerlik ve Kullanışlılık

Abdullah Alper ERTEM Enver AYDOĞAN

EĞİTİMDE ÖLÇME ve DEĞERLENDİRME

PSİKOLOJİDE ÖLÇME VE TESTLER

ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans

ÖLÇME ARACININ YAPISAL NİTELİKLERİ

Verilerin Toplanması I

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA

Güvenirlik Yrd. Doç. Dr. Ömer Kutlu.

Araştırma Modeli. İç Geçerliği Etkileyen Faktörler (Büyüköztürk vd., 2013; Karasar, 2005) 1. Zaman: Denenen bağımsız değişken dışında kalan önemli diğer.

Sunum transkripti:

Geçerliği ve Güvenilirliği Araştırma Enstrümanlarının Geçerliği ve Güvenilirliği 7 Kasım 2010 – 14:00 – 14:30 Zekeriya Aktürk Prof. Dr., Atatürk Üniversitesi Tıp Fakültesi Aile Hekimliği AD, zekeriya.akturk@gmail.com, http://aile.atauni.edu.tr / 27

Sizde depresyon olabilir! Şu soruları cevaplayın: Hayır = 0 Biraz = 1 Evet = 2 Müzikten hoşlanıyor musunuz? İntihar etmeyi düşünüyor musunuz? Susuzluk hissediyor musunuz? Şimdi puanlarınızı toplayın: 2 puan ve üzerinde aldıysanız sizde depresyon var; bir doktora görünün! / 27

Geçersiz – Güvenilmez / 27 Kuder-Richardson 20 (KR20) ve Alfa katsayısı Range 0-1 Higher value indicates a strong relationship between items and test Lower value indicates a weaker relationship between test item and test r = n / n-1[s2 + Σp1q1 / s2 ] n = number of items on test s= standard deviation p1= proportion of correct responses q1= 1- p1 / 27

Güvenilir ama Geçersiz Geçerlilik. Norm-referenced or Criterion-referenced Norm-referenced – defines the performance of test-takers in relation to one another. Use the frequency distribution and can rank students. Often used to predict success like GRE or GMAT. Criterion-referenced – defines the performance of each test taker without regard to the performance of others. The success is being able to perform a specific task or set of competencies. Uses a mastery curve. / 27

Geçerli ve Güvenilir Güvenilirlik: Test-retest reliability (measure of an individual score is consistent over time) Inter-rater reliability (consistency of individual judges’ ratings of a performance) / 27

Sunum İçeriği Geçerlilik çeşitleri Özetleme Genel bilgi ve öneminin tartışılması Güvenilirlik çeşitleri Paralel formlar Uygulayıcılar arası (Interrater) Test/tekrar test (Test/retest) Yarıya bölme (Split half) Kuder-Richardson Cronbach alfa Geçerlilik çeşitleri İçerik geçerliliği (Content validity) Tahmin ettirici geçerlilik (Predictive validity) Yapı geçerliliği (Construct validity) Eş zamanlı geçerlilik (Concurrent validity) Görünüm geçerliliği (Face validity) Özetleme / 27

Araştırma aracımız geçerli ve güvenilir değilse ne olur? Temelin silahlarla dostluğu meşhurdur: Bir gün arkadaşının alnına konan sineğe ateş eder… Bir sizden, bir bizden! Siz de ola ki bir hedef belirlersiniz ama… Sadece “zaman, para ve emek” gibi kendi kaynaklarınızı vurursunuz Çok bizden, hiç sizden! / 27

Önce geçerlilik mi, güvenilirlik mi? Bir ölçüm güvenilir olduğu halde geçerli olmayabilir. Ancak, bir ölçeğin geçerli olabilmesi için önce güvenilir olması gerekir. Yine de güvenilirlik tek başına geçerlilik için yeterli değildir. Bir araştırmada hem geçerlilik, hem de güvenilirlik aranmalıdır. / 27

Güvenilirlik çeşitleri Paralel formlar Uygulayıcılar arası (Interrater) Test/tekrar test (Test/retest) Yarıya bölme (Split half) Kuder-Richardson Cronbach alfa / 27

1. Paralel formlar Aynı kişilere iki farklı ölçek uygulanır ve aralarındaki korelasyona bakılır. Korelasyon ne kadar yüksekse ölçekler o kadar eşdeğerdir Ölçülen aynı şeydir. Sadece ifade tarzları ve/veya soruların tasarımı farklıdır. Bunu yapmanın bir yolu, soruları hazırlamak ve rastgele ikiye ayırarak uygulamaktır. Paralel formlar uygulaması ölçeğin STABİLLİĞİNİ de ölçer. / 27

2. Gözlemciler arası güvenilirlik Ölçek kategorik bir ölçüm yapıyorsa (evet/hayır gibi) iki araştırmacının uygulamasında ne kadar uyum olduğuna bakılır. Aralarındaki uyum (örn. %82) rapor edilir. Ölçek nümerik bir ölçüm yapıyorsa iki araştırmacının uygulamasının ne kadar korelasyon gösterdiğine bakılır. Şunlar hesaplanabilir: Phi (basit korelasyon) Kappa (rastlantı açısından düzeltme yapılmış) Kendall’s tau (sıralı veriler için) / 27

Ölçeğin Stabilliği Aynı örneklemde yapılan tekrarlayan ölçümlerden aynı sonucun alınması halinde ölçeğin stabil olduğu söylenir. / 27

3. Test – tekrar test Aynı araştırma aracı aynı deneklere benzer şartlar altında 2 veya daha fazla kez uygulanır. İki ölçüm arasında fazla bir farklılık olmamalıdır. Ölçüm yapılan zaman aralığının ne kadar olduğu da önemlidir. Uygulama ne kadar erken tekrarlanırsa o kadar benzer sonuçlar elde edilir. / 27

Homojenlik açısından güvenilirlik Ölçeğin iç özelliğiyle ilgilidir (iç tutarlılık da "internal consistency“ denir). Aynı yapıyı ölçen maddelerin ne kadar benzer sonuçlar verdiğinin ölçülmesidir. Yani aynı özelliği ölçmede farklı maddelerin ne kadar tutarlı olduğunun incelenmesidir. / 27

4. Yarıya bölme (split half) Bir özelliği ölçmek için kullanılan tüm maddeler rastgele ikiye ayrılır. Ölçek bir grup bireye uygulanır ve her iki yarımın puanları hesaplanır. Bu iki yarımın karşılaştırılmasıyla güvenilirliğin derecesi belirlenir. / 27

5. Cronbach alfa Cronbach alfa yarıya bölmenin (matematiksel anlamda) eşdeğeridir. Ölçek maddeleri rastgele ikiye ayrılarak karşılaştırılır. Bu rastgele ikiye ayırma işlemi tüm ihtimaller için tekrarlanır. Benzer bir ölçüm de Kuder-Richardson’dur. / 27

Güvenilirlik çeşitleri Testin Eşdeğerliliği Paralel formlar Uygulayıcılar arası (Interrater) Test/tekrar test (Test/retest) Yarıya bölme (Split half) Kuder-Richardson Cronbach alfa Testin Stabilliği Testin Homojenliği / 27

Geçerlilik çeşitleri İçerik geçerliliği (Content validity) Tahmin ettirici geçerlilik (Predictive validity) Yapı geçerliliği (Construct validity) Eş zamanlı geçerlilik (Concurrent validity) Görünüm geçerliliği (Face validity) / 27

1. İçerik geçerliliği Ölçeğin içeriğinin gerçekten ölçülmesi hedeflenen fenomenle ilgili olup olmamasıdır. İçeriğin boyutlarının belirlenmesini gerektirir. Belki en zor kısımdır. Uzman paneli ve literatür desteği gerekir. / 27

2. Tahmin ettirici (=criterion=ölçüt) geçerlilik Araştırma aracının gerçek yaşamda durumları ne kadar tahmin ettirici olduğuyla ilgilidir. Depresyon ölçeğinde intihar riski saptananların ne kadarı intihar ediyor? Trafik sınavında yüksek puan alanlar trafikte ne kadar iyi araç kullanıyor? / 27

3. Yapı geçerliliği Aracın ölçülmeye çalışılan teorik psiko sosyal yapı ile ne kadar korelasyon gösterdiği ile ilgilidir. Bu ölçek ölçmeye çalıştığımız fenomeni ne kadar ölçüyor sorusuna cevap aranmasıdır. Altta yatan fenomenle ilgili farklı konseptleri ölçmeye çalışır (Madde analizi). Depresyon için geliştirilen bir ölçekle birlikte fonskiyonel durum ölçeğinin de uygulanması.. In science (e.g. social sciences and psychometrics), construct validity refers to whether a scale measures or correlates with the theorized psychological scientific construct (e.g., "fluid intelligence") that it purports to measure. It is related to the theoretical ideas behind the trait under consideration, i.e. the concepts that organize how aspects of personality, intelligence, etc. are viewed.[1] The scale seeks to operationalise the concept, typically measuring several observable phenomena that supposedly reflect the underlying psychological concept. Construct validity is a means of assessing how well this has been accomplished. In lay terms, construct validity answers the question: "Are we actually measuring (are these means a valid form for measuring) what (the construct) we think we are measuring?" A construct is not restricted to one set of observable indicators or attributes. It is common to a number of sets of indicators. Thus, "construct validity" can be evaluated by statistical methods that show whether or not a common factor can be shown to exist underlying several measurements using different observable indicators. This view of a construct rejects the operationist past that a construct is neither more nor less than the operations used to measure it. Evaluation of construct validity requires that the correlations of the measure be examined in regards to variables that are known to be related to the construct (purportedly measured by the instrument being evaluated or for which there are theoretical grounds for expecting it to be related). This is consistent with the multitrait-multimethod matrix of examining construct validity described in Campbell and Fiske's landmark paper (1959).[2] Correlations that fit the expected pattern contribute evidence of construct validity. Construct validity is a judgment based on the accumulation of correlations from numerous studies using the instrument being evaluated. here are variants of construct validity: content validity, convergent validity, discriminant validity, and nomological validity. / 27

4. Eşzamanlı geçerlilik Aynı veya ilişkili bir yapıyı inceleyen ve daha önce geçerliliği ispat edilmiş bir ölçekle eşzamanlı olarak uygulanır. Bu da tahmin ettirici geçerlilik gibi bir ölçütü tahmin etmeye ne kadar yaradığını gösterir. Yeni geliştirilen depresyon ölçeğinin Beck depresyon ölçeği ile birlikte uygulanması.. / 27

5. Görünüm geçerliliği Bir arabanın hızının dış görünüşünden tahmin edilmesi gibidir. Maddelerin görünüşü, okunabilirliği, uygulama kolaylığı gibi konular açısından değerlendirme yapılır. / 27

6. Goodness of fit – Likelihood ratio Ne kadar büyükse model o kadar uyumsuz / 27

Özet Split half reliability Kuder-Richardson A. Testin bir kez uygulanmasıyla iç güvenilirliğini hesaplayan puan B. Ölçütle ilişkili geçerlilik C. İki eğiticinin bir öğrenciyi ayrı ayrı değerlendirmesi D. Yeni geliştirdiğimiz depresyon testinin uygulanması ve Beck depresyon testi ile uyumluluğuna bakılması Cronbach's alpha Predictive validity Interrater reliability Concurrent validity / 27

Özet F. Zaman içerisinde aynı bireylere uygulanan puanların değişip değişmediğinin incelenmesi G. Test iki kez uygulanır H. Tıpta uzmanlık sınavının doktorların iyi hekimlik uygulamalarını tahmin ettirme durumunun incelenmesi Test/retest reliability Test/retest reliability Interrater reliability Concurrent validity Predictive validity / 27

Özet I. Araştırmacı, “kişinin etkinliğini” inceleyen bir ölçeği “kendini kontrol edebilme” ölçütü ile karşılaştırıyor ve arada ilişki olup olmadığına bakıyor J. “Bu anketi beğendim” K. Araştırmacı, bir grup uzmandan geliştirmeye çalıştığı ölçüm aracında hangi maddeler olması gerektiğini soruyor ve bunları literatürle karşılaştırıyor. Construct validity Content validity Face validity Content validity / 27