Ölçme Araçlarında Bulunması Gereken Nitelikler

Slides:

Advertisements

Benzer bir sunumlar

ÖLÇME ARACINDA BULUNMASI İSTENİLEN NİTELİKLER

Advertisements

Sosyal Bilimlerde Araştırma Yöntemleri

ÖLÇME VE DEĞERLENDİRME DERSİ

ÖLÇME VE DEĞERLENDİRME DERSİ

BİR ÖLÇME ARACINDA BULUNMASI GEREKEN NİTELİKLER

Bu slayt ‘ten indirilmiştir.

KISA CEVAPLI TESTLER ve DOĞRU-YANLIŞ TESTLERİ

Test Geliştirme ve Madde Analizi

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

İstatistik Tahmin ve Güven aralıkları

Güvenirlilik, Geçerlilik Kaynakları ve Model Oluşturma

ÖLÇME VE DEĞERLENDİRME Temel Kavramlar

Yrd. Doç. Dr. Kemal DOYMUŞ K.K.E.F İlköğretim Bölümü

ÖLÇME ARACINDA BULUNMASI GEREKEN NİTELİKLER

Ölçme Araçlarının Nitelikleri

Ölçme Düzeyleri Ölçeklerin Kullanılması

Bu slayt ‘ten indirilmiştir.

GEÇERLİLİK ve GÜVENİLİRLİK

EĞİTİMDE ÖLÇME & DEĞERLENDİRME -5-

ÖLÇME ARACINDA BULUNMASI İSTENİLEN NİTELİKLER

Okan Üniversitesi – İstanbul, 20 Şubat 2009 ÖSYS Öğrenci Seçme ve Yerleştirme Sistemindeki Gelişmeler.

ÖSYS Öğrenci Seçme ve Yerleştirme Sistemindeki Gelişmeler.

ÇOKTAN SEÇMELİ TESTLER

EĞİTİMDE ÖLÇME & DEĞERLENDİRME -6-

ÖLÇME VE DEĞERLENDİRME DERSİ

Ölçme Araçlarında Bulunması Gereken Nitelikler

GEÇERLİLİK Kapsam Geçerliliği

Bu slayt ‘ten indirilmiştir.

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

Ölçme Aracının Özellikleri

ÖLÇME VE DEĞERLENDİRME DERSİ

EĞİTİMDE ÖLÇME & DEĞERLENDİRME -3-

EĞİTİMDE ÖLÇME & DEĞERLENDİRME -4-

Ölçme ve Değerlendirme

ÖLÇMEDE HATA.

İki Ortalama Farkının Test Edilmesi

MUTLAK DEĞERLENDİRME Elif Tuba BEYDİLLİ.

Ölçüm Geçerliği Murat Coşar Afyon Kocatepe Üniversitesi

ÖLÇME VE DEĞERLENDİRME

Bilimsel Araştırma Yöntemleri

ÖLÇME ARAÇLARININ NİTELİKLERİ

2 - ÖLÇME ARAÇLARININ TAŞIMASI GEREKEN NİTELİKLER

Ölçme AraçlarInda BulunmasI İstenen NİTELİKLER

İNCELEME Bilimin İşlevleri İstatistiksel Yöntemler Değişken Türleri

ÖLÇME VE DEĞERLENDİRMEDE HATA Mehmet ŞAHİN Toprak Sanayi İ.Ö.O./ÇORUM.

HİPOTEZ TESTLERİNE GİRİŞ

Standart Puanlar Z puanı: T puanı: T=10*Z+50 = Bireyin puanı

Ölçeklerde Aranan Özellikler a) Geçerlik b) Güvenirlik c) Kullanışlılık Bu özelliklerden en önemlisi geçerlik, sonra güvenirlik, sonuncusu ise kullanışlılıktır.

ÖLÇME VE DEĞERLENDİRME DERSİ

TEST PLANI MADDE ANALİZİ.

ÖLÇME ve DEĞERLENDİRME

Ders 5: ÖLÇME VE DEĞERLENDİRME

Ölçme Sonuçları Üzerinde İstatistiksel İşlemler

KLASİK TEST KURAMI VE GÜVENİLİRLİK

PSİKOLOJİK TESTLER.

GÜVENİRLİK ve GEÇERLİK

KGO KR-20 ve KR-21 Korelasyon Hesaplamaları.

EĞİTİMDE KULLANILAN ÖLÇME ARAÇLARI

Eğitimde ve Psikolojide ÖLÇME VE DEĞERLENDİRME

Ölçme Sonuçları Üzerinde İstatistiksel İşlemler

DEĞERLENDİRMENİN İŞLEVLERİ

Yrd.doç.dr.h.denİz GÜlleroĞlu

Geçerlik ve Kullanışlılık

ÖLÇMEDE HATA VE ÖLÇME ARACINDA BULUNMASI GEREKEN TEKNİK ÖZELLİKLER

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

EĞİTİMDE ÖLÇME ve DEĞERLENDİRME

Yrd. Doç.dr. H. denİz GülleroğlU

ÖLÇME ARACININ YAPISAL NİTELİKLERİ

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME

Güvenirlik Yrd. Doç. Dr. Ömer Kutlu.

Sunum transkripti:

Ölçme Araçlarında Bulunması Gereken Nitelikler

GEÇERLİK Genel anlamda geçerlik, bir ölçme aracının ölçmeyi amaçladığı özelliği başka özelliklerle karıştırmadan, doğru bir şekilde ölçmesidir. Diğer bir ifadeyle, ölçme aracının amaca hizmet etme derecesidir. Bir ölçme aracının ölçülmek istenilen özelliği ölçme derecesine, “onun bu özelliği ölçmedeki geçerlik düzeyi” denir. Eğitimdeki ölçmelerde, temel olan ölçme aracının değil, bu araçtan elde edilen sonuçların geçerliğidir. Diğer bir ifadeyle, testin kendisinin geçerliğinden ziyade, testten elde edilen sonuçlara dayalı olarak yapılan yorumların geçerliğinden bahsetmek daha doğrudur. Diğer önemli bir husus, ölçme aracından elde edilen sonuçların “geçerliği yoktur veya tamdır” demek de doğru bir ifade değildir. Bunun yerine “düşüktür, orta düzeydedir ya da yüksektir” ifadesi kullanılmalıdır.

GEÇERLİK Öğrencilerin başarılarını değerlendirmek amacıyla yapılan sınavların ve testlerin sonuçlarının geçerliğini belirleme yaklaşımlarını genel anlamda iki kategoride toplamak mümkündür. Bunlar: Doğrudan geçerlik: Uzman (öğretmenler, test geliştiriciler, alan uzmanları gibi) kişilerin, testleri ya da sınavları doğrudan inceleme ve analizine dayanır. Türetilmiş geçerlik: Test ya da sınav sonuçlarının, bağımsız bir testten elde edilen sonuçlarla istatistiksel olarak karşılaştırılmasına dayanır. Doğrudan geçerlik çalışmalarını gerçekleştirmek, istatistiksel yaklaşıma oranla daha kolaydır. Çünkü bağımsız bir testten elde edilmiş ölçüt puanlarına ihtiyaç yoktur. Bununla birlikte, bu yaklaşım, doğrudan uzmanların kararlarına bağlı olduğundan, istatistiksel yaklaşıma göre daha az objektiftir.

GEÇERLİK İstatistiksel yaklaşımla belirlenen geçerlik katsayısı, korelasyon katsayısı gibi -1,00 ile +1,00 arasında değerler almaktadır. Pratikte hesaplanan geçerlik katsayıları nispeten çok düşüktür. Genellikle 0,30 ile 0,50 arasında olmaktadır. Nadiren 0,60 ve 0,70 gibi değerler gözlenmektedir. Geçerlik için erişilebilecek en üst sınır güvenirlik katsayısının karekökü kadardır. Örneğin, güvenirliğin 0,49 olduğu bir durumda geçerlik katsayısı, en çok 0.70 olabilir Güvenirlik, geçerlik için üst sınır koyabilmekte ise de, hiç bir zaman, geçerliği garantileyemez. Geçerlik türlerine yönelik literatürde değişik sınıflandırmalara rastlanmakla birlikte, yaygın olarak dört başlık altında incelenmektedir. Bunlar, kapsam (content) geçerliği, ölçüt (criterion) geçerliği, yapı (construct) ve görünüş geçerliğidir

A. Kapsam Geçerliği Kapsam geçerliği, ölçme sonuçlarının davranış evrenini temsil etme derecesi olarak tanımlanabilir. Örneğin, lise ikinci sınıf kimya dersi ile ilgili olarak bir test geliştirdiğimizi varsayalım. Kapsam geçerliği için, dersin kapsamında yer alan tüm konuların ve her konu ile ilgili kritik davranışların o testle yoklanması gerekmektedir. Sadece birkaç konunun kritik davranışlarını yoklayan bir testten elde edilen sonuçlar, kapsam geçerliğine sahip olamaz. Kritik davranışların belirlenmesinde “Belirtke Tablosu”ndan yararlanılır. Belirtke tablosu, bir boyutunda, hazırlandığı ders ya da alanla ilgili konular ya da içerik, diğer boyutunda ise, bu içerikle öğrencilere kazandırılacak hedef ve davranışları içeren iki boyutlu bir tablodur

A. Kapsam Geçerliği Kapsam geçerliğinde gözden kaçırılmaması gereken diğer önemli bir husus, testte yer alan soruların gerçekten hedeflenen davranışları ölçüp ölçmediğinin belirlenmesidir. Özellikle fen derslerinde son yıllarda bu duruma sıkça rastlanmaktadır. Bir lise kimya sınavında sorulmuş aşağıdaki soruyu inceleyelim. Soru: Yarılanma süresi 10 yıl olan 1000 gram radyoaktif bir elementten 50 yıl sonra ne kadar geride kalır? Soru incelendiğinde, bir öğrencinin, bu soruyu kimya bilgisini kullanmadan tamamıyla matematik becerisi ile çözebileceği anlaşılmaktadır. Sorulan sorunun gerçekten ölçmeyi amaçladığı davranışı ölçüp ölçmediği de yine uzmanlık isteyen bir konudur. Kapsam geçerliğinin bu boyutu da yine uzman kişiler tarafından kontrol edilmelidir.

A. Kapsam Geçerliği Kapsam geçerliğini belirlemenin diğer bir yolu, hazırlanan testin, aynı içeriğe ya da davranışlara yönelik olarak daha önceden sonuçlarının geçerlik ve güvenirliği incelenmiş başka bir testin sonuçlarıyla karşılaştırılmasıdır. Burada her iki test aynı örnekleme uygulanır ve puanlar arasındaki korelasyon hesaplanır. Hesaplanan korelâsyon +1,00’a yakınlığı ölçüsünde test sonuçlarının geçerli olduğu söylenebilir (Turgut, 1995; Baykul, 2000). Burada aynı içeriği ölçtüğü bilinen test ölçüt olarak kabul edilmektedir.

B. Ölçüt Geçerliği ÖSS, SBS, KPSS Ölçüt geçerliği, bireylerin o testten elde ettiği puanlarla, aynı özelliğe yönelik geçerliği ve güvenirliği belirlenmiş farklı bir testten aldıkları puanlar arasındaki korelâsyona bakılarak hesaplanır. Burada geçerliği ve güvenirliği belirlenmiş, karşılaştırma amaçlı kullanılan test puanlarına ölçüt puanları adı verilmektedir. Ölçüt olarak kullanılan puanlar, bireylerin seçme ve yerleştirme işi yapıldıktan sonra alacakları bir testin puanları olabileceği gibi, aynı anda ya da daha önceden elde edilmiş puanlar da olabilir. Bu geçerlik türü, eldeki puanların seçilen bir ölçütle korelâsyonuna dayandığından bir ölçüte dayalı geçerlik olarak adlandırılmaktadır.

B. Ölçüt Geçerliği Buradan elde edilen korelâsyon katsayısı, -1,00’ ile +1,00 arasında değerler alabilir. Test puanları ile ölçüt puanları arasındaki korelâsyonun +1,00’a yakın olması geçerliğin yüksek, 0,00’a yakın olması geçerliğin düşük olduğunu ve negatif olması ise, testin, ölçütün ölçtüğünden başka ve onunla ters yönde bir özelliği ölçtüğünü göstermektedir. Bir ölçüte dayalı geçerlik belirlemek amacıyla seçilen ölçüt puanların aşağıda sıralanan özelliklere sahip olması gerektiğini belirtmektedir: Ölçüt puanlar, ölçme aracının yordamaya çalıştığı değişkenle doğrudan ilgili olmalıdır. Ölçüt puanlar, kararlı olmalı, günden güne değişmemelidir. Ölçüt puanlar, bireyin ölçülen özellikle ilgili başarısını gerçekten yansıtacak şekilde nesnel ve güvenilir olmalıdır. Ölçütün elde edilmesi pratik ve kolay olmalıdır.

i. Eşzaman Geçerliği Ölçüt puanları, asıl ölçme aracından elde edilen puanlarla aynı zamanda veya daha önce elde edilmiş ise, bu puanlar arasındaki korelasyona dayalı olarak belirlenen geçerliğe, eşzaman geçerliği adı verilmektedir. Bu geçerlik türü, literatürde, uyum geçerliği, benzer ölçekler geçerliği, uygunluk geçerliği, zamandaş geçerliği gibi farklı isimlerle de anılmaktadır. Eşzaman geçerliği için kullanılacak ölçüt puanlar, aynı veya benzer değişkenleri ölçtüğü bilinen testlerden elde puanlar olabileceği gibi, bireylerin önceki yıllara ait sınavlardan aldıkları ve başarılarını gösteren puanlar veya öğretmen görüşleri olabilir. Örneğin, öğrenci seçme sınavının (ÖSS) eşzaman geçerliğini belirlemede, öğrencilerin orta öğretin başarı puanları ölçüt olarak alınabilir.

Öğrencilerin biyoloji performansına yönelik geliştirilen bir testten elde ettikleri puanlarla, yine aynı öğrencilerin aynı zamanda biyolojiye karşı tutumlarını belirlemek amacıyla geliştirilen bir ölçekten elde ettikleri puanlar arasındaki korelasyon katsayısı, eşzaman geçerliğine diğer bir örnek olarak düşünülebilir. Burada gözden kaçırılmaması gereken ölçüt olarak kullanılan puanların geçerli ve güvenilir olmalarıdır.

ii. Yordama Geçerliği Ölçüt puanları, geçerliği belirlenecek puanlardan (yordayıcı) daha sonra elde edilmiş ise, bu puanlar arasındaki korelasyon hesaplanarak belirlenen geçerliğe; yordama geçerliği denir. Yordama geçerliğini, daha iyi kavrayabilmek için, öncelikle yordamanın ne olduğunun bilinmesi önemlidir. Yordama bir tahmin işidir. Ancak her tahmin bir yordama değildir. Yordama, belirli bilgilere dayanarak ve belirli istatistiksel teknikler uygulayarak geleceğe ilişkin tahminde bulunmaktır. Eğitimde yordama, bir öğrencinin ya da öğrenci grubunun gelecekte ne düzeyde başarılı olacağını tahmin etmek için kullanılır.

C. Yapı Geçerliği Ölçme aracı ya da testten elde edilen sonuçların, o araçla ölçülmek istenilen kuramsal yapıyı ortaya koyabilme derecesidir. Bir yapının tanımlanmasında aşağıdaki adımlar takip edilebilir . Yapı ile ilgili olduğu düşünülen davranışları tespit etmek. Bu konuda ne kadar çok veri toplanabilirse yapı o derece iyi tanımlanır. Açıklanacak yapının ilişkili olduğu ve olmadığı diğer yapıları belirlemek. Bu durum yapının sınırlarının belirlenmesi için gereklidir. Bu yapılarla ilgili davranışları tespit ederek, bunların hangilerinin ölçülecek yapı ile ilgili olduğunu belirlemek.

D. Görünüş Geçerliği Görünüş geçerliği, adından da anlaşılacağı gibi, bir testin görünüşte neyi ölçüyor göründüğü ile ilgilidir. Örneğin, bir tarih testini ele alalım. Testte baktığımızda, adının, cevaplama yönergelerinin ve testteki her bir sorunun tarih ile ilgili olduğu izlenimi vermesi görünüş geçerliğidir.

Geçerliği Etkileyen Faktörler Madde sayısı ve ölçme yöntemi: Testteki madde sayısı arttıkça testin konuları kapsama ve davranışları örnekleme oranı artacaktır. Dolayısıyla geçerlik artacaktır. Güvenirlik: Güvenirliği arttıran bütün çalışmalar, geçerliği de arttırabilir. Ancak güvenirliğin sağlanmış olması demek, geçerliğin de sağlandığı anlamına gelmemektedir. Puanlayıcı yanlılığı: Puanlamada objektif olunmaması ya da testin amacı dışında farklı durumların puanlamaya dahil edilmesi geçerliği etkilemektedir. Örneğin, öğrencilerin fen başarısını ölçmeye yönelik bir testi puanlandırırken, yazının güzelliği, ifadelerin düzgünlüğü, sayfa düzeni gibi durumları puanlamaya katılması, Uygulama Koşulları: Ortamın sınav için uygun olmaması elde edilecek sonuçların geçerliğini olumsuz şekilde etkilemektedir. Örneğin, ortamın gürültülü, karanlık, sıcak ya da soğuk olması.

Geçerliği Artırmanın Yolları Testteki her bir sorunun sadece o soruyla ölçülmek istenen davranışı ölçecek şekilde hazırlanması, Soruların ölçülen davranışa sahip olanlarla olmayanları ayırıcı şekilde hazırlanması, Testteki soruların, % 10’u çok zor, % 20’si zor, % 40’ı vasat, % 20’si kolay, % 10’u çok kolay olacak şekilde hazırlanması, Aynı soruların değiştirilmeden yıldan yıla tekrar tekrar sorulmaması,

Geçerliği Artırmanın Yolları Sınavda kopya çekilmesine izin verilmemesi, Sorularda doğru cevaba götürecek ipuçları bulunmamalı, Her bir sorunun sadece o soruyla ölçülmek istenen davranışı ölçecek şekilde hazırlanması, Soruların ölçülen davranışa sahip olanlarla olmayanları ayırıcı şekilde hazırlanması, Sınavlarda sorulacak sorular, sınavdan önce sınıfta çözülmemeli ya da öğrencilerin bildiği bir kaynaktan aynen alınmamalı, Soruların tüm konuyu kapsayıcı şekilde dengeli dağılması geçerliği arttırır. Güvenirliğe yönelik yapılan çalışmalar, dolaylı olarak geçerliği de arttırır.

GÜVENİRLİK Genel anlamda güvenirlik, ölçme sonuçlarının (test puanlarının) tesadüfî hatalardan arınık olma derecesi olarak tanımlanmaktadır. Aynı bireyler benzer şartlar altında tekrar test edilirlerse, elde ettikleri sonuçların tutarlılığı ya da tekrarlanabilirliğinin bir derecesidir. Ölçme sonuçlarının duyarlı, tutarlı ve kararlı olması güvenirlik açısından önemlidir.

Ölçmede Hata Sabit Hata; bir ölçmeden diğerine miktarı değişmeyen hata türüdür (Baykul,2000). Örneğin, öğretmenin her sınav kâğıdına 10 puan fazla vermesi, bir bakkal terazisinin bozuk olması nedeniyle, tarttığı her nesneyi 40g eksik tartması sabit hatadır. Sabit hatalar, puanların ortalamasını değiştirir, ancak hata miktarı tüm ölçümler için aynı olduğundan standart sapmayı değiştirmez. Sabit hataların miktarı ve kaynağı bellidir. Sistematik Hata; Ölçmeyi yapan kişiye, ölçülen özelliğe ve ölçme koşullarına bağlı olarak miktarı değişen ve tüm ölçmelere aynı oranda etki etmeyen hatalara sistematik hata denir. Öğretmenin yazının güzelliğinin değerlendirilmediği bir sınavda yazısı güzel olan öğrencilere daha fazla puan vermesi,

Ölçmede Hata Öğrencilerden başarılı olduğunu bildiklerinin kağıtlarında ufak tefek işlem hatalarını görmezden gelip sorulara tam puan verirken, başarısız olduğunu düşündüklerinin kağıtlarında ise en ufak bir hata için puan kırması, kendine yakın hissettiği öğrencilerin kağıtlarını daha müsamahakar okuması gibi değişik türden yanlılık içeren hatalar sayılabilir. Bu tür hatalar, ölçümlerin güvenirliğini etkilemezken, geçerliğini etkilemektedirler. Sistematik hatalar arttıkça ölçme sonuçlarının geçerliği azalır. Rasgele hata; ölçme sonuçlarına karışan, miktarı ve kaynağı net olarak belli olmayan hatalardır. Rasgele hatalar, ölçmeyi yapan kişiden, ölçmenin yapıldığı ortamdan, şans başarısından, ölçmeye konu olan bireylerden kaynaklanabilir. Ölçme sonuçlarının güvenirliğini etkilerken, geçerliğini etkilemez. Rasgele hatalar, arttıkça güvenirlik azalır. Güvenirlik çalışmaları, ölçme sonuçlarına karışması muhtemel rasgele hataları en aza indirmek için yapılır.

Güvenirlik Tahmin Yöntemleri Güvenirliği, tam olarak hesaplamak mümkün değildir. Bunun yerine güvenirlik, daha önce de bahsedildiği gibi tahmin edilmektedir. Bu kısımda, önemli güvenirlik tahmin yöntemleri ve bu yöntemlerin kuvvetli ve zayıf yönleri üzerinde durulmaktadır. Tek uygulamaya dayalı yöntemler Kuder-Richardson KR-20 ve 21 Cronbach Alpha (α) Testi Yarılama (Eşdeğer Yarılar) Puanlayıcılar Arası Tutarlılık İki uygulamaya dayalı yöntemler Test-Tekrar Test Yöntemi Eşdeğer (Alternatif, Paralel) Formlar Yöntemi

Ölçmenin Standart Hatası Ölçmenin standart hatası (Sh), ölçülen özelliğin gerçek değeri ile ölçme sonucu gözlenen değeri arasındaki farkı ifade etmektedir. Bu değer, ölçme sonuçlarının güvenirliliğinin değerlendirilmesinde güvenirlik katsayılarının yanı sıra kullanılan bir değerdir. Eğitim ve psikolojideki ölçmelerde ölçmenin standart hatası, puan dağılımının standart kayması (S) ve güvenirlik katsayısı (rx) bilindiğinde başka herhangi bir bilgi olmaksızın aşağıdaki formül kullanılarak hesaplanabilir. Sh=

Ölçmenin Standart Hatası Bu eşitlik yardımıyla, test puanlarındaki hata oranları, yine test puanı cinsinden belirlenebilir. Test puanlarına karışan hatanın yönü bilinmediğinden, her bir bireyin testten aldığı puan, bir aralık değeri olarak hesaplanır. Gerçek puan için güven aralığı (GA), X bireyin testten aldığı puanı göstermek kaydıyla, aşağıdaki eşitlikle bulunabilir. GAα/2 = X ± z puanı x Sh Örneğin, “Bir kimya testinden elde edilen puanların güvenirliği 0,75, standart sapması 10 olduğuna göre, bu testten 60 alan Ali’nin gerçek puanı %68, %95 ve %99 olasılıklarla hangi aralıklardadır? sorusunu cevaplamak için öncelikle ölçmenin standart hatası bulunmalıdır. Bu değerler yerine konarak, test puanlarına ait standart hata; Sh= 5 olarak bulunur.

Bulunan bu değer aynı zamanda, Ali’nin, sonsuz sayıdaki benzer testten aldığı puanlara ilişkin dağılımın standart sapmasını göstermektedir. Burada ölçme hatalarının normal dağılım gösterdikleri varsayıldığından, güven aralıkları belirlenirken normal dağılım eğrisi ve z değerleri dikkate alınır. z=1 olduğunda; ±1 birimlik ölçmenin standart hatası için normal dağılım eğrisi altındaki alan yaklaşık olarak 0,68’dir. Yani, bir öğrencinin %68 ihtimalle test puanının gerçek güven sınırı belirlenmek istendiğinde z=1 alınır. %95 ihtimal için 2 ve %99 için 3 alınır. Bu özellikten hareketle, Ali’nin gerçek puanı, %68 olasılıkla (z=1 için) 55puan ile 65 puan arasında (60±1x5); %95 olasılıkla (z=2 için) 50 puan ile 70 puan arasında (60±2x5); %99 olasılıkla (z=3 için) 45 puan ile 75 puan arasında (60±3x5) bulunmaktadır.

28

29

Güvenilirliği Etkileyen Faktörler Ölçme aracından kaynaklanan hatalar Ölçmeyi yapan kişiden kaynaklanan hatalar Güvenirlik belirleme yöntemleri Testi alan kişi ya da grubun özelliklerine yönelik faktörler Testi uygulama koşulları Şans başarısı

Güvenirliği Arttırmanın Yolları İçeriğe uygun olarak testteki soru sayısının artırılması, Soruların öğrencilerin seviyelerine uygun hazırlanması,. Sınav süresi gereğinden uzun ve gereğinden kısa verilmemesi, Test sonuçlarının duyarlı bir şekilde kaydedilmesi, Soruların öğrenciler açısından açık ve anlaşılır olması ve her bir sorunun tek ve kesin bir doğru cevabının olması, Öğrencilerin test sorularını hızlı ve dikkatli bir şekilde okumaya teşvik edilmeleri, Kopya yapılmasının önlenmesi, Sınav ortamının ışık, ses, ısı, havalandırma, gürültü gibi değişkenler açısından uygun hale getirilmesi, Puanlamada cevap anahtarı kullanılarak, objektif puanlama yapılması, Soruların, öğrencilerin yaklaşık yarısı tarafından cevaplandırılabilir olması, gibi düzenlemeler güvenirliği arttırır.

Güvenirlik ile Geçerlik Arasındaki İlişki Bir ölçme aracının geçerliği için güvenirlik gereklidir, ancak yeterli şart değildir. Tam anlamıyla tutarlı sonuçlar veren bir test, ölçülen özellikle ilgili doğru bilgi sağlamayabilir. Yani, ölçme aracınız, tam olarak ölçmek istediğiniz özelliği ölçmüyorsa, tutarlı ölçümler verse bile onu kullanmanın anlamı yoktur. Geçerlik açısından baktığımızda ise, bir test, geçerli değilse, o zaman güvenirliği tartışmanın anlamı yoktur.

Güvenirlik ile Geçerlik Arasındaki İlişki

KULLANIŞLILIK Uygulama kolaylığı Puanlama kolaylığı Puanları yorumlama kolaylığı Maliyetin düşük olması Testin uygun mekanik yapıda olması

1. Bir firmaya eleman almak amacıyla yapılan bir sınav için, “Oldukça geçerli bir sınav yapıldı.” Diyen bir uzman sınavın hangi özelliğini ifade etmektedir? (KPSS–2006) A) Zor olduğunu B) Adayların yeteneklerine uygun olduğunu C) Objektif olduğunu D) Kolay olduğunu E) İşteki başarıyı yansıtacak yapıda olduğunu 2. Hazırladığı testin güvenirliğini artırmak isteyen bir öğretmen öncelikle aşağıdakilerden hangisini sağlamaya çalışmalıdır? (KPSS–2006) A) Testteki soruların ve seçeneklerin dil bilgisi kurallarına uygun olmasını B) Soruların açık, net ve anlaşılır olmasını C) Seçenekler ile soru kökünün ifade bakımından birbirleriyle tutarlı olmasını D) Test kapsamında ölçülmek istenilen her özelliğe ait soru bulunmasını E) Seçeneklerin birbirine eşit ya da yakın uzunlukta olmasını

3. Pazarlama elemanları seçiminde kullanılmak üzere bir test geliştirilmiş ve işe alımlarda bu test uygulanmıştır. Daha sonra, işe alınan elemanların ilk aydaki başarılı satış sayıları ile işe girişte aldıkları test puanları arasında uyum incelenmiştir. Yukarıda belirtilen inceleme, uygulanan testin hangi özelliği hakkında bilgi verir? (KPSS–2007) A) Yordama geçerliği B) Yapı geçerliği C) Kapsam geçerliği D) İç tutarlığı E) Puanlayıcı arası güvenirliği 4. Bir sınavda her öğrenciye 5 puan fazla verilmesi ----hataya örnektir. Öğrencilerin puanlarını, aldıkları puanların yüzde 10’u kadar artırmak ise ---- hataya örnek olabilir. Bu parçadaki boşluklara, aşağıdakilerin hangisindeki sözcükler sırasıyla getirilmelidir? (KPSS–2008) A) rastgele – sabit B) rastgele - sistematik C) sabit - sistematik D) sabit - rastgele E) sistematik – sabit

5. Bir öğretmen aynı kapsamda ve düzeyde iki ayrı sınav hazırlamış ve aynı gruba uygulamıştır. Bu sınavların özellikleri şöyledir: Birinci sınavda 25 soru vardır ve her soru 4 puan değerindedir. İkinci sınavda 10 soru vardır ve her soru 10 puan değerindedir. “Birinci sınavdan elde edilen puanların güvenirliği daha yüksektir.” diyen bir kişi bu iddiasını aşağıdaki açıklamalardan hangisiyle destekleyebilir? (KPSS–2008) A) Bir sınavda yanıtların nasıl puanlanacağı kullanılan soru tipine göre değişir. B) Puanlamanın nesnelliği ölçmeden kaynaklanabilecek hatayı azaltır. C) Soruların ayırt edicilik dereceleri test puanlarının güvenirliğini etkiler. D) Soruların güçlük dereceleri test puanlarının güvenirliğini etkiler. E) Testteki soru sayısı arttıkça ölçme sonuçlarına karışan hata miktarı azalır. 6. Bir ölçme uzmanı Fen ve Teknoloji dersi için hazırlanan başarı testini incelemiş ve ortak köke dayalı soruların 5 – 6 civarında olduğunu saptamıştır. Bu durumu eleştiren uzman, bir köke dayalı olarak sorulabilecek soru sayısının üçü geçmemesini önermiştir. Ölçme uzmanının bu eleştirisinin en önemli gerekçesi aşağıdakilerden hangisi olabilir? (KPSS–2008) A) Öğrencilere aynı kökle ilgili çok sayıda soru sormak motivasyonu düşürür. B) Sorular tek bir test yaprağına sığmayacağı için test düzeni bozulabilir. C) Benzer davranışı ölçen soru sayısının artması güvenirliği düşürür. D) Soruların birbirinden bağımsız cevaplanabilme kuralı bozulabilir. E) Okuduğunu anlama değişkeninin etkisi artarak geçerliği düşürür.

7. Sınıfındaki öğrenciler arasında bu dersteki başarısı yüksek olanları seçmek isteyen bir öğretmenin hangi testi kullanması en uygun olur? A) 1 B) 2 C) 3 D) 4 E) 5 8. “Bir testin güvenirliğinin yüksek olması, geçerli bir test elde etmek için yeterli değildir.” yargısını desteklemek için hangi test örnek gösterilebilir? 9. Diğerlerinden daha kolay olduğu hâlde kabul edilebilir düzeyde güvenilir ve geçerli olan test hangisidir?

10. Bir öğretmen, geliştirmiş olduğu bir başarı testini derse başlamadan önce (ön test) ve dersin bitiminde (son test) sınıftaki öğrencilere uygulamıştır. Uygulama sonucunda öğrencilerin ön test ve son test puanlarına ait sütun grafiklerini inceleyerek kullandığı öğretim yöntem ve tekniklerinin öğrenme üzerinde etkili olduğu sonucuna varmıştır. Bu öğretmenin elde ettiği grafikler aşağıdakilerden hangisi olabilir? (KPSS-2007)