ÖLÇMEDE HATA VE ÖLÇME ARACINDA BULUNMASI GEREKEN TEKNİK ÖZELLİKLER
Ölçmede Hata Ölçme hatası, aynı koşullarda, ancak birbirinden bağımsız olarak yapılan ölçme sonuçlarından hesaplanan değer ile ölçülen özelliğin gerçek değeri arasındaki farktır. Fakat ölçülmek istenilen özelliğin gerçek değeri bilinemediğinden ölçümlere karışmış olan hata payının da belirlenmesi işi kolay değildir (Tavşancıl, 2006: 14).
Ölçme sonuçlarına ölçme aracına, ölçmeyi yapan kişiye, ölçüm yapılan gruba ve ölçme koşullarına bağlı olarak hata karışmış olabilir. Gözlenen bir özelliğin gerçek değerine ölçmeye karışan hatalar nedeniyle ulaşılamadığından gerçek değer, gözlenen puanlara dayalı olarak tahmin edilmeye çalışılır.
Ölçme sonuçlarına karışan ve gözlenen puanların gerçek puanlardan uzaklaşmasına neden olan hatalar sabit sistematik tesadüfi (seçkisiz, yansız) hatalar olmak üzere üçe ayrılır (Büyüköztürk vd., 2008: 92).
Sabit Hatalar Ölçmeden ölçmeye ve ölçmeciden ölçmeciye miktarı değişmeyen, bütün ölçme sonuçlarına aynı miktarda karışan kaynağı, miktarı ve yönü belli olan hatalardır. Sabit hatalar, bireysel ölçümleri ve bu ölçümlerin ortalamasını gerçek değerinden fazla ya da az gösterebilir. Ancak ölçümlerin değişkenlik ölçülerini (örneğin stantdart sapma, varyans) değiştirici bir etkiye sahip olmadığı için bu değerler sabit hatadan arınık ölçümlerin dağılım ölçülerine eşit olur.
Örneğin, bir markette kullanılan terazinin bozuk olması nedeniyle her 1 kg için 100 gr eksik tartması; öğretmenin testten alman puanlara 5 puan eklemesi sabit hatadır. Ölçmeye karışan sabit hatalar puanların ortalamasını değiştirirler, ancak hata tüm ölçümler için aynı miktar ve yönde olduğundan standart sapmayı değiştirmezler.
Sistematik Hatalar Sistematik hatayı iki farklı şekilde tanımlamak mümkündür. Fen bilimlerinde sistematik hata, ölçülen özelliğin miktarı değiştikçe miktarı belli bir düzene göre değişen hatalardır. Örneğin, bir terazinin 100 gramlık nesneyi 110 gram tartması, 200 gramlık bir nesneyi 220 gram tartması sistematik bir hatadır. Dikkat edilirse 100 gram da 10 gram hata yapılırken 200 gramda 20 gram hata yapılmıştır.
Sosyal bilimlerde ise sistematik hata daha çok öğretmenin puanlamadaki yanlılığı/taraf tutması ile ortaya çıkar. Örneğin; bir öğretmenin tarih sınavında yazısı güzel öğrencilere daha yüksek puan vermesi, kendi tuttuğu futbol takımının ezeli rakiplerini tutan öğrencilerden puan kırması yine bu tür hatadır.
Puanlayıcı yanlılıklarını yansıtan tüm hatalar sistemlidir (Tekin, 2008: 56). Sistematik hata puanlayıcının yanlılığına veya ölçülen büyüklüğe göre değişir. Sabit ve sistematik hatalar ölçme aracından veya ölçmeyi yapan kişiden kaynaklanır.
Tesadüfi Hatalar Bu tür hatalar, şansla ortaya çıkan ve ne yönde etki ettiği yordanamayan hatalardır. Bu hatalar, çoğu kez, bilinmeyen nedenlere bağlıdır. Kaynakları iyi bilinmeyen ve ölçme sonuçlarına gelişigüzel karışan hatalardır. Sınav günü öğrencinin hastalığı, sınav koşullarının elverişsizliği ya da bütün öğrenciler için eşit olmayışı, şans başarısı, öğretmenlerin cevapları puanlarken ve verdiği puanları toplarken dikkatsiz olması gibi etkenler bu tür hataların ortaya çıkmasına neden olurlar.
Elde edilen ölçümlerde bu tür hata ne denli büyükse, o ölçümlerin elde edildiği aracın güvenirliği de o denli düşük olur. Bir ölçme sonucu, içindeki rastgele hataların azlığı oranında güvenilir olur. Aynı özellik ya da özelliklerle ilgili çok sayıda ölçme yapılacak olursa, rastgele hataların ortalaması sıfıra yaklaşır. Ayrıca bu hatalar, herhangi bir değişkenle ya da nesnelerin gerçek ölçümüyle herhangi bir korelasyon vermezler (Tekin, 2008: 56-57).
Hata Kaynakları Hata kaynaklarını dört başlık altında toplayabiliriz: Ölçmeyi yapan kişiden kaynaklanan hatalar Ölçme aracından kaynaklanan hatalar Ölçme işleminin yapıldığı ortamdan kaynaklanan hatalar Ölçme işleminin yapıldığı (ölçülen) kişiden kaynaklanan hatalar
Ölçmeyi Yapan Kişiden Kaynaklanan Hatalar Ölçmeyi yapan kişinin ölçme yaparken öznel puan verme eğilimi, dikkatsizliği, yorgunluğu, eğitim durumu, yaşı vb. nedenler ölçme sonuçlarına hata karışmasına neden olabilir. Aynı kâğıtlar değişik puanlayıcılar tarafından puanlandırıldığında öğrencilerin alacağı puanlar farklı olabileceği gibi aynı kişi tarafından farklı zamanlarda yapılan puanlamalarda da öğrencilerin alacağı puanlarda fark görülebilir. Bu durumlarda puanların farklı olması, ölçme sonuçlarına ölçmeciden kaynaklanan hata karıştığını gösterir.
Ölçme Aracından Kaynaklanan Hatalar Testler uygulanırken test yönergelerinin ve maddelerinin iyi ifade edilmemesi nedeniyle öğrencilerin soruları yanlış anlamaları, Ölçme aracının iyi yapılandırılmamış, bozuk ya da hatalı olması, Ölçme aracının, kapsamı iyi temsil etmemesi nedeniyle öğrencilerin bildikleri konulardan sorular sorulduğunda yüksek puan almaları, bilmedikleri konulardan sorular sorulduğunda düşük puan almaları ölçme sonuçlarına hata karışmasına neden olur.
Ölçme İşleminin Yapıldığı Ortamdan Kaynaklanan Hatalar Ölçme aracı uygulanırken bulunulan ortamın sıcaklığı, ışığı, havalandırma durumu, gürültü düzeyi, sınav düzeninin kopya çekmeye uygun olup olmaması gibi faktörler ölçme sonuçlarına hata karışmasına neden olur.
Ölçme İşleminin Yapıldığı Kişiden Kaynaklanan Hatalar Ölçme işleminin yapıldığı bireylerin, ölçme işlemi yapılırken içinde bulundukları stres, motivasyon, heyecan, uykusuzluk, dikkat dağınıklığı gibi durumlar ya da ölçme işlemi yapılmadan geçirdikleri olumsuz yaşantılar nedeniyle (şok, tartışma vb.) gerçek performanslarını ortaya koyamamaları, ölçme sonuçlarına hata karışmasına neden olur.
BİR ÖLÇME ARACINDA BULUNMASI GEREKEN TEKNİK ÖZELLİKLER Bir ölçme aracında bulunması gereken teknik özellikler ifadesi aslında ölçme aracından elde edilen puanların teknik özellikleridir ve bunlar güvenirlik ile geçerliktir. Bu teknik özelliklerin yanı sıra ölçme araçlarında bulunması istenen bir diğer özellik de kullanışlılıktır.
Güvenirlik (Reliability) Güvenirlik, aynı şeyin bağımsız ölçümleri arasındaki kararlılıktır; ölçülmek istenen belli bir şeyin, sürekli olarak aynı sembolleri almasıdır; aynı süreçlerin izlenmesi ve aynı ölçütlerin kullanılması ile aynı sonuçların alınmasıdır; ölçmenin, tesadüfi yanılgılardan arınık olmasıdır (Karasar, 2003: 148).
Güvenirlik, teknik bir sorun olup, bilimsel çalışmanın ilk koşullarındandır. Araştırmalarda, aynı süreçlerin izlenmesi ile aynı sonuçların alınabilmesi istenir. Aksi halde, hangi sonucun "güvenilir" olduğuna karar verilemez. Bu, bir bakıma, araştırmalarda alınan bir sonucun, başka araştırmacılar tarafından da test edilebilmesidir. Bilim, ancak, bu tür doğrulamalarla güvenirlik ve saygınlık kazanır (Karasar, 2003: 148).
Ölçme araçlarından elde edilen puanların güvenirliğini belirlemek için çeşitli yollar bulunmaktadır. Bu yollar, ölçme aracını birden çok kez uygulamak, ölçme aracını kendisine eşdeğer bir ölçme aracı ile birlikte uygulamak ve ölçme aracının maddeleri arasındaki benzerlikleri bulmak şeklindedir. Bu yöntemlerin hepsinde benzerlikleri/uyumu bulabilmek için ölçme aracı ile yapılan ölçümler arasındaki ilişki, "korelasyon" adı verilen bir teknik kullanılarak elde edilir. Korelasyon katsayısı (r) ile belirlenir ve sıfır ile bir arasında değişen değerler alır. Değer bir (1.00)'e yaklaştıkça güvenirliğin yüksek olduğu kabul edilir (Karasar, 2003: 148).
Korelasyon katsayısı, değişkenler arasındaki ilişkinin düzeyini ve yönünü açıklayan sayısal bir değer olup, değişkenlerin özelliklerine uygun farklı teknikler kullanılarak hesaplanır. Değişkenler arasındaki ilişkilerin doğrusal olduğu durumlarda sıklıkla kullanılan Pearson korelasyon katsayısı iki değişkenin de sürekli olması ve değişkenlerin normal dağılım göstermesi durumunda önerilir. Değişkenler sürekli bir dağılıma sahipler, ancak normal dağılım göstermiyorlarsa, iki değişken arasındaki ilişkiyi açıklamak amacıyla Spearman Brown Sıra Farkları korelasyon katsayısı kullanılır (Köklü, Büyüköztürk, Çokluk, 2007).
İki değişken için hesaplanan korelasyon katsayısı (ryx), -1. 0 ile 1 İki değişken için hesaplanan korelasyon katsayısı (ryx), -1.0 ile 1.0 arasında değişik değerler alabilir. Korelasyon katsayısının 1.00 olması, mükemmel pozitif bir ilişkiyi; -1.00 olması, mükemmel negatif bir ilişkiyi; 0.00 olması, ilişkinin olmadığını gösterir. Korelasyon katsayısının, mutlak değer olarak, 0.70-0.99 arasında olması yüksek, 0.69-0.30 arasında olması orta, 0.29-0.01 arasında olması düşük düzeyde bir ilişki olarak tanımlanabilir.
İki değişken arasında pozitif bir ilişkinin olması, örneğin deneklerin X değişkenine ait değerlerin artması durumunda Y değişkenine ait değerlerin de artma eğiliminde olduğunu ya da X değerlerinin düşmesi durumunda Y değerlerinin de düşme eğiliminde olduğunu gösterir. Değişkenler arasındaki ilişkinin negatif olması ise, değişkenlerden birine ait değerlerin artması durumunda diğer değişkenin değerlerinin düşme eğiliminde olduğunu gösterir (Büyüköztürk vd., 2008: 97).
Pozitif Doğrusal (Aynı Yönde) İlişki Korelasyon katsayısının "+" yani "pozitif değerler aldığı ilişki türüdür. Pozitif ilişkide değişkenlerden biri azalırken diğeri de azalır; biri artarken diğeri de artar. Örneğin, çok ders çalışan bir öğrencinin sınavlarından yüksek puan alması ya da çok yemek yiyen birinin kilo alması değişkenler arasında pozitif yönde bir ilişki olduğunu gösterir.
Negatif (Ters Yönde) İlişki Korelasyon katsayısının "-" yani negatif değerler aldığı ilişki türüdür. Negatif ilişkide değişkenlerden biri azalırken diğeri artar. Örneğin, bir öğrencinin ders çalıştığı ortamdaki gürültü seviyesi arttıkça öğrencinin motivasyonunun düşmesi ya da enflasyon arttıkça bireylerin alım gücünün azalması değişkenler arasında ters yönde bir ilişki olduğunu gösterir.
Uygulamada güvenirlik kavramının üç farklı anlamda kullanıldığı görülmektedir. Ölçmenin amacına uygun olarak yeterli duyarlıkta olmayan bir araçla yapılan ölçmeler, daha duyarlı bir araçla yapılanlara göre daha az güvenilirdir. Burada güvenirlik, duyarlılık anlamında kullanılmakta olup, duyarlılık ölçme sonuçlarının veya ölçme aracının biriminin büyüklüğü ile ilgilidir. Ölçmenin birimi küçüldükçe duyarlılık artacaktır.
Bir özelliğin aynı araçla birden çok ölçüldüğünde ölçme sonuçlarının birbirinden dikkate değer ölçüde farklılık göstermemesi, ölçme sonuçlarının kararlılığını gösterir. Burada güvenirlik, kararlılık anlamında kullanılmıştır.
Ölçmelerdeki kararsızlık, fiziksel ölçmelerde ölçülen özellikte değişme olmadığından ölçme aracından veya ölçmeyi yapan kişiden; hatta ölçme aynı araçla yapıldığında sadece ölçmeyi yapandan kaynaklanır. Güvenirlik ise bu durumda sadece ölçme işlemiyle ilgilidir. Eğitim ve psikolojik ölçmelerdeki kararsızlık ise, araç veya ölçmeyi yapanın dışında ölçülecek özellikteki zamana bağlı değişme nedeniyle ölçülen özellikten de kaynaklanabilir.
Bir testi oluşturan madde puanlarının testten elde edilen toplam puan ile dikkate değer pozitif korelasyon vermeleri ise, ölçme sonuçlarının tutarlılığı olarak tanımlanır. Maddelerin ölçülmek istenen özellik bakımından homojen olması tutarlılığı artıracaktır (Büyüköztürk vd., 2008: 96- 97).
GÜVENİRLİK BELİRLEME YÖNTEMLERİ Birden Fazla Uygulamaya Dayalı Yöntemler Test-Tekrar Test Yöntemi Bu yöntemle test güvenirliğini kestirmek için, bir test aynı gruba belli bir zaman aralığıyla iki kez uygulanır. Daha sonra bireylerin birinci uygulamada aldıkları puanlarla ikinci uygulamada aldıkları puanlar arasındaki korelasyon bulunur. Elde edilen korelasyon katsayısı testin güvenirlik katsayısıdır (Tekin, 2008: 58).
Bu güvenirlik katsayısı ne kadar yüksekse test puanları, test dışındaki çevresel ve bireysel değişimlere o derece daha az duyarlı olacaktır. Test tekrar test yöntemi ile elde edilen güvenirlik katsayısı "kararlılık katsayısı" olarak bilinir. Kararlılık, bir testin birden çok kez uygulanması sonucu benzer sonuçlar elde edilmesidir. Yani bir ölçme aracının ölçmeden ölçmeye değişmeyen sonuçlar vermesidir. Bu katsayı ne kadar yüksekse güvenirlik de o derece yüksek olacaktır.
Test-tekrar test yöntemiyle güvenirlik belirlenirken iki uygulama arasına belirli bir zaman bırakılır. Bu zaman çok uzun olmamalıdır. Zaman uzun bırakılırsa öğrenciler yeni öğrenmeler gerçekleştireceğinden iki uygulama birbirini tutmaz. Eğer zaman çok kısa tutulursa öğrenciler soruları hatırlayacağından aynı cevapları okumadan verirler. Bu sıkıntıları önlemek için iki uygulama arasındaki zaman öğrencilerin yeni öğrenmeler gerçekleştiremeyecekleri kadar kısa, soruları hatırlayamayacakları kadar da uzun olmalıdır.
Test - tekrar test yöntemi başarı testlerinin güvenirliğini bulurken genelde tercih edilmez. Başarı kısa zamanda değiştiği için test - tekrar test sonuçlarının düşük çıkma olasılığı güçlüdür. Böyle bir durumda test güvenilir olsa bile güvenilir değilmiş gibi görünür. Test - tekrar test yöntemi ile daha çok, kısa zamanda değişmeyen psikolojik özellikleri ölçen testlerin güvenirlikleri bulunur: zekâ, yetenek, kişilik, inanç, tutum vb.
Bu yöntemde öğrencilerin her iki uygulamadan da birbirine yakın puanlar alması beklenir. Ancak birinci uygulamadan sonra öğrencilerin soruları hatırlamaları, sorularla ilgili yeni öğrenmeler gerçekleştirmeleri gibi nedenlerle öğrencilerin iki uygulamadan aynı puanları almaları güçtür. Ayrıca, bir testin aynı öğrencilere iki kez uygulanması genelde zordur. Bu da test - tekrar test yönteminin bir sınırlılığıdır.
Paralel - Eşdeğer Formlar Yöntemi Birbirine paralel yani aynı davranışları ölçen, fakat farklı sorulardan oluşan iki paralel testin, aynı öğrenci grubuna uygulanmasına dayanan yöntemdir. Öğrencilerin, birbirine eşdeğer iki farklı testten aldıkları puanlar arasındaki korelasyon katsayısı hesaplanır.
Bu hesaplanan korelasyon katsayısı koşulları uyuyorsa genellikle Pearson Momentler Çarpımı Korelasyon Katsayısıdır ve ölçeğin paralel formlar güvenirliğini (eşdeğerlik katsayısını) verir. Bu güvenirlik katsayısı, eğer uygulama aynı zamanda yapılmış ise rastgele hatalar ve iki form arasındaki farklılıktan kaynaklanan hataları (eşdeğerlik katsayısı), eğer iki farklı zamanda uygulanmışsa bunlara ek olarak zamanla ilgili hataları da içerir (Tavşancıl, 2006: 26).
Korelasyon katsayısının yüksek olması uygulanan iki testin aynı özelliği benzer şekilde ölçtüğünü yani eşdeğer olduğunu, dolayısıyla güvenilir olduğunu gösterir. Bu yöntemde farklı sorulardan oluşan iki ayrı test kullanıldığı için test - tekrar test yönteminde bir dezavantaj olan hatırlama sorununun önüne geçilmiş olur.
Genellikle bu yöntemle elde edilen güvenirlik katsayısı, diğer yöntemlerle elde edilenlerden daha küçük çıkar. Fakat paralel testler yöntemi, bir testin tek formunun aynı öğrenci grubuna iki kez uygulanmasından daha kullanışlıdır. Çünkü bireylerin ya da grubun testin bir formundan elde ettikleri puanları, birinci formla eşdeğer olan ikinci formdan elde ettikleri puanlarla kontrol olanağı verir (Tekin, 2008: 60).
Ölçeğin iki paralel formu yoksa bu güvenirlik katsayısı hesaplanamaz Ölçeğin iki paralel formu yoksa bu güvenirlik katsayısı hesaplanamaz. Paralel iki formun eşdeğerliğinin belirlenebilmesi için her ikisinin de içindeki madde sayısı, niteliği, kullandığı ölçekleme tekniği (Likert, Thurstone, vb.), faktör yapısı ve ölçtükleri davranış bakımından birbirine denk olmasına dikkat edilmelidir.
Örneğin dilsel eşdeğerlik katsayısı hesaplanırken bile, orijinal formun maddelerinde azaltma ve/veya yeni bir madde eklendiğinde eşdeğerliğin ön koşulu yerine getirilmemiş olmakta ve bulunan ilişki dilsel eşdeğerlik anlamına gelmemektedir. Bu ön koşulları karşılamadaki zorluklar nedeniyle güvenirliğin belirlenmesinde genellikle yarı test güvenirlik yöntemi ve diğer iç tutarlık güvenirlik katsayıları kullanılır (Tavşancıl, 2006: 27).
Tek Uygulamaya Dayalı Yöntemler Testi Yarılama Yöntemi Test güvenirliğini tahmin işinde en çok kullanılan yöntemdir. Çünkü bu yöntem, tek bir test formu, tek bir öğrenci grubu ve tek bir test uygulaması gerektirir. Bu yöntemle test güvenirliğini tahmin etmede, uygulanmış olan test iki eşdeğer yarıya bölünerek öğrencilerin testin iki yarısından aldıkları puanlar arasındaki korelasyon hesaplanır ve daha sonra bu hesaplanan korelasyondan hareketle Sperman-Brown formülünden de yararlanarak testin bütününün güvenirliği kestirilir (Tekin, 2008: 60).
Spearman-Brown Formülü Formülde, r, iki eş yarıdan elde edilen puanlar arasında hesaplanan korelasyon katsayısını (iki eş yarıya ait ortak güvenirliği) göstermektedir. Bu formül ile elde edilen güvenirlik, eşdeğer iki yarıdan birinin güvenirliğinden daha yüksektir. Bu nedenle, testin tamamı için hesaplanan güvenirliğe yükseltilmiş güvenirlik de denir (Büyüköztürk vd, 2009, 101).
Bu yöntemle test güvenirliğini tahmin ederken karşılaşılan sorun, testin iki eşdeğer yarıya bölünebilmesidir. Testi iki eşdeğer yarıya bölmenin bir yolu, testteki tek numaralı sorularla çift numaralı soruları ayrı puanlamaktır. Bu iki eşdeğer yarıdan elde edilmiş puanlar takımı, ayrı ayrı testlerden elde edilmiş gibi işlem görürler (Tekin, 2008: 60).
Bir ölçeğin iki yarısına ait puanlardan iç tutarlılık katsayısını tahminde Spearman-Brown dışında Stanley, Cronbach Alfa, Rulon, Flanagen, Mossier, Horst gibi teknikler de vardır ve bunların hepsi yarı test iç tutarlık katsayıları olarak adlandırılır (Tavşancıl, 2006: 28-29).
Ölçeğin güvenirliği için, özellikle ölçeğin iki yarısının varyansı eşit olmadığı durumlarda Spearman-Brown formülü yerine Cronbach tarafından geliştirilen Cronbach Alfa Katsayısı kullanılır.
Cronbach-Alfa Yöntemi Maddeleri çoklu puanlanabilen testlere (likert tipi derecelendirme ölçekleri) uygulanabilen bir yöntemdir. Test puanlarının güvenirliğinin bir alt kestiricisi olarak kullanılan a katsayısı, özellikle cevapların derecelendirme ölçeğinde elde edildiği durumlarda sıklıkla kullanılır, a katsayısının hesaplanmasında testi oluşturan maddelerin (bileşenlerin) varyanslarının toplam puanların varyansına bölünmesi temel alındığından test maddelerinin ölçmenin bütünüyle ne kadar tutarlı olduğunu gösterir. Başka bir deyişle a katsayısı maddelere ait puanların toplam test puanlarıyla tutarlılığının bir ölçüsüdür.
Cronbach Alpha Formülü
Maddenin Tutarlılığına Dayalı Yöntemler KR-20 ve KR-21 KR-20 formülü, bir test maddesine verilen cevaplar 1 (doğru) ve 0 (yanlış) ile puanlandığında kullanılır. Test maddelerine verilecek cevapların doğru/yanlış olmasının yanı sıra evet/hayır gibi iki seçenekli olması durumunda da KR-20 formülü kullanılabilir.
Kuder-Richardson 20 formülü, testteki maddeler farklı ağırlıklarla puanlanmışsa veya test puanları şans başarısı için düzeltilmişse kullanılmaz (Tekin, 2008: 64).
Bu formüllerle elde edilen güvenirlik katsayısı "iç tutarlılık katsayısı" olarak bilinir. Güvenirlik katsayısının yüksek olması test maddelerinin birbiriyle tutarlı, dolayısıyla maddeler arasında ilgisiz ya da hatalı madde bulunmadığı anlamına gelir. KR-20, bir testin içindeki maddeler farklı güçlükte olduğunda kullanılan bir yöntemdir.
Test maddelerinin güçlük katsayılarının eşit olduğu durumlarda KR-21 formülü, KR-20 yerine kullanılabilir. KR-21 formülünde madde istatistikleri yerine test istatistikleri kullanıldığından bu yolla güvenirlik katsayısı hesaplanması daha kolaydır. Aynı veriler için KR-21'den elde edilen değer, KR-20'ye eşit veya daha düşük olacaktır.
KR-20/KR-21 Arasındaki İlişki KR-21 ile hesaplanan güvenirlik katsayısı, KR-20 ile hesaplanan güvenirlik katsayısından genellikle küçüktür (KR21 < KR20). KR-21 ile hesaplanan güvenirlik katsayısı KR-20 ile hesaplanan güvenirlik katsayısından küçük olduğu için; KR-21 güvenirliğin alt sınırıdır. Güvenirlik ister KR-20 ile ister KR-21 ile hesaplansın, yapılacak yorum değişmez.
KR-20 ya da KR-21 yüksek ise yapılabilecek yorumlar şunlardır: Uygulanan test hatalardan arınıktır. Testi oluşturan maddeler homojendir. Ölçülen değişken tek boyutludur.
Güvenirlik Artırma Yolları Eğitimde ölçme sonuçlarının (puanların) güvenirliğini düşüren bazı durumlar vardır. Ölçme sonuçlarının güvenirliğini sağlamak için bunlardan uzak durulmalı ve güvenirliği artırmak için de aşağıdaki önlemler alınmalıdır:
Bir sınavda sorular iyi ifade edilmemişse öğrenciler sorulara doğru yanıt veremeyecektir. Bu nedenle bir sınavda kullanılan soruların öğrenciler tarafından açıkça anlaşılır olması ve sorunun yanıtının kesin olması sınavdan elde edilen puanların güvenirliğini artırır. Güvenirliği artırmanın en öncelikli yolu soruların anlaşılırlığını artırmaktır.
Bir sınavdaki soru sayısı arttıkça genellikle o sınavdan elde edilen puanların güvenirliği de artar. Ancak soru sayısının artırılması her zaman güvenirliği artırmaz. Bir teste soru eklendikçe güvenirlik artmaya başlar. Ancak testin güvenirlik katsayısı alabileceği en yüksek değere ulaşınca soru eklenmesi güvenirliği artırmaz. Ayrıca çok uzun bir testi alan öğrencilerde, zaman geçtikçe yorgunluk, bıkkınlık, can sıkıntısı ve dikkatsizlik belirtileri görülür. Bu etkenler, verilen cevabın güvenirliğini, dolayısıyla testin güvenirliğini düşürücü yönde etkiler.
Ölçtükleri davranış ve konu bakımından homojen maddelerden oluşan bir ölçme aracından elde edilen puanlar benzeşik olmayan heterojen bir ölçme aracından elde edilen puanlardan daha güvenilir olur (Tavşancıl, 2006: 33).
Farklı uzmanlar tarafından verilen puanlar arasındaki tutarlılığı yansıtan puanlama güvenirliğinin yüksek olması, testten elde edilen puanların güvenirliğini yükseltecektir. Puanlamanın nasıl yapılacağının belirgin ve net olduğu eşleştirmeli testler ile doğru-yanlış veya çoktan seçmeli testler gibi objektif testlerde puanlama puanlayıcıya göre değişmeyeceğinden bu tür testlerden elde edilecek puanların güvenirliği, puanlayıcı yanlılığının karışması olasılığı bulunan yazılı ve sözlü sınavlara göre daha yüksek olacağı açıktır (Büyüköztürk vd., 2008: 105).
Sınav için, bütün bireylerin soruları okuyarak yanıtlayabilecekleri kadar sürenin verilmesi güvenirliği artırır. Bu sürenin gereğinden fazla uzatılması hâlinde güvenirlik kopya nedeniyle düşebilir. Sınavda yer alan soruların, sınava katılan öğrencilerin yaklaşık yarısı tarafından yanıtlanabilir olması (madde güçlüklerinin 0,5 ve civarında olması) güvenirliği artırır.
Ölçmede duyarlılığı yüksek olan araçların kullanılması ve ölçme sonuçlarının duyarlı olarak kaydedilmesi güvenirliği artırır. Duyarlılık, soru sayısını çoğaltarak ya da puanlama sistemini daha ayrıntılı hâle getirerek artırılabilir. 5 üzerinden puanlamak yerine 100 üzerinden puanlarsak daha duyarlı ölçüm yapmış oluruz. Testin uygulandığı öğrenci sayısını artırmak testin güvenirliğini artırır. Öğrencilere testle ilgili ayrıntılı açıklamalar verilmesi (yönerge) güvenirliği artırır.
Geçerlik (Validity) Geçerlik, bir ölçme aracının ölçmeyi amaçladığı özelliği, başka herhangi bir özellikle karıştırmadan, doğru olarak ölçebilme derecesidir. Başka bir deyimle, bir ölçme aracının, geliştirilmiş bulunduğu konuda maksada hizmet etmesidir (Tekin, 2008: 42).
Ölçmede geçerlik, ölçülmek istenen şeyin ölçülebilmiş olma derecesidir; ölçülmek istenenin, başka şeylerle karıştırılmadan ölçülebilmesidir (Karasar, 2003: 150). Bir testin, belli özellik ya da özelliklerin geçerli bir ölçüsü olabilmesi için, onun, söz konusu özellik ya da özellikleri tutarlı biçimde ölçmesi de gerekir. Bu nedenle güvenirlik, geçerliğin önemli bir parçasıdır(Tekin, 2008: 43).
Bir ölçmenin geçerli sayılabilmesinin ilk koşulu, onun güvenilir olmasıdır. Nitekim geçerlik için erişilebilecek en üst sınır güvenirlik katsayısının karekökü kadardır. Örneğin, güvenirliğin .36 olduğu bir durumda geçerlik katsayısı, en çok .60 olabilir. Güvenirlik, geçerlik için üst sınır koyabilmekte ise de, hiç bir zaman, geçerliği garantileyemez (Karasar, 2003: 150).
Bir ölçek başka yönleriyle ne kadar yüksek nitelikli, örneğin ölçtüğü özelliği ne kadar az hata ile ölçmekte olursa olsun istenilen özelliği, başka özelliklerle karıştırmadan ölçen bir ölçek olmadıkça işe yaramaz. Böyle bir ölçeği kullanmak, bilimsel anlamda yanıltıcı, uygulama açısından verimsiz olur ve ölçeğin sonuçlarına dayalı çıkarımlar, yorumlar bir anlam taşımaz (Tavşancıl, 2006: 34).
Ölçeğin geçerliğini bozan etkenler, ölçek geliştirme ve uygulama süreci ile ilgilidir. Sosyal bilimlerde değişkenlerin kontrolünün güçlüğü de elde edilebilecek geçerlik katsayısını sınırlandırmaktadır. Araştırmacıların kabul edilebilir bir geçerlik katsayısının kaç olması gerektiğine ilişkin somut cevap arayışı ile ilgili olarak Cronbach "elde edebileceğinizin en iyisi" olduğunu söylemektedir.
Sosyal durumlar ve insanlar sürekli olarak değiştiklerinden bilimlerde geçerlik katsayısının 0.60'ın üzerine çıkması çok sık rastlanılan bir durum değildir ve 0.20 düzeyinde bir geçerlik tahmini bile önemli sayılabilecek pratik katkı sağlayabilecektir (Tavşancıl, 2006: 36).
Geçerlik Türleri Literatürde değişik sınıflandırmalara rastlanmakla birlikte APA (1997) ile Croceker ve Algina'nın (1986) çalışmalarında da görüldüğü üzere geçerlik türlerinin üç grupta toplanması daha çok tercih edilmektedir. Bunlar, "kapsam (content)" "ölçüt (criterion)" ve "yapı (construct)" geçerliğidir.
Bir ölçme aracının geçerliğini incelemede birbirleriyle ilişkili olan bu üç geçerlik türünü kapsayan bilgilerin elde edilmesi beklenir. Ancak ölçme amacına göre bazı geçerlik türleri daha ön plana çıkabilir. Örneğin başarı testlerinin geliştirilmesinde kapsam geçerliği ön plandadır. Öte yandan özellikle tutum gibi duyuşsal bazı özelliklerin ölçüldüğü bir çalışmada yapı ve ölçüt geçerlikleri ön planda tutulabilir (Büyüköztürk vd., 2008: 106).
Kapsam Geçerliği (Content Validity) Kapsam (içerik) geçerliği, testi oluşturan maddelerin (soruların) ölçülmek istenen tanımlanmış davranışlar evrenini (bütününü) ölçmede ne derece temsil ettiğine, örneklediğine ilişkindir. Buna göre kapsam geçerliği, ölçme amacına yönelik olarak test maddelerinin sayısı ve kalitesiyle yakından ilgilidir.
Bu yaklaşım, ölçülmek istenen konularla ilgili davranışlar kümesinin (evreninin) açıkça belirlenmiş olmasını ve daha sonra bu davranışları sorgulayacak test maddelerinin (davranışlar örnekleminin) oluşturulmasını gerektirir. Kapsam geçerliğine sahip bir test, ölçülecek davranış alanı için iyi bir davranış örneklemi olarak görülür. Bu geçerlik türü, konulan ve yoklanacak davranışları belli olan başarı testlerini geliştirmede başlangıç noktasıdır. Buna karşılık yetenek ve tutum gibi soyut kavramlarla tanımlanan davranışların içeriğini ve sınırlarını açık bir şekilde belirlemek güçtür (Büyüköztürk vd., 2008: 106-107).
Kapsam geçerliğinde "test maddeleri ölçülmek istenen davranışı yeterince yansıtıyor mu?" sorusunun cevabı aranır. Burada her bir maddenin tanımlanmış davranışları ölçmede yeterli veya uygun bir soru olup olmadığına bakılır. Başarı testleri için konu-davranış karşılaştırmasını içeren belirtke tablosu hazırlamak, bu konuda önemli ipuçları verir. Kapsam geçerliğini incelemede kullanılan mantıksal yollardan biri, uzman görüşüne başvurmaktır.
Atatürk İlkeleri ve İnkılâp Tarihi Akademik Başarı Testi Belirtke Tablosu Bilgi Kavrama Uygulama Analiz Sentez Değerlendirme BMM’nin Açılış Hazırlıkları 1 Meclisin Çalışmaları İlk Büyük Millet Meclisi’nin Özellikleri İç İsyanlar ve Ülkede Asayişin Sağlanması Mondros Mütarekesi’nden Sonra İtilaf Devletlerinin Türkiye Üzerindeki Yeni Projeleri
Uzmandan beklenilen, testin taslak formunda yer alan maddelerin uygunluğunu, ölçülmek istenen davranışlar (kapsam) bakımından değerlendirmesidir. Uzman görüşleri, açık ve/veya kapalı uçlu sorulardan oluşan bir uzman değerlendirme formundan yararlanılarak alınabilir. Uzman görüşü dışında kapsam geçerliğini incelemede kullanılan bir başka yol, test puanlarının aynı kapsamı ölçtüğü bilinen bir başka testten elde edilen puanlar arasındaki korelasyonun hesaplanmasıdır. Hesaplanan korelasyonun yüksek çıkması, testin kapsam geçerliğinin bir kanıtı olarak düşünülebilir(Büyüköztürk vd., 2008: 107).
Ölçüt Geçerliği Test puanlarının (yordayıcı), testin ölçtüğü özellikle ilişkili olduğu düşünülen başka ölçme sonuçları (ölçüt) ile korelasyonu puanların ölçüt bağlantılı geçerliğini gösterir. Bu tür bir ilişki, geçerli ve güvenilir ölçüt puanlarını gerektirir. Buna göre ölçüt geçerliği çalışmalarının sonuçlarına, ölçütün uygunluğu ile ölçüte ait puanların geçerli ve güvenilir olması ölçüsünde güvenilebileceği söylenebilir.
Bu nedenle ölçütün kararlaştırılması önemli bir süreçtir ve bu aşamada alan uzmanlarından yararlanılması önerilir. Ölçüt geçerliği çalışmalarında, test puanlarının ölçüt puanlarını ne derece yordadığına (açıkladığına) ilişkin bilgilere ulaşılmak istenir. Ölçüt geçerliği, ölçüt puanlarının elde ediliş zamanına göre, "eşzaman (concurrent)" geçerlik ve "yordayıcı (predictive)" geçerlik olmak üzere ikiye ayrılır (Büyüköztürk vd., 2008: 107).
Eşzaman Geçerliği Ölçüt puanlarının test puanları ile aynı zamanda veya yakın bir zaman önce elde edilmesi durumunda test puanları ve ölçüt puanları arasında hesaplanan korelasyon olarak tanımlanan eşzaman geçerliği literatürde farklı isimlerle de anılmaktadır. Örneğin, zamandaş geçerlik, halihazır geçerlik, uygunluk geçerliği, uyum geçerliği, benzer ölçekler geçerliği gibi.
Matematik performansını ölçme amacıyla oluşturulan elde edilen matematik tutum puanları arasında hesaplanan korelasyon, eşzaman geçerliğine ilişkin bir örnektir. Bu geçerlik türünde ölçüt puanları yakın bir zaman öncesinde ölçülmüş olabilir. Öğrencilerin test puanlarının, geçerli ve güvenilir olduğu kabul edilen bir dönem önceki matematik başarı puanları (ölçüt) ile karşılaştırılması buna örnektir (Büyüköztürk vd., 2008: 107-108).
Yordama Geçerliği Yordama geçerliğinde, test puanı ile gelecekte ölçülecek davranış arasındaki ilişki incelenerek test puanlarının gelecekteki davranışı ne derece yordadığı araştırılır. Tanımdan anlaşılacağı gibi ölçüt puanları test puanlarının elde edildiği zamandan daha ileri bir tarihte elde edilir. Yordama geçerliğinde ölçüt gelecekte ölçülecek (gözlenecek) davranıştır.
Örneğin, üniversiteye giriş için uygulanan testten elde edilen puanlar (YGS) ile öğrencinin yerleştirildiği yükseköğretimdeki başarısı arasında hesaplanacak korelasyon YGS'nin yordama geçerliğini verecektir. Burada yükseköğretimdeki başarı puanı ölçüt olarak alınmıştır. Çünkü, YGS'nin öğrencileri başarılı olacakları programlara yerleştirdiği varsayımı vardır (Büyüköztürk vd., 2008: 108).
YAPI GEÇERLİĞİ Yapı geçerliği testten elde edilen puanların test ile ölçülmek istenen kavramın (yapının) gerçekte ne derece ölçülebildiği ile ilgilidir. Tutum, performans, yetenek gibi psikolojik yapıları, özellikleri ölçmeyi amaçlayan araştırmacılar, öncelikle bu yapının işlevsel tanımlarından yola çıkılarak çok sayıda ölçülebilir, gözlenebilir sorular oluştururlar. Hazırlanan bu soruların ölçülmek istenen yapıyı ne derece doğru ölçtüğü sorunu, yapı geçerliğiyle ilgilidir (Büyüköztürk vd., 2008: 108).
Yapı geçerliğini incelemek amacıyla sık kullanılan iki yöntem, faktör analizi ve hipotez testidir. Hipotez testi yaklaşımında araştırmacı, benzer ölçekler arasında beklenen pozitif veya negatif bir korelasyonun veya özelliği bilinen grupların test puanları arasındaki farkın anlamlılığını test edebilir.
Örneğin geliştirilmekte olan sosyal iletişim becerileri testi için benzer ölçek, daha önce geçerli ve güvenilir olduğu belirlenen genel uyum testi puanları olabilir. Bu iki test puanı arasındaki ilişkinin anlamlılığı sınanabilir. Öte yandan okulöncesi eğitim alan çocukların sosyal iletişim becerileri testi ortalama puanının, bu eğitimi almayanların ortalama puanından yüksek olması beklenir. Bu iki grubun test ortalama puanları arasındaki fark, ilişkisiz t-testi ile test edilebilir (Büyüköztürk vd., 2008: 108-109).
Faktör analizi (FA), yapı geçerliğine ilişkin, "bu testten elde edilen puanlar, testin ölçtüğünü varsaydığı şeyi ölçüyor mu?" sorusuna cevap arar. Bu anlamda, faktör analizi test/ölçek puanlarının yapı geçerliğinin değerlendirilmesine önemli katkı sağlar. Yapı geçerliğini incelemede amaç, ölçeğin faktör yapısını ortaya çıkartmak ise "açımlayıcı faktör analizi"; daha önce belirlenen ölçek faktör yapısının doğrulanması ise "doğrulayıcı faktör analizi" teknikleri kullanılır (Büyüköztürk vd., 2008: 109).
Literatürde rastlanan bir geçerlik türü de görünüş geçerliğidir Literatürde rastlanan bir geçerlik türü de görünüş geçerliğidir. Görünüş geçerliği, bir ölçme aracının ismi, açıklamaları ve sorularıyla ölçmeyi amaçladığı özelliği ölçüyor görünmesi olarak tanımlanabilir. Bir fizik testinde ön sayfada testin adının içeriği yansıtacak şekilde yazılmış olması, cevaplama yönergesinin ölçülmek istenilen fizik konularıyla bağlantılı olarak testin amacı ve kapsamı hakkında bilgileri içermesi, soruların ilk görünüşte fizik ile ilgili sorular izlenimi vermesi görünüş geçerliğini gösterir (Büyüköztürk vd., 2008: 109).
Geçerliği Etkileyen Faktörler Ölçülmek istenen özelliği diğer özelliklerle karıştırmadan ölçebilme veya kısacası test puanlarının ölçülmek istenen özellikleri yansıtmadaki yeterlik derecesi olarak açıklanabilen geçerliği etkileyen faktörler güvenirlik, ölçme yöntemi ve test maddeleri, puanlayıcı yanlılığı ve uygulama koşulları olmak üzere dört başlıkta açıklanmaya çalışılmıştır (Büyüköztürk vd., 2008: 109).
Ölçme sonuçlarının güvenirliği Bir testten elde edilen puanların geçerliği, puanların güvenilir olmasını gerektirir. Tutarlı ölçümlerin elde edilemediği bir uygulamada geçerliğin yüksek olması beklenemez. Örneğin, bir grup öğrencinin matematik performanslarını ölçmek amacıyla bir uygulama yapılıyor. Öğrencilerin testten elde ettikleri madde puanlarının toplam test puanı ile ilişkili olmadıkları, aynı test ile daha sonra yapılan ölçmelerin ise ilk ölçme sonuçları ile tutarlılık göstermediği, kararlı olmadıkları görülüyor. Bireylerin test puanları arasında gözlenen değişkenlik, gerçeği yansıtmaktan çok hatayı yansıtıyor. Bu durumda, test puanlarına ölçülmek istenen matematik performansı dışında başka değişkenlerin de karışacağı, bunun da geçerliği düşüreceği açıktır (Büyüköztürk vd., 2008: 109-110).
Ölçme yöntemi ve madde sayısı Bir testin ölçmeyi amaçladığı davranışların iyi bir örneklemi olması beklenir. Bunun için hem testte yer alacak maddelerin sayıca yeterli olması hem de kaliteli olmaları beklenir. Madde sayısı arttıkça testin ölçülmek istenilen davranışları, konuları kapsama olasılığı artacak ve geçerlik bundan olumlu yönde etkilenecektir.
Öte yandan çok sayıda soru sorma olanağı nedeniyle çoktan seçmeli testlerin, ölçülmek istenilen davranışları kapsama olasılığının yazılı sınavlara göre daha yüksek olması, testlerin geçerliğinin daha yüksek olmasına neden olabilir. Teste madde seçimi için planlı bir yol izlenmemesi ve özen gösterilmemesi nedeniyle kaliteli maddelerin seçilememesinin de sonuç olarak geçerliği düşüreceği söylenebilir (Büyüköztürk vd., 2008: 110).
Puanlayıcı yanlılığı Öğrencilerin teste veya yazılı bir sınava verdikleri cevapları puanlandırmada puanlayıcıların (öğretmen, araştırmacı vb.) yazının güzelliği, öğrencinin sınıf içindeki davranışları gibi değişik faktörleri gözeterek fazla veya eksik puan vermesi geçerliği düşürecektir. Çünkü öğrencinin test puanına test ile ölçülen özellik dışında başka değişkenler de karışmıştır (Büyüköztürk vd., 2008: 110).
Uygulama koşulları Ölçmelerin standart, uygun koşullarda yapılmaması da geçerliği olumsuz yönde etkiler. Örneğin, sınav ortamının gürültülü olması, sınav zamanının uygun olmaması vb. istenmedik dış faktörlerin test puanlarına karışması nedeniyle sonuçların geçerliğinin düşeceği açıktır (Büyüköztürk vd., 2008: 110).
Geçerlik Artırma Yolları Her sorunun belirtke tablosunda yer alan bir davranışı ölçmesi kapsam geçerliğini dolayısıyla da geçerliği artırır. Sınavda kopya çekme, ipuçlarından yararlanma, tahminle doğru yanıtlama gibi geçerli olmayan davranışların engellenmesi, geçerliği yükseltir. Öte yandan soru sayısının arttırılması da geçerliği arttırır.
Aynı soruların daha sonraki yıllarda tekrar tekrar sorulması, soruların öğrencilerin bildiği bir kaynaktan aynen alınıp kullanılması, sınavdan önce soruların verilmesi, sınav süresi kısa olduğu için bazı soruların yanıtlanamaması, sınav süresinin gereğinden uzun olmasından dolayı kopya çekilmesine fırsat verilmesi gibi durumlar geçerliği düşüren nedenlerdir. Bu nedenle sınavlar hazırlanırken ve uygulanırken bu unsurlara dikkat edilmesi geçerliği artırır.
Güvenirlik ve Geçerlik Arasındaki İlişki Güvenirlik, geçerlik için gerekli bir koşuldur, fakat yeterli değildir. Güvenilir ölçmelerin olması, geçerliği garantilemez. Örneğin bir matematik başarı testi tutarlı ölçümler verebilir. Ancak test puanlarının, testte yer alan soruların içerikleri incelendiğinde veya aynı amaca yönelik geçerliği kanıtlanmış bir başka testle ilişkisine bakıldığında belirlenen üniteye ilişkin matematik başarısı yerine, örneğin matematik yeteneği veya bir başka özellik ile ilgili olduğu görülebilir (Büyüköztürk vd., 2008: 110).
Ölçme sonuçlarının güvenirliği, sonuçların geçerliğini etkileyen ve onu sınırlandıran temel bir faktör olarak açıklanabilir. Güvenirliği etkileyen her şey geçerliği de etkiler. Bir öğretmenin her yıl aynı sınav sorularını sorması geçerliği düşürür. Bir testten elde edilen puanlar için hesaplanacak geçerlik katsayısı, güvenirliğin karekökünden fazla olamaz. Örneğin, güvenilirlik katsayısı .81 olan test puanları için geçerlik katsayısı .90’ı geçemez.
Ölçmeye karışan hataların test puanlarının hem güvenirliğini hem de geçerliğini düşüreceği bilinmektedir. Test puanlarının geçerliği ölçmede yapılan sabit, sistematik ve tesadüfi hataların tümünden etkilerken, güvenirliğin kaynağı net olarak bilinmeyen tesadüfi hatalardan etkilendiği söylenebilir.