Ölçme Araçlarının Yapısal Nitelikleri Dr. Fatih DERVENT fatih.dervent@marmara.edu.tr
GÜVENİRLİK Bir ölçme aracının ölçmeye çalıştığı bir özelliği her defasında aynı sonucu verecek şekilde ölçebilmesi (Sabancı, 2000). Bir ölçme aracı her uygulanışında aynı sonucu veriyorsa güvenilirdir.
GÜVENİRLİK Güvenirlik ile ölçme hatası arasında ters bir ilişki vardır; yani güvenirlik arttıkça ölçme işleminde yapılan hata oranı da o derece düşer (Sabancı ,2000). Bir ölçme aracı ne kadar çok hatalı sonuç veriyorsa o kadar az güvenilirdir.
Sabit Hatalar Her bir ölçme için miktarı değişmeyen hatalardır. Ölçümlerin ortalamasını gerçekte olduğundan büyük ya da küçük gösterebilir, fakat ölçümlerin dağılım ölçülerini değiştirici yönde bir etkiye sahip değillerdir. Hatalar her ölçümde aynı oranda ortaya çıkar.
Sistematik Hatalar Öğretmenin, sadece tenisçilere ait cevap kağıtlarına 5 puan fazla vermesi kağıtları puanlanırken yazısı düzgün ve okunaklı olanlara fazla puan verilmesi Puanlayıcı yanlılıklarını yansıtan tüm hatalar sistemlidir. Hata, hep aynı oranda ortaya çıkmaz.
Tesadüfi Hatalar Kaynakları iyi bilinmeyen ve ölçme sonuçlarına gelişigüzel karışan hatalar Farklı ortamlarda ortaya çıkar ve ne zaman ortaya çıkacağı tam olarak bilinmez.
GÜVENİRLİK Ölçme aracının tüm bu hatalardan bağımsız/arınmış olma düzeyi.
Kararlılık Ölçülen özellikte zamana özgü bir değişim meydana gelmemesi. Bir özelliğin bir ölçme aracıyla farklı zamanlarda ölçülmesi durumunda aynı sonuçlara ulaşılması.
Duyarlılık Birim küçüldükçe duyarlılık artar. Ölçme araçlarının birimiyle ilgili bir kavramdır. Birim küçüldükçe duyarlılık artar.
Tutarlılık Ölçme aracında yer alan her maddenin, ölçme aracının bütünüyle ölçülmek istenen özelliği ölçebilmesi ile ilgilidir.
GÜVENİRLİK Ölçme aracının kararlı, tutarlı ve duyarlı sonuçlar veriyor olması.
Güvenilirlik, hem kullandığımız ölçme araçları hem de bu araçlarla elde edilen ölçümlerin kalitesiyle ilgili olan bir kavramdır. Güvenirlik, hesaplanmış bir korelasyon katsayısı (r) ile belirlenir ve sıfır ile bir arasında değişen değerler alır. Değer bir (1.00)'e yaklaştıkça güvenirliğin yüksek olduğu kabul edilir.
Güvenirliği düşük olan bir ölçmenin hiç bir bilimsel değeri olmadığı gibi, güvenirliğin yüksek olması da, yapılan ölçmenin amaca uygunluğunun garantisi değildir. O halde, güvenirlik, zorunlu fakat yeterli bir koşul değildir (Küçükahmet, 2003).
Güvenirlikte Hata Kaynakları Denek Hatası : Sözgelimi, çalışanların işlerine bağlılık ve istek derecelerini ölçmeye yönelik bir anket uygulanıyor olsun. Eğer, anket haftanın değişik günlerinde doldurulmuşsa farklı cevapların verileceği açıktır. Pazartesi sabahı ile Cuma öğlen sonrası verilecek cevaplar değişik olur. Böyle bir çalışma için araştırmacı, mümkün olduğunca nötr bir zaman seçmelidir.
Gözlemci Hatası: Güvenilirliği tehdit eden bir diğer unsurdur Gözlemci Hatası: Güvenilirliği tehdit eden bir diğer unsurdur. Örneğin, araştırmacı veri toplama metodu olarak mülakatı seçmiş olsun. Böyle bir çalışmada ne kadar değişik sayıda mülakatçı varsa o kadar değişik cevap almak mümkündür. Bu tehdidi ortadan kaldırmak için, ya mülakatçı sayısını en aza indirmek veya mülakatları mümkün olduğunca biçimselleştirmek gerekir. Gözlemci Önyargısı: Araştırmacının elde ettiği cevapları deneğin kastettiğinden farklı şekilde yorumlamasından kaynaklanır.
Güvenirliği Etkileyen Faktörler 1.Testin Uzunluğu Bir testte kapsanan madde sayısı, testin güvenirliğiyle doğrudan ilgilidir. Eğer güvenirliği etkileyen diğer etkenlerin tümü kontrol edilmişse ve teste sonradan katılan sorular öncekiler gibi aynı davranışlarla ilgiliyse, soru sayısı artırılarak testin güvenirliği artırılabilir
2.Test Yönergesinin ve Testteki Maddelerin İfadesi Testin başında, cevaplayıcılar için bir yönerge bulunmalıdır. Cevaplama işleminin nasıl yapılacağı, testin nasıl puanlanacağı; test, seçmeli maddelerden oluşuyorsa şans başarısı için düzeltme yapılıp yapılmayacağı; testte kaç soru bulunduğu ve testin cevaplandırılması için ne kadar zaman verildiği bu yönergede cevaplayıcıların anlayacağı açıklıkla belirtilmiş olmalıdır (Tekin, 2007).
3.Test İçeriğinin Benzeşikliği Ölçtükleri davranış ve konu bakımından homojen maddelerden oluşan bir testten elde edilen puanlar heterojen bir testten elde edilen puanlardan daha güvenilir olur. Örn; 100 maddelik bir futbol testi 100 maddelik bir takım sporları testinden daha güvenilirdir. 4.Puanlamadaki Nesnellik Bir testin güvenirliğini, onun puanlanmasının nesnel olup olmayışı büyük ölçüde etkiler. Bir testin değişik kişilerce ya da aynı kişi tarafından değişik zamanlarda puanlanmasından elde edilen puanlar arasındaki tutarlılığa o testin puanlama güvenirliği denir (Tekin, 2007).
Güvenirliği Arttırma Yolları 1) Bir sınavda kullanılan soru sayısı arttıkça, çoğu halde o sınavdan elde edilen toplam puanın güvenirliği de artar. Bir ders saatinde cevaplandırılabilecek 10 soru ile yapılan bir yazılı yoklama daha güvenilir, ölçme sonuçları verilir. 2) Bir sınavda kullanılacak soruların açıkça anlaşılır ve kesinlikle cevaplandırılabilir olması, o sınavdan elde edilen puanın güvenirliğini artırır. Güvenirliği Arttırma Yolları
3) Sınav süresi öğrencilerin hemen hepsinin bütün soruları cevaplandırmalarına yetecek uzunlukta olmalıdır. Objektif testlerle yapılan sınavlarda sürenin gereğinden kısa verilmesi cevaplayıcıların testin sonundaki soruların okumadan ve gelişi güzel cevaplandırmalarına sebep olur, güvenirliği de sıfıra yakındır.
4) Bir sınavda cevaplayıcılar, her soruyu dikkatle ve hızla cevaplandırmaya teşvik edilmelidir. 5) Sınavda kullanılacak sorular, o sınavı cevaplayacak bireylerin yaklaşık olarak yarısı tarafından doğru cevaplandırılabileceği güçlükte olmalıdır. 6) Ölçme işlemini herhangi bir basamağında yapılan dikkatsizlik hataları tıpkı puanlama hatalarında olduğu gibi, çoğu halde tesadüfi hata türündedir ve ölçme sonuçlarının güvenirliğini düşürür. Ölçmenin yapılmasında gösterilecek titizlik ve dikkat hemen her zaman güvenirliği artırır.
7) Her sınav objektif yollarla puanlanabilmelidir 7) Her sınav objektif yollarla puanlanabilmelidir. Ölçme sonuçlarının objektifliği arttıkça güvenirliği artar. 8) Duyarlığı yüksek bir araç veya yöntem daima güvenirliği yüksek sonuçlar verir. Güvenirliği artırmak için, duyarlığı yeterince yüksek araç veya yöntemler kullanılmalıdır. 9) Ölçme sonuçlarının ölçme işleminin elverdiği duyarlılıkta kaydedilmesi güvenirliği gerçek değerlerine yaklaştırır. Duyarlılıkta ölçülebildiği gibi, sonuçlarının kabaca verilmesi güvenirliğin hatalı kestirilmesine sebep olur (İşman,1998-Demirel, 2007- Demircioğlu,2007).
GEÇERLİK Ölçülmek istenen şeyin başka şeylerle karıştırılmadan ölçülebilmiş olma derecesidir (Karasar:2003:151). Bir testin kullanış amacına uygunluk derecesi yani bir testin ölçmek istediği niteliği gerçekten ölçme derecesidir (Sönmez, 2003;418). Ölçme aracının, geliştirilmiş bulunduğu konuda maksada hizmet etmesidir (Tekin:2007:42).
Bir ölçme aracının geçerli sayılabilmesinin ilk koşulu, onun güvenilir olmasıdır.
Ölçme aracı belli bir amaç ve belli durumlar için geçerlidir Ölçme aracı belli bir amaç ve belli durumlar için geçerlidir. Başka bir amaç için geçerli sayılmaz. Örneğin bir grup öğrenciye uygulandığında geçerli olan test diğer öğrenci grubuna uygulandığında geçerli olmayabilir (Karasar:2003;151). Örneğin Türkçe dersinde yazılı anlatım becerisini ölçen bir test bu amaca hizmet ettiği sürece geçerlidir. Aynı testi beden eğitimi dersi için kullanamayız. Çünkü o dersin amaçları için hazırlanmamıştır (Sönmez:2003;418).
GEÇERLİĞİ ETKİLEYECEK DURUMLAR (Karaca ve Diğerleri:2008). Soru Belirsizliği Ölçme aracında yer alan her bir soru, sormak istediği şeyi öğrencinin düzeyine uygun olarak açık, anlaşılır ve net bir biçimde soruyorsa, bu tür sorulardan oluşan araçların geçerliği yüksek olur. Çünkü soru belirsizliği azaldıkça sorunun geçerliği artar. Geçerliği yüksek sorulardan oluşan ölçme aracının ve o araçla elde edilen puanların geçerliği de yüksek olur. Madde Güçlüğü Testi oluşturan maddelerin güçlük düzeyi o testin geçerliğini etkileyebilir. Eğer test tümüyle kolay veya zor maddelerden oluşuyorsa, bilen öğrencilerle bilmeyen öğrenciler arasındaki farkı yeterince tanımlayamayabilir. Öğrenciler arasındaki farkları tanımlayamayan testler, test uygulama amaçlarına yeterince uymayan puanlar verir. Eğer, bir test orta güçlükte maddelerden oluşturulmuş ise, bu test bilenlerle bilmeyenler arasındaki değişkenliği en iyi biçimde tanımlamaya hizmet edebilir.
Madde Ayırıcılık Gücü Madde ayırıcılık gücü, maddenin bilenler ile bilmeyenler veya eksik bilgili olanlar arasındaki farkı tanımlama gücüdür. Madde ayırıcılık gücü aynı zamanda, testten alınan toplam puanlar ile madde puanlan arasındaki ilişki anlamına da gelir. Bu ilişki, test ham puanları ölçüt alındığında madde geçerliği olarak tanımlanabilir. Bir maddenin ayırıcılık gücü yüksek ise, toplam testin geçerlik düzeyine katkısı da yüksek olur. Puanlama Yanlılıkları Gelişigüzel puanlama, puanlama sırasında puanlayıcı isimlerine göre hareket etme, ölçme amaçları arasında yer almadığı hâlde yazı güzelliğinden etkilenme, iyi bir yanıttan sonra gelen yanıtı olduğundan daha kötü veya tersi biçimde algılama ve öğrencinin dış görünümü, cinsiyeti, ifade biçimi gibi faktörlerden etkilenerek puanlama yapma puanların geçerliğini düşürebilir. O nedenle, yukarıda sözü edilen etkenlerin dikkate alınarak puanlama yapılması elde edilecek puanların geçerliğini artırabilir.
Kopya Kalabalık ve birbirine çok yakın oturulan sınıflarda öğrencilerin kopya çekme olasılığı yüksektir. Kopya, bir öğrencinin alabileceğinden daha farklı puan almasına neden olabilir. Bu tür puanlar tam olarak öğrencilerin gerçek gücünü yansıtmaz. Öğrencilerin gerçek gücünü yansıtmayan puanların geçerliği düşük olur. Güvenirlik Bir ölçme aracının veya o araçla elde edilen puanların geçerliği için ön koşul onun güvenilir olmasıdır. Güvenirliği konusunda kanıt gösterilemeyen araçların geçerliğini tartışmak yeterince anlamlı değildir. O nedenle, aracın güvenirliği ile ilgili çalışmalar öncelikli olarak ele alınmalıdır.
GEÇERLİK TÜRLERİ İÇERİK (KAPSAM) GEÇERLİĞİ ÖLÇÜT GEÇERLİĞİ YORDAMA GEÇERLİĞİ YAPI GEÇERLİĞİ GÖRÜNÜŞ GEÇERLİĞİ SONUÇSAL GEÇERLİK
KAPSAM GEÇERLİĞİ Kapsam geçerliği, bir bütün olarak testin ve testteki her bir maddenin maksada ne derece hizmet ettiğidir (Tekin:2008;45). Örneğin, öğrencinin basketbol uygulama durumu değerlendirildiğinde sadece pas çalışması ile değerlendirmenin yapılması diğer basketbol tekniklerinin durumunu anlamak için bilgi vermez. Bu durumun önlenmesi için uzman grubuna başvurulup görüşleri alınarak ölçme aracının geçerliği yapılmış olur.
ÖLÇÜT GEÇERLİĞİ Bir ölçme aracının amaçlar doğrultusunda puanlar verip vermediğinin anlaşılması için başvurulan yöntemlerden bir diğeri, araçla elde edilen puanları ilgili başka ölçütlerle karşılaştırmaktır. Bir ölçme aracının geçerliği konusunda kanıt aramak amacıyla karşılaştırılacak ölçütün geçerli bir ölçüt olması zorunludur. Eğer ölçme aracı, geçerli olduğu bilinen bir ölçütle karşılaştırıldığında ölçütle uyumlu sonuçlar veriyorsa, aracın geçerliğinden söz edilebilir. Değilse, ölçme aracının geçerliği düşüktür.
YORDAMA GEÇERLİĞİ Yordama, bir tahmindir. Ne var ki, her tahmin bir yordama değildir. Bir tahminin yordama olabilmesi için, onun geleceğe dönük olması ve belli bilgiler temelinde bazı teknikler kullanılarak yapılmış olması gerekir. Yordama; istatistiksel teknikler kullanılarak ve bilinenlerden yararlanılarak bilinmeyen durumlar hakkında yapılan geleceğe yönelik tahminlerde bulunma işlemidir.
YAPI GEÇERLİĞİ Birçok ölçme kitabında yapı geçerliği, sadece psikolojik ölçmelerle ilgili görülmüş, eğitimsel ölçmelerde bu tür geçerlik pek söz konusu edilmemiştir. Bazı yazarlar ise, daha önce sözü edilen geçerlik türlerinin bir maksada bağlı olduğunu bu yüzden yapı geçerliğinin, geçerliğin tamamı olarak görülebileceğini öne sürmüşlerdir (Tekin:2007).
GÖRÜNÜŞ GEÇERLİĞİ Bir ölçme aracının ölçmek istediği niteliği, ölçüyor görünmesi olarak tanımlanabilir. Sözgelişi İngilizce dersinde okuduğunu anlama için hazırlanan bir testin bu niteliği ölçüyor görünmesi gerekir. Metinde, ana ve yardımcı düşüncelerin, olayın geçtiği yer, zaman ve kişilerin karakterleri vb. bilgilerin olması ile görünüş geçerliği vardır denilebilir (Sönmez:2003;419).
SONUÇSAL GEÇERLİK Sonuçsal geçerlik, değerlendirmenin öğrenme üzerindeki etkisine dayanır. Eğer, aktif öğrenme sürecinde kullanılan alternatif değerlendirme yaklaşımları öğrencilerin öğrenmeleri üzerinde beklenen etkiyi sağlıyorsa, uygulanan yaklaşım veya yaklaşımların geçerliğinden söz edilebilir (Karaca ve Diğerleri:2008;61).
Geçerlik ve Güvenirlik Arasındaki İlişki Güvenirlik sabit ve sistemli hatalardan etkilenmeyip sadece rasgele hatalardan etkilenir. Bir ölçmenin kararlılığı güvenirliğe, kararsızlığı ise rasgele ve geçici hatalara karşılık gelir. Bir testin geçerliğini, onun güvenirliği sınırlar. Güvenirlik, geçerlik için gerekli koşuldur, fakat yeterli koşul değildir. Bir testin güvenirliği düşük ise geçerliği de düşüktür. Fakat güvenirliği yüksek olan bir testin geçerliği yüksek olmayabilir, hatta düşük olabilir. Güvenirliği düşük bir testin geçerliği ne denli uğraşılırsa uğraşılsın belli bir sınırın üstüne çıkarılamaz. Bir testin güvenirliğini etkileyen tüm etkenler, doğrudan ya da dolaylı biçimde o testin geçerliğini de etkiler ( Tekin, 2007).
Baykul, Y. (2000) “Eğitimde ve Psikolojide Ölçme” ÖSYM Yayınları, Ankara. Bruning, J.L, Kintz, B.L. (1997) “İstatistik” Çev: Prof.Dr.. Ali Dönmez, Gündoğan Yayınları, Ankara. Büyüköztürk, Ş. (2003) “Sosyal Bilimler İçin Veri Analizi El Kitabı” Pegem A Yayınları, 3.Baskı, Ankara. Demircioğlu, G. (2007) “Ölçme ve Değerlendirme” Editör: Emin Karip, Pegem A Yayıncılık, Ankara. Demirel, Ö. (2007) “Öğretim İlke ve Yöntemleri, Öğretme Sanatı” Pegem A Yayıncılık, 12. Baskı, Ankara. İşman, A. (1998), “Türk Eğitim Sisteminde Ölçme Değerlendirme”, Değişim Yayınları, 1.Baskı, Adapazarı. Ergin, D.A. (1995) “Ölçeklerde Geçerlik ve Güvenirlik” Eğitim Bilimleri Dergisi M.Ü. Yayınları, Sayı:7, İstanbul. İşman, A., Eskicumalı, A. (2003), “Eğitimde Planlama ve Değerlendirme” Değişim Yayınları, 4. Baskı, İstanbul. Karaca, E., ve Diğerleri, (2008), Eğitimde Öçme Değerlendirme, Nobel Yayınları, Ankara. Karasar, N. (2000) “Bilimsel Araştırma Yöntemleri” Nobel Yayın Dağıtım 10. Baskı. Ankara. Kasap, H., Karagözoğlu, C., ve Kemertaş, İ., Eğitim ve Spor Eğitiminde Ölçme ve Değerlendirme. Özdamar K.(1999) Paket Programlarla İstatistiksel Veri Analizi-1. Özçelik, DA. (1998) “Ölçme ve Değerlendirme” ÖSYM Yayınları , 3. Baskı, Ankara. Tekin, H. (2007) “Eğitimde Ölçme ve Değerlendirme” Yargı Yayınları, 18. Baskı, Ankara. Saban, A. (2000) “Öğrenme Öğretme Süreci, Yeni Teori ve Yaklaşımlar” Nobel Yayın Dağıtım, Ankara. Sönmez, V., (2003), Program Geliştirmede Öğretmen El Kitabı, 10.baskı, Anı Yayıncılık, Ankara Tekin, H., (2007), Eğitimde Ölçme Ve Değerlendirme, 18. baskı, Yargı Yayınları, Ankara. Yılmaz, H. (2007), “Eğitimde Ölçme ve Değerlendirme” Çizgi Kitabevi Yayınları, 7. Baskı, Konya. .Geçerlik Analizi, http://www.istatistikanaliz.com K a y n a k l a r