Ölçme ve Değerlendirme Başarının kanıtı olarak neyi alacağınızı bile bilmiyorsanız, birisine “başarılıdır” damgasını vurmak oldukça şüpheli bir davranıştır... “ R. F. Mager Ölçme ve Değerlendirme 1 1
KONU BAŞLIKLARI Değerlendirme Hata Geçerlilik Güvenirlik Ölçme Ölçme Süreci Değişken Ölçüt Ölçüm Ölçek Değerlendirme Hata Geçerlilik Güvenirlik 2
Temel Kavramlar Ölçme: Bireylerin davranışlarını gözleyip gözlem sonuçlarını sayılarla ya da sembollerle ifade etmedir. Herhangi bir nesnenin ne kadar büyük, küçük veya çok olduğunu belirtme sorunudur. Ölçme, bilinmeyen bir değer veya bir ölçünün, bilinen bir değer veya bir ölçü ile mukayese edilmesidir. Başka bir deyişle herhangi bir nesneyi kanunla belirlenmiş bir birimle karşılaştırmaktır 3
Değerlendirme Değerlendirme: Ölçme sonuçlarını bir ölçütle karşılaştırıp, ölçülecek nitelik hakkında karar verme sürecidir. Öğretme ve öğrenmenin etkililiğini belirlemek amacı ile yapılan, eğitimle ilgili verilerin toplanmasını ve yorumlanmasını içeren çok adımlı, sistematik bir süreçtir. Öğrenme, öğretme ve planlamayı doğrudan etkileyen ve eğitim sisteminin temel öğelerinden biri olan değerlendirme, fen ve teknoloji eğitiminde farklı şekillerde kullanılabilir.
Neden? a. Öğrencilerin dersleriyle ilgili konularındaki öğrenme durumlarını teşhis ederek öğretim programında belirtilen kazanımların edinim düzeyini belirleme, b. Öğrenmeyi daha anlamlı ve derin hale getirebilmek amacı ile dönüt sağlama, c. Öğrencilerin gelecekteki öğrenme ihtiyaçlarını belirleme, d. Velilere, çocuklarının öğrenmesi ile ilgili bilgi sağlama, e. Öğretme stratejilerinin ve program içeriğinin dengeli ve etkili olup olmadığını izleme, örnek olarak verilebilir.
Temel Kavramlar Değerlendirmenin basamakları: I. Ölçme II.Ölçüt (Değerlendirmeye dayanak sağlayan ölçme sonuçları) III. Karar 6
Ölçme Varlıkların, olayların özellikleri GÖZLEM Sayı veya sembol ile ifade ediş. ÖLÇME Ölçme Süreci Ölçme : Herhangi bir niteliği gözlemlemek ve sonucunu sayılarla ya da başka sembollerle ifade etme işidir.
Örnekler: Okul bahçesinin sıcaklığı 29°C’dir. Park yerinde 25 araba var. Masanın boyu 185 cm’dir.
Ölçme işleminin yapılabilmesi için; 1. Ölçülecek özelliğin tanımlanması, 2. Ölçülecek özelliğe uygun sayı ve semboller kümesinin belirlenmesi, 3. Ölçülecek özelliğe hangi sayı ve sembollerin verileceğini gösteren kuralın belirlenmesi gerekir.
Örneğin; “Fizik dersinden sınav yapan bir öğretmen 2.soruya tam cevap veren öğrenciler 20 puan alacaktır.” diyerek, o soruya tam cevap veren öğrencilere kaç puan verileceğine dair bir ölçme kuralı belirlemiştir.
Ölçme sonuçları her zaman sayılarla ifade edilmez. Bazı ölçme sonuçları büyük–küçük, iyi–orta–kötü gibi sembollerle (sıfatlarla) de ifade edilebilir. Örneğin; “Serkan iyi bir sunu hazırladı” cümlesindeki “iyi”, bir ölçme sonucunu gösteren semboldür. Bu tür ölçme işlemleri sınıflama düzeyinde yapılan ölçme işlemlerine örnektir.
Değişken Bir durumdan bir duruma, bir gözlemden bir gözleme, bir ölçmeden başka bir ölçmeye en az iki farklı değer alabilen özelliklere değişken denilmektedir. Bu özellikler boy, ağırlık, hacim, cinsiyet, zekâ, ilgi, tutum vb. olabilir. Eğer değişken olabilecek bir özellik tek bir değer alıyorsa sabit denir. Sadece erkeklerin bulunduğu bir ortamda cinsiyet sadece erkek olacağından burada cinsiyet bir sabit olur.
Değişken Çeşitleri Başka bir değişkene bağımlı olmadan değer alabilen, sebep-sonuç ilişkisinde sebep durumunda olan değişkenlere bağımsız değişken, Başka bir değişkene bağlı olarak değerler alabilen sebep-sonuç ilişkisinde sonuç durumunda olan değişkenlere ise bağımlı değişken denir. Örnek; Öğrencilerin ders çalışma süresi öğrencinin akademik başarısını nasıl etkiler? Etkilenen-sonuç durumunda olan başarı= bağımlı değişken Etkileyen-sebep durumunda olan ders çalışma süresi= bağımsız değişken
Değişken Çeşitleri Matematiksel olarak değişkenin aldığı iki değerin arasının sürekli bölünebildiği, başka bir ifadeyle matematiksel olarak bu iki değerin arasında daima başka bir değerin bulunabildiği değişkenlere sürekli değişken denir. Bu tür değişkenler reel (gerçek) sayılarla ifade edilir. Örneğin, insanın boyu nicel ve sürekli bir değişkendir. Çünkü insanın boyu metre, santimetre veya milimetre gibi çok küçük birimlere ayrılabilir. (1,68 m) Bir değişkenin iki değeri arasına hiçbir değer bulunamıyor veya birkaç değerle sınırlı kalıyorsa süreksiz değişken denir. Doğal sayılarla veya sıfatlarla (sembollerle) ifade edilirler. Örneğin, bir sınıftaki öğrenci sayısı süreksizdir.
Değişken Çeşitleri Varlıkların sayılarla ifade edilebilen özelliklerine nicel değişken adı verilir. Öğrencinin puanı, boyu, ağırlığı, sayısı vb. Nicel değişkenler sürekli ve süreksiz olarak iki kısma ayrılırlar. Cinsiyet, göz rengi, milliyet, medeni durum gibi değişkenlere nitel değişken denir. Nitel değişkenler miktar (sayısal) olarak ifade edilemezler. Evli-bekâr, kadın-erkek gibi kategorize edilirler. Bu kategoriler doğal sayılarla (kadın=1, erkek=2) veya sembollerle (kadın=K, erkek=E) ifade edilebilir. Nitel değişkenler süreksizdir. Sürekli nitel değişken yoktur.
ÖLÇME ÇEŞİTLERİ 1- Fiziksel Ölçme: Belirli ve uygun ölçü birimine göre varlığın içinde ne miktarda olduğunun belirlenmesidir.Uzunluk,ağırlık ve hacim miktarlarının ölçülmesi gibi fiziki yapılan ölçmedir. 2- Eğitsel Ölçme: Eğitime tabi tutulan bireylerin davranışlarında oluşması gereken gelişmelerin ve değişikliklerin not sistemine göre ölçülmesidir. Bu ölçmede kullanılan amaçlar ve işlemler bakımından fiziksel ölçmeden farklıdır.
Ölçme, ölçülen özelliğe ve bu özelliğin gözlenme şekline bağlı olarak üçe ayrılır. ÖLÇME TÜRLERİ Doğrudan (Temel) Ölçme Dolaylı (Göstergeyle) Ölçme Türetilmiş
A) Doğrudan (Temel) Ölçme Ölçülecek özelliklerin, araya başka bir değişken girmeden doğrudan doğruya gözlenmesi sonucu yapılan ölçme türüne “doğrudan (temel) ölçme” denir. Doğrudan ölçmelerde ölçülecek özellikle, bu özelliği ölçmek için kullanılacak aracın özelliği aynıdır.
Örnekler: Sude’nin boyu 178 cm’dir. Kitaplıkta 15 tane fizik kitabı var. Ayşe tartılarak 48 kg olduğunu öğrendi. Sınıfta 20 öğrenci var. Bir bahçenin enini metre ile ölçmek, Öğrencileri boy sırasına dizmek,
Bir masanın boyunun cetvel ile ölçülmesi, Bir paketin kefeli terazi ile ölçülmesi, Bir sınıftaki öğrenci sayısının belirlenmesi Öğrencilerin boy uzunluklarının belirlenmesi Bir Öğrencinin sahip olduğu kitap sayısının belirlenmesi Ahmet’in kaç kardeşinin olduğunun belirlenmesi
B) Dolaylı (Göstergeyle) Ölçme Ölçmek istediğimiz değişkenlerin bazıları doğrudan gözlem yapılarak ölçülemez. Doğrudan gözlem yapılarak ölçülemeyen bir değişkenin, onunla ilgisi olduğu bilinen ya da sanılan başka bir değişken gözlenerek ölçülmesine “dolaylı (göstergeyle) ölçme” adı verilir.
Örneğin; Sıcaklığı doğrudan gözlemleyemeyiz. Civa ya da ispirtodaki genleşme veya yoğunlaşma ile sıcaklık artışı veya düşüşü arasında bir ilişki olduğu tespit edilmiştir. Bu nedenle sıcaklık onunla ilgisi olduğu düşünülen civa veya ispirtonun termometredeki yükselişi veya düşüşü gözlemlenerek ölçülür.
Eğitimde ölçülmek istenen özelliklerin çoğu dolaylı olarak ölçülebilen özelliklerdir. Eğitimde en çok ölçülmeye çalışılan başarı ve yetenek değişkenleri doğrudan doğruya gözlenemediği için testler aracılığıyla ölçülmeye çalışılır. Bireylerin testlerdeki maddelere verdiği yanıtlar onların yeteneği ve başarısının bir göstergesi olarak kabul edilir ve bu yanıtlar gözlenerek, bireylerin doğrudan doğruya gözlenemeyen başarı ve yetenek düzeyleri belirlenmeye çalışılır.
Örnek Bir öğrencinin bilgisinin sınav ile ölçülmesi Öğrencinin zekâ düzeyinin ölçülmesi Öğrencinin yeteneklerinin ve kişilik özelliklerinin ölçülmesi Bir dersten geçme notunun belirlenmesi Bir paketin yaylı terazi ile ölçülmesi Bir odanın sıcaklığının termometre ile ölçülmesi.
Sivas ın hava sıcaklığı 25°C’dir. Ahmet zeka testinden 145 puan aldı. Ayşe matematik sınavından 80 puan aldı.
Eğitimde uygulanan sınavlar dolaylı ölçmeye örnektir.
C) Türetilmiş Ölçme İki veya daha fazla değişken arasında yapılan matematiksel bir işlem sonucu elde edilen ölçme türüne “türetilmiş ölçme” denir. Türetilmiş ölçmelerde, değişkenlerin hepsi ayrı ayrı ölçülür ve bu ölçme sonuçları arasında matematiksel bir işlem yapılır.
Örneğin; Bir otomobilin hızını bulmak için, önce otomobilin gitti uzunluğu, sonra bu yolu kaç saate gittiği belirlenerek; yol ve zaman arasında bölme işlemi yapılır. Burada iki ölçme sonucu arasında matematiksel işlem yapıldığı için türetilmiş ölçme söz konusudur. Hız=Yol/Zaman
Beden kitle indeksi: kilo/boy2 Yol=hız X zaman öğrencinin sınıf geçme notu= vize ortalamasının % 40’ıyla final puanının % 60’ının toplamı
Ölçme Türleri Özellikler ve Örnekler Doğrudan Ölçme Ölçülecek özelliklerin, araya başka bir değişken girmeden doğrudan doğruya gözlenmesi sonucu yapılan ölçme türüdür. Ölçülecek Özellikle bu özelliği ölçmek için kullanılan aracın özelliği aynıdır. Metre ile boy ölçmek Cetvel ile uzunluk ölçmek Dolaylı Ölçme Doğrudan gözlem yapılarak ölçülemeyen bir değişkenin, onunla ilgisi olduğu bilinen ya da sanılan başka bir değişken gözlenerek ölçülmesidir. Termometre ile sıcaklık ölçme Zeka puanını ölçme Öğrencilere uygulanan sınavlar Türetilmiş Ölçme İki veya daha fazla değişken arasında yapılan matematiksel bir işlem sonucu elde edilen ölçme türüne “türetilmiş ölçme” denir. Bir cimin yoğunluğunu belirleme Bir aracın hızını belirleme Aritmetik nufus yoğunluğunu belirleme
Ölçmede Sıfır Matematiksel olarak sıfır, boş kümenin eleman sayısını gösterir. Bu sıfır yokluğu gösterdiği için mutlak (doğal=gerçek sıfır) kavramı kullanılmaktadır. Uzunluk ve ağırlık gibi değişkenlerin ölçülmesinde kullanılan ölçme araçlarındaki sıfır mutlak (doğal=gerçek) sıfırı gösterir. Bir tahta parçasının uzunluğu, bir insanın ağırlığı doğrudan ölçülebilir. Bu tür ölçmelerde kullanılan ölçme aracında başlangıç noktası olarak alınan sıfır (0) mutlak yokluğu göstermektedir. 0 (sıfır)=YOK demek ise=Mutlak sıfırdır
3 bebek var dediğimizde mutlak sıfırdır.
Ölçmede Sıfır Bazı değişkenlerin mutlak sıfırı yoktur. Örneğin, hava sıcaklığının 0 °C olması yokluk anlamına gelmez. Burada yer alan sıfır bağıl (izafi, göreceli, yapay, itibari) sıfır olarak adlandırılır. Yine başarı, zekâ, yetenek gibi değişkenlerin ölçülmesinde de kullanılan ölçme araçlarındaki sıfır o özelliğin hiç olmadığı anlamına gelmez. Ölçme işlemlerinde sıfırın mutlak sıfır veya bağıl sıfır olma durumu ölçme sonuçları üzerinde yapılabilecek matematiksel işlemleri etkiler. 0 (sıfır)=VAR demek ise=Bağıl sıfırdır.
Bağıl sıfır Sıcaklık 0 dediğimizde bu sıcaklığın hiç Sıfır beden olmadığı anlamına Sıfır beden
Ölçmede Sıfır Mutlak (doğal, gerçek)sıfır Bağıl sıfır Ölçülen özelliğin yokluğu anlamına gelir. Gerçek sıfır varsa ölçülen özelliğin başlangıç-bitiş noktası bellidir. Gerçek sıfır bize hiçliği ifade eder. “Sıfır kilo” dendiğinde hiç ağırlık yok demektir. “sınıfta sıfır kişi var” dediğimizde sınıfta bu hiç kimsenin olmadığı Ölçülen özelliğin yokluğu anlamına gelmez.yani tanımlanmış bir sıfır noktası söz konusudur. Örneğin takvimde kullanılan sıfır tanımlanmıştır. (MİLAD VE HİCRİ TAKVİM) “SIFIR BEDEN” örneği Sıcaklığın ölçülmesinde sıfır hiç sıcaklığın olmadığı anlamına gelmez. Deniz seviyesi
Ölçmede Birim Ölçme sonuçları tanımlanmış ve herkesçe kabul edilmiş bir birimle ifade edilir. Bu durum ölçme sonuçlarını yorumlamayı kolaylaştırır. Termometre birimleri, °C Cetvelin birimleri, m,cm, mm Saatin birimleri, saniye, dakika, saat, Kütle birimleri, gr, kg, ton
Temel Kavramlar Birimin Türleri: a) Doğal birim - Ölçülen özellik tanımlamaya ihtiyaç duymaz. Bir sınıftaki öğrenci sayısı için birim “kişi”, bir sandıktaki elma sayısı için birim “tane”, zaman birimi olarak “gün” doğal birimdir. Herkes tarafından aynı anlaşılır.
b) Tanımlanmış (Yapma) birim -Bütün insanlar tarafından aynı anlaşılacak şekilde belli kurallara göre tanımlanmış birimlerdir. Zaman ölçüsü için “saat”, uzunluk için “metre” tanımlanmış birimlerdir. b1) Temel birim - Temel ölçme işlemleri için tanımlanırlar. Metre, kilogram vb. b2) Türetilmiş birim - Türetilmiş ölçme işlemlerinde kullanılan niceliklere ait birimlerle tanımlanırlar. Hız için kilometre/saat Yoğunluk için gr/cm³
Birimin Özellikleri: a) Eşitlik b) Genellik c) Kullanışlılık Ölme işleminde birimlerin birbirine eşit olmasıdır. 1 cm ile 2 cm arası 1cm’dir. 20 cm ile 21 cm arası da 1 cm’dir. Kulaç, karış gibi birimler arası eşit değildir. b) Genellik Birimlerin herkes tarafından aynı anlaşılması, kişiden kişiye, yeren yere değişmemesidir. c) Kullanışlılık Kullanma amacına hizmet etmesidir. Yol uzunluğunu kilometre olarak ifade edilmesi kullanışlıdır. Yol uzunluğunu santimetre olarak ifade etseydik kullanışlı olmazdı.
Ölçek ve Ölçek Türleri Ölçek: Belli birimlerle bölmelenmiş bir ölçme aracıdır. Ölçme sonuçlarının özelliklerine bakarak değişik ölçek türleri bulunmuştur. Bunlar:
Ölçek Türleri a) Sınıflama (Adlandırma) Ölçeği b) Sıralama Ölçekleri c) Eşit Aralıklı Ölçek d) Eşit Oranlı Ölçek
a) Sınıflama (Adlandırma) Ölçeği Bireyleri veya objeleri ölçülebilen özelliklerine göre gruplara ayıran ölçeklerdir. Sınıftaki kişileri kızlar-erkekler şeklinde gruplamada özellik cinsiyettir. Sınıftaki kişileri gözlüklü-güzlüksüz şeklinde gruplamada özellik gözlüktür. Elde edilen sonuçlar üzerinde büyüklük-küçüklük ve toplama- çıkarma-çarpma-bölme gibi matematiksel işlem yapılamaz. Sayma işlemi, yüzde işlemi, Mod (tepe değer) işlemi yapılabilir. Kızlar=1 ile Erkekler=2 ile gösterilirse 1+1 (kız+kız)=2 (erkek) olmaz. 2 (erkek) 1 (kızdan) büyüktür denilemez. Ancak sınıftaki kızlar ve erkekler sayılabilir.
b) Sıralama Ölçekleri Bireyleri veya objeleri ölçülen özellikleri bakımından azlık- çokluk, büyüklük-küçüklük bakımından sıralayan ölçeklere sıralama ölçekleri denir. Öğrencileri boy uzunluklarına göre sıralama, öğrenci notlarını en yüksekten en düşük puana göre sıralanması. Gözlenen özelliklere karşılık sıra sayıları verilir (birinci, ikinci vb.) Elde edilen sonuçlar üzerinde toplama-çıkarma-çarpma-bölme gibi matematiksel işlem yapılamaz, O (sıfır) kullanılmaz. Büyüklük- küçüklük, Sayma işlemi, yüzde işlemi, Mod (tepe değer) işlemi yapılabilir. Birinci + ikinci = üçüncü olmaz.
c) Eşit Aralıklı Ölçek Eşit aralıklı ölçeklerde hem birimler eşit olmalı hemde sıfır bağıl olmalıdır. Çarpma-bölme yapılamaz. Toplama ve çıkarma, büyüklük- küçüklük, sayma, yüzde işlemi, istatistiksel işlemler (korelasyon, aritmetik ortalama, standart sapma, varyans vb) yapılabilir. Standart testler, saat, takvim, deniz seviyesine göre yükseklik örnektir. Termometre: Eşit arlıklıdır. Sıfır bağıldır çünkü yokluk anlamına gelmez
d) Eşit Oranlı Ölçek Eşit oranlı ölçeklerde birimler eşittir ancak sıfır mutlak olmalıdır. Çarpma-bölme-toplama ve çıkarma, büyüklük-küçüklük, sayma, yüzde işlemi, istatistiksel işlemler (korelasyon, aritmetik ortalama, standart sapma, varyans vb) yapılabilir. Cetvel, terazi, kronometre ile süre tutmak örnektir. Cetvel: birimleri eşittir, sıfır ise yokluğu gösterdiğinden mutlaktır.
ÖLÇÜT ve TÜRLERİ Ölçüt= Bir yargıya varmak için kullanılan ilke ve kriterdir. Mutlak ölçüt ve Bağıl ölçüt şeklinde ayrılabilir.
a) Mutlak Ölçüt Ölçme yapılmadan önce herkes için eşit ve kesin olarak belirlenen ölçüte denir. 60 puan ve üzeri geçer. 100 metreyi 16 saniye altında koşanlar kazanır. Akdemik ortalaması 2,5 ve üzerinde olanlar formasyona başvurabilir.
b) Bağıl Ölçüt Ölçme yapıldıktan sonra ölçme sonuçlarından çıkarılan ölçüttür. Ortalamanın üstünde olanlar geçer, altında olanlar kalır. Formasyona akademik ortalaması en yüksek olan ilk 40 kişi girebilir. % 25’e girenlere indirim uygulanır.
Ölçme Araç ve Yöntemlerinde Bulunması Gereken Nitelikler Ölçme araçlarının nitelikleri ölçme hataları ile doğrudan ilgili olduğundan öncelikle hata ve hata türleri incelenmelidir. Okulda öğrenci başarılarının ölçülmesinde farklı ölçme araç ve yöntemleri belirli oranlarda kullanılmaktadır. Bu araçlarla yapılan ölçme uygulamalarında ne kadar dikkatli olunsa da, ölçme sonuçlarına bir miktar hata karışır.
Ölçmede Hata Hata: Ölçme sonuçlarına istenmeyen değişkenlerin karışmasıdır. Hataların bir kısmı kontrol dışında ölçme sonuçlarına karışabilir. Bu nedenle çok iyi sanılan ölçme araçlarıyla yapılan ölçmelerde bile bir miktar hata vardır.
Ölçme işlemine karışan hatalar üçe ayrılır HATA TÜRLERİ Sabit Hatalar Sistematik Hatalar Tesadüfi Hatalar
Sabit Hatalar Hata miktarı her ölçme işleminde aynı orandadır. Her ölçme birimi için miktarı değişiklik göstermeyen hatalara sabit hata denir. Hata miktarı ölçümden ölçüme değişmez. Hata miktarı her ölçme işleminde aynı orandadır. Daha çok ölçmenin güvenirliği (?) ile ilgilidir.
Örnek: Bir sınavda herkese 10 puan fazla verilmesi sabit hatadır. Ancak her öğrenciye aldığı puanın %10 kadar puan vermek sabit hata değildir.
Sistematik Hatalar Ölçülen nitelik veya özelliğin büyüklüğüne, ölçmeyi yapan kişinin kendi kusurlarına ve ölçme koşullarına bağlı olarak ortaya çıkan hatalara sistematik hatalar denir.
NOT: Eğitimde sistematik hatada öğretmenin Eğitimde bu hatalara “Yanlılık” denir. Hata miktarı ölçümden ölçüme belli oranda artar / azalır. Ölçülen büyüklüğe, ölçmeye ve ölçme koşullarına bağlı olarak miktarı değişen hatadır. Puanlamanın sübjektif olduğu hatalardır. Daha çok ölçmenin geçerliği ile ilgilidir. Sistematik hatalardan arındırılması geçerliği artırır. NOT: Eğitimde sistematik hatada öğretmenin YANLILIĞI ve TARAF TUTMASI söz konusudur.
Örnek: Yazısı güzel olana fazla puan verilmesi, Kızların fazla puan alması gibi. Öğrencilerin puanlarını yükseltmek için aldıkları puanların %10’u oranında ilave yapması.
Tesadüfi Hatalar Tesadüfen ortaya çıkan ve çoğu kez bilinmeyen nedenlere bağlı olan ve kaynakları da bilinmeyen hatalara tesadüfî hatalar denir. Hata miktarı kuralsız olarak artar ya da azalır. Hatanın kaynağı bilinmez. Ölçme sonuçlarına gelişi güzel karışan hatalardır. Daha çok ölçmenin güvenirliği ile ilgilidir.
Örnek: Dikkatsizce okunup puanlanan doğru okunduğu halde yanlış kayıt edilen notlar
HATA KAYNAKLARI Bu hata kaynakları şunlardır: Ölçme işlemine karışan hatalar, ölçme sonuçlarının gerçek değerlerinin bulunmasına engel olurlar. Bu hata kaynakları şunlardır: 1 Ölçmeciden Kaynaklanan Hatalar 2 Ölçme Yöntem ve Aracından Kaynaklanan Hatalar 3 Ölçme İşleminin Yapıldığı Ortamdan Kaynaklanan Hatalar 4 Ölçme İşleminin Yapıldığı Gruptan Kaynaklanan Hatalar
1 Ölçmeciden Kaynaklanan Hatalar Ölçmeyi yapan kişinin ölçme yaparken öznel puan verme eğilimi, dikkatsizliği, yorgunluğu, eğitim durumu, yaşı vb. nedenlerden ölçme sonuçlarına hata karışmasına neden olabilir.
Aynı kağıtlar değişik puanlayıcılar tarafından puanlandırıldığında öğrencilerin alacağı puanlar farklı olabilecekken; aynı kişi tarafından farklı zamanlarda yapılan puanlamalarda da öğrencilerin alacağı puanlar farklı olabilir. Bu durumda puanların farklı olması, ölçme sonuçlarına ölçmeciden kaynaklanan hata karıştığını gösterir.
2 Ölçme Yöntem ve Aracından Kaynaklanan Hatalar Ölçme aracının iyi yapılandırılmamış olması, bozuk yada hatalı olması Ölçme aracının kapsamı iyi temsil etmemsi nedeni ile öğrencilerin bildikleri konulardan sorular sorulduğunda yüksek puan almaları, bilmedikleri konulardan sorular sorulduğunda düşük puan almaları ölçme sonuçlarına hata karışmasına neden olur. Ölçme için seçilen yöntemin yanlış tercih edilmesinden, örneğin yazılı sınav yerine sözlü sınav tercih edilmesi,
3 Ölçme İşleminin Yapıldığı Ortamdan Kaynaklanan Hatalar Test uygulanırken, testin uygulandığı ortamın sıcaklığı, ışığı, havalandırma durumu, gürültü düzeyi, sınav düzeninin kopya çekmeye uygun olup olmaması gibi faktörler ölçme sonuçlarına hata karışmasına neden olabilir.
4 Ölçme İşleminin Yapıldığı Gruptan Kaynaklanan Hatalar Ölçme işleminin yapıldığı gruptaki bireylerin, ölçme işlemi yapılırken içinde bulundukları stres, motivasyon, heyecan, korku, uykusuzluk, dikkat dağınıklığı gibi nedenlerle ya da ölçme işlemi yapılmadan önce geçirdikleri olumsuz yaşantılar nedeniyle (şok, tartışma vb) gerçek performanslarını ortaya koymamaları, ölçme sonuçlarına hata karışmasına neden olabilir.
Güvenirlik, Geçerlik ve Kullanışlık
Güvenirlik Tanımı Güvenirlik, aynı şeyin bağımsız ölçümleri arasındaki kararlılıktır; Ölçülmek istenen belli bir şeyin, sürekli olarak aynı sembolleri almasıdır; Aynı süreçlerin izlenmesi ve aynı ölçütlerin kullanılması ile aynı sonuçların alınmasıdır; Ölçmenin, tesadüfî yanılgılardan arınık olmasıdır.
Güvenirlik Hata ne kadar düşük olursa güvenirlik o kadar yüksek olur. Güvenirlik; duyarlılık, kararlılık, tutarlılık ve objektiflik kavramlarıyla doğrudan bağlantılıdır.
Kararlılık; bir testin birden çok uygulamasında benzer sonuçlar elde edilmesidir. Tutarlılık; bir testi oluşturan birimlerin birbirine benzemesi veya testin ilk uygulaması ve ikinci uygulamasının birbiriyle tutarlı olmasıdır. Duyarlılık; ölçme aracındaki birimlerin küçüklüğü ile ilgilidir. Bu durumda aracın duyarlılığı artar Objektiflik; ölçme işlemi kim tarafından yapılırsa yapılsın, puanlamada aynı sonuca ulaşılması
Madde Analizi Madde : Ölçme değerlendirme ve test tekniğinde her bir soru için kullanılan terimdir. Madde analizi temelde; belli niteliklere sahip olması gereken bir teste alınacak maddeleri seçme sorunu ile ilgilidir. Belli bir amaçla kullanılacak testin son formuna alınacak maddeleri analiz edebilmek için her şeyden önce ön uygulama yapılması ve uygulama sonuçlarının alınması gerekir. Örnek olarak, bir terzi için elbise provası yapmak bir test ön denemesidir.
Madde analizi nedir? Bir testte yer alan maddelerin uygulamasından elde edilen sonuçlarının seçilen ölçüte göre işe yarayıp yaramadığını, işe yaramıyorsa bunun muhtemel nedenlerini anlamak ve amaca hizmet etmesini sağlamak amacı ile yapılan gerekli düzeltmeleri yapmaya Madde Analizi denir.
Madde analizinde kullanılacak yöntemin tespitinde şu iki temel faktör etkilidir: Testi puanlama yöntemi. Madde analizi grubunun testin son biçiminin uygulanacağı gruba benzer olup olmayışı.
Madde analizi süreci Cevap kağıtları puanlanıp en yüksekten en düşüğe doğru sıralanır. En yüksek ve en düşük puanlı kağıtların %27’si ayrılır, ortada kalan kağıtlar analize dahil edilmezler.
2. Üst ve alt grupta ayrı ayrı o maddeye verilen cevaplardan tüm seçeneklere konulan işaretler, erişilmemişler ve cevaplandırılmamışlar sayılır ve sayının sonuçları bir çizelge ile üzerinde gösterilir.
4. Bulunan (p) ve (r) değerleri maddenin verilen cevapla nasıl işlediği hakkında bilgi verir. (p) ve (r) değeri 0,5 ve civarında olan maddeler iyi maddelerdir. Bu şekilde olan maddeler seçilip madde kartına yazılır ve daha sonra soru bankasına konur.
Madde Ayırt Edicilik Endeksi Maddenin Değerlendirilmesi 0.40 ve daha büyük Çok iyi bir madde (Ayırt etme gücü yüksek) 0.30 – 0.39 arası Oldukça iyi bir madde 0.20 – 0.29 arası Üzerinde çalışılması ve düzeltilmesi gereken madde (Ayırt etme gücü orta derece) 0.19 ve daha küçük Çok zayıf madde (Ayırt etme gücü düşük)
Madde güçlük Endeksi (p) Madde ayırt edicilik endeksi (r) Madde güçlük ve ayırt edicilik endekslerin yorumu Madde güçlük Endeksi (p) Madde ayırt edicilik endeksi (r) YORUM 0.90 dan fazla Değer yok - Eğer etkili bir öğretim varsa tercih edilir 0.60-0.90 r>0.20 - Tipik iyi bir madde r<0.20 - Üzerinde çalışılması gereken madde p<0.60 Zor fakat ayırt edici bir madde (Eğer yüksek standartlara sahipseniz bu soru iyidir) Zor ve ayırt edici olmayan madde (Bu madde kullanılamaz)
Güvenirlik Güvenirlik tahmininde kullanılan önemli bir terim korelasyondur (r). İki değişken arasındaki ilişkinin miktarını ve yönünü tanımlayan istatistiksel bir teknik. Korelasyon katsayısı, iki değişken arasındaki ilişkinin miktarını sayısal olarak ifade eder. Bir sınıftaki öğrencilerin boyları ve ağırlıkları arasında veya tutum ve başarı arasında, vb korelasyon hesapları yapılabilir Katsayı, -1 ile +1 arasında değişir
Korelasyon Katsayısının pozitif olması; İki değişkenin birlikte arttığını gösterir. Doğru orantı gibidir. Örneğin; zeka ve başarı arasındaki ilişki için katsayı 0,85 olsun. Bu durumda bireylerin zekası arttıkça başarının da arttığını gösterir.
Korelasyon katsayısının negatif olması Değişkenlerden birisinin artarken diğerinin azaldığını gösterir. Ters orantıya benzer. Örneğin; sigara içme ile sağlık arasındaki ilişkide korelasyon katsayısı -0,76 olsun. Bu durumda sigara içme davranışı arttıkça sağlık düzeyinin düştüğünü gösterir.
Korelasyon katsayısının sıfıra yakın olması; Eksi veya artı olsun iki değişken arasındaki ilişkinin olmadığını veya zayıf olduğunu gösterir. Örneğin; örneğin boy uzunluğu ile akademik başarı arasındaki katsayı 0,05 olması gibi.
Varyans ve Standart Sapma Varyans: Bir ölçme sonucunda elde edilen değerlerin aritmetik ortalamaya göre dağılımını (değişimi) gösterir. Dolayısıyla bir dağılım ölçüsüdür. Aritmetik ortalama= Elde edilen verilerin toplamının veri sayısına bölünmesidir. Varyans, gözlem değerimiz ile ortalama arasındaki farka (sapmaya) dayanır. Sapma = Elde edilen verilerden herhangi birinin değeri ile aritmetik ortalama arasındaki farktır.
Varyans Örnek; 5 öğrencinin sınav sonuçları 70 64 50 96 ve 55 aritmetik ortalamaları 67. İlk öğrencinin notu ile ortalama arasındaki farkı (sapma) 70- 67=3 Diğerleri -3,-17, 29, -12. Bu değerlerin aritmetik ortalamaları bulunamaz çünkü toplamları sıfır olur. 3+(-3)+(-17)+29+(-12) =0 0/5=0 Bu nedenle her farkın karesi alınır, toplanır ve aritmetik ortalama hesaplanır. Karesi alınmış sapmalar ; 9, 9, 289,841,144 Bu değerlerin aritmetik ortalaması bize VARYANS’ı verir. Varyans= (9+9+29+841+144)/5 =258.4
Standart Sapma Standart Sapma; Bir serideki değerlerin aritmetik ortalamadan sapmalarının karelerinin ortalaması olan varyansın kareköküdür. Standart Sapma, S veya SS ile gösterilir. Karesi alınmış sapmalar ; 9, 9, 289,841,144 Varyans= (9+9+29+841+144)/5 =258.4 Standart sapma: Karekök(258,4)= 16,07
Güven aralığı Ölçme araçlarının güvenirlik düzeyi, güvenirlik analizi ile belirlenir. Güvenirlik katsayısı “0-sıfır” ile “+1-bir” arasında değişir. Yapılan ölçme işlemlerinde tesadüfî hata miktarı ne kadar az olursa güvenirlik düzeyi de o oranda yüksek olur. Eğer ölçme işleminde tesadüfî hata yapılmamış ise güvenirlik katsayısı “1”e yakın bir değer alacaktır. Fakat sosyal bilimlerde yapılan ölçümlerde, kontrol edilemeyen birçok değişken olduğundan, hatasız ölçüm yapmak neredeyse imkânsızdır.
Güvenirlik Tahmin Yöntemleri Güvenirliği, tam olarak hesaplamak mümkün değildir. Bunun yerine güvenirlik tahmin edilmektedir. Bu kısımda, önemli güvenirlik tahmin yöntemleri ve bu yöntemlerin kuvvetli ve zayıf yönleri üzerinde durulmaktadır. Tek uygulamaya dayalı yöntemler Testi Yarılama (Eşdeğer Yarılar) Kuder-Richardson KR-20 ve 21 (iç tutarlılık) Cronbach Alpha (α) Puanlayıcılar Arası Tutarlılık Puanlamalar Arası Kararlılık İki uygulamaya dayalı yöntemler Test-Tekrar Test Yöntemi Eşdeğer (Alternatif, Paralel) Formlar Yöntemi
1) Test tekrar test yöntemi Aynı test aynı gruba belirli zaman aralıklarıyla uygulanması ile elde edilir. İki uygulama sonucunda öğrencilerin puanları arasındaki korelasyona bakılır eğer korelasyon katsayısı “1” yakınsa güvenirlik yüksek demektir. Uygulamalar arasındaki zaman belirlenmesi hatırlama nedeniyle kısa tutulamaz veya yeni öğrenmeler nedeniylede çok uzun bırakılamaz Genelde ; ilgi, kişilik, tutum gibi psikolojik özelliklerin ölçümünde güvenirliği belirlemek için idealdir.
Bu yöntemle bir ölçme aracının güvenirlik düzeyi belirlenirken, farklı uygulamalardan elde edilen puanlar arasındaki ilişki (korelasyon) düzeyine bakılır. Test tekrar test yöntemi sonucunda hesaplanan katsayıya “kararlılık katsayısı” da denilmektedir.
2) Paralel (eşdeğer) formlar Birbirine paralel yani aynı davranışı ölçen farklı soruların iki test olarak hazırlanması ve uygulanması sonucunda korelasyon katsayısı hesaplanarak güvenirlik kestiriminde bulunulur. Eşdeğerlik katsayısı olarak da kabul edilir.
2) Paralel (eşdeğer formlar) testler Bütün özellikleri aynı olan ve aynı amaca yönelik olarak hazırlanmış iki farklı ölçme aracının aynı veya denk bir gruba, farklı zamanlarda uygulanması sonunda elde edilen puanların tutarlılığının incelendiği yöntemdir. Bu özdeş testin sonuçları birbirine ne kadar benzerse, eşdeğer formlar yöntemine göre güvenirliğinin yüksek olduğu söylenir. Eşdeğer formlar; Kapsam, ölçülen özellik, soru sayısı, soru türü, güçlük düzeyi, ayırt edicilik yönünden denk olmalıdır
Paralel testler yöntemiyle ölçme araçlarının güvenirliğini belirlemede elde edilen katsayıya “eşdeğerlik katsayısı” denir. Yani iki testin ne ölçüde eşdeğer olduğunu ifade eden bir değerdir. Bu değer de 0 ile 1 arasında değer alır. Bu değer 1’a yaklaştıkça güvenirlik yüksek, 0’a yaklaştıkça güvenirlik düşük olur.
3) İki yarı (eşdeğer yarılar=testi yarılama) yöntemi Bir ölçme aracının, bir gruba uygulanması sonunda elde edilen verilerin iki eşdeğer parçaya bölünmesi ve bu parçaların puanlarının karşılaştırılması ile yapılan güvenirlik belirleme işlemlerine “testi yarılama yöntemi” denir. Bu iki eşit parçadan elde edilen puanlar ne kadar tutarlı olur ise testi yarılama yöntemine göre ölçme aracının güvenirliği de o kadar yüksek olur.
…Testi yarılama yöntemi: Testi yarılama yöntemiyle elde edilen katsayıya “iç tutarlılık katsayısı” da denilmektedir. Bu yöntemle hesaplanan güvenirlik katsayısı, genellikle diğer yöntemlere göre daha yüksek çıkmaktadır. Bilimsel nitelik taşımayan çalışmalarda, özelliklede bir testi birden fazla uygulama imkânı olmadığında, kullanılması tavsiye edilmektedir.
…Testi yarılama yöntemi: Test ikiye bölünerek iki yarı arasındaki korelasyon incelendiğinden, testin sadece bir parçasının güvenirliği belirlenebilir. Testin tümü için Sperman Brown korelasyon katsayısı hesaplanır.
4) KR-20 ve KR-21 (Kuder Richardson)Yöntemi: Bir ölçme aracı kesinlikle doğru veya kesinlikle yanlış cevaplar içeriyorsa, yani akademik başarıyı ölçen bir test ise güvenirliğini belirlemek için en fazla KR-20 ve KR-21 yöntemleri tercih edilmektedir. Kuder ve Richardson’un 1937 yılında yaptıkları çalışma ile ortaya çıkardıkları bu yönteme göre, ölçme aracında bulunan her bir madde teker teker analiz edilmektedir. Özellikle her bir maddenin güçlük düzeyinin hesaplanması gereklidir. Çoktan seçmeli soru türlerinde kullanılan bir yöntemdir.
Bu formüllerin kullanılabilmesi için iki temel özelliğe daha dikkat edilmektedir: a) Testte yer alan her bir maddenin öğrencilerin en az % 90’ı tarafından doğru veya yanlış cevaplandırılmış olması, b) Testteki maddelerinin tamamının aynı özelliği ölçüyor olması gereklidir.
KR-20 formülünün kullanılması için, K = Testin soru sayısı p = Madde güçlüğü (Maddeyi doğru cevaplandıranların tüm cevaplayıcılara oranı) q = 1- p (Maddeyi yanlış cevaplandıranların tüm cevaplayıcılara oranı) = Testin varyansı 1. Testte yer alan her bir maddenin aynı puan ağırlığına sahip olması. Örneğin; testte 20 soru varsa hepsi 5 puan olmalıdır. 2. Soruların güçlük düzeylerinin birbirinden farklı olması. Örneğin; bazı sorular zor iken, bazıları kolay, çoğunluğu ise orta güçlükte olmalıdır.
KR-20 formülünün kullanılması için, 3. Düzeltme formülünün kullanılmamış olması. Örneğin; dört yanlış cevabın bir doğru cevabı götürdüğü testlerde KR-20 yerine KR-21 kullanılır. 4. Doğru cevapların 1, yanlış cevapların 0 şeklinde puanlanmış olması. Örneğin; öğrencilerin doğru cevaplarından 1, yanlış cevaplarından ise 0 aldığı kabul edilmelidir.
100
KR-21 formülünün kullanılması için, K = Testin soru sayısı X = Test sonuçlarının ortalama değeri = Testin varyansı 1. Testte yer alan her bir maddenin farklı puan ağırlığına sahip olması. Örneğin; bir testteki bazı sorular 5, bazıları 4 puan değerinde ise KR-20 yerine KR-21 tercih edilmelidir. 2. Soruların güçlük düzeyinin birbirine yakın olması. Örneğin; bir testteki soruların güçlük düzeyleri 0.45 ile 0.55 veya 0.30 ile 0.35 arasında değişiyorsa KR-21 formülü tercih edilmelidir.
3. Düzeltme formülünün kullanılmış olması 3. Düzeltme formülünün kullanılmış olması. Örneğin; öğretmen yanlış cevapların doğru cevapları götürdüğünü belirtmiş ise KR-21 formülü kullanılmalıdır. 4. Madde istatistikleri (güçlükleri veya varyansları = pq) bulunmamışsa test puanları ortalaması ve varyansı kullanılarak KR-21 güvenirlik katsayısı hesaplanabilir. SORU: Ortalaması 35, standart sapması 7 olan 60 maddelik bir testin KR-21 güvenirlik katsayısını hesaplayınız.
KR-20 ve KR-21 Hangi Durumlarda Kullanılır? KR-20 ve KR-21 yöntemleri çoktan seçmeli, doğru yanlış ve kesin doğru cevabı olan açık uçlu maddelerden meydana gelen testlerin güvenirlik düzeyini belirlemede kullanılmaktadır. Bu iki yöntemle elde edilen güvenirlik katsayıları, ölçme aracının iç tutarlılığı ile ilgili olduğundan “iç tutarlılık katsayısı” olarak da bilinmektedir. KR-20 ve KR-21 formülleri sadece 1-0 puanlamasında kullanılır. Eğer puanlama farklı ise bu formül kullanılmaz. Cronbach alfa güvenirlik katsayısı kullanılır.
5) Cronbach Alpha (Alfa) Yöntemi: Bu güvenirlik katsayısı, yanıtları iki kategorili olmayan derecelendirilmiş (Kesinlikle katılıyorum-Kesinlikle katılmıyorum ve Her zaman-Hiçbir zaman aralıkları gibi) ölçeklerin iç tutarlılık katsayısını hesaplamada kullanılan bir yöntemdir. İlgi, kişilik, tutum gibi doğru cevap olmayan durumlarda kullanılan testler için idealdir. Bu yöntem, KR-20 ve KR-21'in daha genel halidir. Bu yöntemin temel mantığı, ölçme aracındaki maddelerin bütün olası yarılarının karşılaştırılmasına dayanmaktadır.
… Cronbach Alpha Yöntemi: Bu yöntemde, ölçme aracı yalnızca bir defa kullanıldığı ve analizlerde bu maddelerin birbiriyle ilişkisi incelendiği için elde edilen değer “iç tutarlılık katsayısı” olarak kabul edilir. Eğer Alpha değeri yüksek çıkarsa alt testler birbiriyle uyumlu ve tutarlı olacaktır. Dolayısıyla testin iç tutarlılığı yüksek ve alt testleri homojen olacaktır.
6-Puanlayıcılar Arasındaki Tutarlılık: Cevap kâğıtlarına birden fazla puanlayıcının verdiği puanlar arsındaki korelasyondur. Puanlayıcıların yansızlığı ve uyumu hakkında bilgi verir. Daha çok yazılı sınavlar, sözlü sınavlar, performans testleri gibi durumlarda kullanılır. 7-Puanlamalar Arasındaki Kararlılık: Bir puanlayıcının bir sınav kağıdına farklı zamanlarda (en az iki kez) verdiği puanlar arasındaki korelasyondur. Puanlayıcının kararlılığı ve yansızlığı hakkında fikir verebilir. Daha çok yazılı sınavlarda, ödev-projelerde ve kısmen de kısa cevaplı testlerde kullanılabilir.
Güvenirlik Belirleme Tekniklerine İlişkin Özet Bilgiler Güvenirlik Katsayısı Tipi Anlamı Gereken form sayısı Uygulama sayısı Hata varyansı kaynağı 1 TEST-TEKRAR TEST Kararlılık Bir İki Zaman örneklemi 2 PARALEL FORMLAR Birlikte uygulama Tutarlık Kapsam örneklemi Aralıklı uygulama Zaman ve kapsam 3 KUDER-RICHARSON KR - 20 ve KR - 21 İç tutarlık Kapsam örneklemi ve heterojenliği 4 CRONBACH ALFA 5 İKİ YARI 6 PUANLAYICI Puanlayıcılar 7 PUANLAMA Kararlık Puanlama
Ölçme Aracının Güvenirliğini Etkileyen Faktörler Test türü Testte yer alan soru sayısı Testin güçlük düzeyi Testi cevaplama süresi Testin puanlanması Testin uygulandığı grubun uygunluğu Test anlaşılırlığı Testin uygulandığı ortam
Güvenirliği Artırmanın Yolları Soru sayısını artırmak Soruların açık, anlaşılır ve cevaplanabilir olması Öğrencilerin güdülenmesi Sınav süresinin yeterli olması Testin orta güçlükte olması Testin objektif ve dikkatli puanlanması güvenirliği artırır Duyarlılığı yüksek ölçme aracının kullanılması Ölçme sonuçlarının hatasız kaydedilmesi Uygun bir test yönergesinin hazırlanması Testin uygulanacağı öğrenci sayısını artırmak
Ölçmecinin Güvenirliği Ölçme ve değerlendirme sürecinde, kullanılan ölçme aracının güvenilirlik düzeyinin yüksek olmasının yanında ölçmeyi yapan kişinin veya araştırmacının güvenilirlik düzeyi de oldukça önemlidir. Güvenilir ölçme yapan kişiler, olaylara “nesnel” veya “objektif” bakabilen kişilerdir.
Ölçmecinin ne kadar güvenilir olduğunu belirlemenin yöntemleri: Ölçmeyi yapan kişinin, bir gruptan topladığı verileri bir süre sonra tekrar puanlamasıdır. Farklı zamanlarda yapılan puanlamalarda elde edilen değerler birbiri ile tutarlıysa ölçmecinin güvenilir işlem yaptığı kabul edilir. 2. Bir gruptan toplanan veriler birbirinden bağımsız olan kişiler tarafından farklı ortamlarda puanlanır. Bu kişilerin uzmanlık alanlarının aynı olması gereklidir. Aksi takdirde puanlama güvenirliği oldukça düşük çıkar. İki veya daha çok uzmanın puanlama sonuçları birbiri ile tutarlı ise, ölçme işleminin güvenilirliğinin yüksek olduğu kabul edilir.
ÖLÇME ARACININ GEÇERLİĞİ Bir ölçme aracının, ölçülmek istenen özelliği başka özelliklerle karıştırmadan ölçebilme yeteneğine geçerlik denir. Başka bir tanıma göre ölçme aracının geçerliği, ölçülmek istenen nitelikleri ölçmeleri ve amaca uygun ölçme yapmalarıdır. Bir ölçme aracının amacı ne kadar gerçekleştirdiği ile ilgili bir derecedir. ÖRNEK : Uzunluk ölçmek için geliştirilmiş olan metre kişilerin boylarını ölçme amacına hizmet eder. Bu demektir ki bir ölçme aracı olan metre, uzunluk ölçmede geçerlidir fakat ağırlık ölçmede geçerli değildir.
Bir ölçme aracının “geçerliği var” veya “geçerliği yok” gibi ifadelerle tanımlanması doğru değildir. Geçerlik bir derece olduğundan, güvenirlikte olduğu gibi, “geçerliği yüksek” veya “geçerliği düşük” ifadelerinin kullanılması daha uygundur.
Bir aracın geçerli olması için, onun sadece ölçmek için düzenlendiği özelliği ölçmesi yani onu başka özelliklerle karıştırmadan ölçmesi de gerekir. Mesela; yazı güzelliği, ifade biçimi, sayfa düzeni, yanlılık vb. etkenlerin de ölçmeye karışmaması gerekir. Bu etkenlerin ölçmeye karışması geçerliği düşürür. ÖRNEK : Bir öğretmen yaptığı bir Biyoloji sınavında yüksek bir okuma yeteneği ve kelime bilgisi gerektirecek sorular sormuş ve puanlama yaparken de yazı güzelliği, sayfa düzeni vb. özelliklere de fazla puan vermiştir. Böyle bir test ölçmeyi amaçladığı özelliği başka özellikleri de karıştırarak ölçtüğü için geçerliliği düşüktür.
a) Uygunluk: Geçerli ölçme araçları iki temel özellik taşır. Bunlar: Uygunluk ve güvenirlik tir. a) Uygunluk: Bir ölçme aracının ölçülecek özelliği tam olarak ortaya çıkarabilme yeteneği olarak tanımlanmaktadır. Yani hangi özellik ölçülmek isteniyorsa, ölçme işleminde kullanılacak ölçme aracı bu özelliği ortaya çıkarıcı nitelikte olmalıdır. Ölçme araçlarının uygunluğu, istatistiksel analizlerle belirlenemez. Bir ölçme aracının uygunluk özelliğini taşımasında, hazırlayan kişilerin alan uzmanı olmasının büyük rolü vardır.
b) Güvenirlik Ölçme aracının farklı uygulamalarda tutarlı sonuçlar vermesidir. Bir ölçme aracının geçerli olabilmesi için mutlaka güvenilir olması gerekir. Yani güvenirlik, geçerlik için ön şartıdır. Güvenilirliği düşük olan ölçme araçlarının geçerliği de kesinlikle düşük olur. Fakat güvenilirliği yüksek olan her ölçme aracının geçerliğinin yüksek olmayacağı da bilinmelidir.
NOT: Bir başarı testinin niteliği; ölçülecek olanın ne olduğuna ve onun nasıl ölçüleceğinin açıkça belirlenmiş olmasına bağlıdır. Ne ölçülecek sorusunun cevabı testin uygunluk ve ilgililik özelliği ile ilgilidir. Nasıl ölçülecek sorusunun cevabı büyük ölçüde testin güvenirliği ile ilgilidir.
Geçerlik-Güvenirlik İlişkisi
Şekillerden çıkarılacak sonuçlar Güvenirliği düşük ölçme sonuçlarının geçerliği de düşüktür (A şekli). Güvenirliği yüksek ölçme sonuçlarının geçerliği yüksek olmayabilir (B şekli). Geçerliği yüksek ölçme araçlarının güvenirliği de yüksektir (C şekli).
Ölçme Araçlarında Aranan Geçerlik Türleri 1. Kapsam Geçerliği 2. Ölçüte Dayalı Geçerlilik (Ölçüt Geçerliği) 2.a.Yordama Geçerliği 2.b. Uyum (Uygunluk) Geçerliği 3. Yapı Geçerliği 4. Görünüş Geçerliği
1. Kapsam geçerliği: Ölçme aracının , ölçülmek istenen konu, ünite, kazanımları kapsama derecesidir. Diğer bir tanıma göre; kapsam geçerliği, bir bütün olarak ölçeğin ve ölçekteki her bir maddenin amaca ne derece hizmet ettiği ile ilgili özelliğidir
Kapsam geçerliliğini belirleme yöntemleri İstatistiksel Yol: Ölçme aracı ile elde edilen veriler, aynı konuda daha önceden hazırlanmış ve kapsam geçerliği yüksek olan başka bir ölçme aracının sonuçlarıyla karşılaştırılır. Bu testlerin sonuçları birbirine ne kadar yakın ise yeni hazırlanan ölçme aracının kapsam geçerliğinin de o ölçüde yüksek olduğu belirlenir.
Mantıksal Yol: Bir ölçme aracının geçerliğini belirlemede en fazla tercih edilen yöntemdir. Bir testteki soruların kapsamı ne ölçüde örneklendirdiğini belirlemenin en etkili yolu, test maddelerini belirtke tablosu ile karşılaştırmaktır. Bunun için testteki her bir maddenin, belirtke tablosundaki dağılımları incelenir ve kapsama uygunluğu hakkında bir karara varılır. Bu yöntemin kullanılması için, ilgili alanda deneyim sahibi olmak gerekir. Uzman kişilerin görüşünün alınması önemlidir.
2. Ölçüte Dayalı Geçerlik (Ölçüt Geçerliği): Test puanlarıyla ölçüt yada ölçütler arasındaki korelasyon katsayısıdır. Ölçütler genelde "dış ölçüt”tür. Elde ettiğimiz geçerlik ise bir ölçüte göre geçerliktir. Geçerlik katsayısı ölçüt alınan puanlara göre değişecektir. Bu nedenle öncelikle doğru ölçüt bulmak gerekir. Yani geçerliği araştırılan konuyla ilgili bir ölçüt olmalıdır. Aynı zamanda ölçütün geçerliği ve güvenirliği yüksek olmalıdır. Ölçüt geçerliği ölçütün elde edildiği zamana göre ikiye ayrılarak incelenir.
2.a) Yordama Geçerliği: Yordama, davranışların önceden tahmin edilebilmesi ile ilgili bir özelliktir. Diğer bir ifadeyle yordama; istatistiksel teknikler kullanılarak (regresyon) ve bilinen özelliklerden yararlanılarak bilinmeyen özellikler hakkında yapılan geleceğe yönelik tahminlerde bulunma işlemidir. Yordama bir tahmindir. Ancak her tahmin bir yordama değildir
2.a) Yordama Geçerliği: Yordama geçerliğinde en önemli sorun uygun bir ölçüt, bulmaktır. İyi bir ölçüt şu özelliklere sahip olmalıdır: 1-Ölçüt öncelikle yordanmaya çalışılan değişkenle ilişkili olmalıdır. Örneğin müzik yeteneğini ölçen bir araçla kişinin okuduğunu anlama yeteneğini yordayamazsınız. 2-Ölçüt güvenilir olmalıdır. Ölçüte ilişkin puanlar ne kadar çok hata içerirse yordama geçerliği o derecede düşük olacaktır. 3-Ölçüt geçerli olmalıdır. Zaten geçerlik çalışması bir aracın amaca uygunluk derecesini ortaya koyma çalışmasıdır. Bu nedenle amaca uygunluğu kanıtlanmamış ya da amaca uygun olmadığı bilinen bir ölçütle bu çalışma başarısız olur. 4-Kolay ve pratik olmalıdır. Elde edilmesi ve uygulanması kolay ve pratik olmalıdır.
2.b) Uyum (Uygunluk) Geçerliği: Ölçüt puanların yordayıcı puanlarla aynı zamanda veya daha önce elde edilmesi durumunda, ölçüt ile yordayıcı arasındaki korelasyon katsayısına uyum geçerliği adı verilir. Uyum geçerliğine hâlihazır geçerlik, mevcut durum geçerliği, eş-zaman geçerliği ve uygunluk geçerliği de denilmektedir. Yordama geçerliğinden farkı; testin ölçülmek istenen davranış veya özellikleri hangi düzeyde ölçebileceğini belirlemektir. Yordamada ise kestirme vardır. Özellikle testin amacı tanı koymak ise uyum (eş-zaman) geçerliğine başvurmak yararlıdır. Örneğin üniversite sınavı ile üniversite başarısı; işe giriş sınavı ile iş performansı arasındaki korelasyon katsayıları yordama geçerliği olurken; üniversite giriş sınavı ile ortaöğretim başarı puanı (ölçüt olarak) veya matematik dersi başarısı ile aynı zamanda elde edilen matematik yeteneği testi puanları arasındaki korelasyon katsayıları uyum geçerliği olur.
3) Yapı Geçerliği: Bireylerde var olduğu kabul edilen özelliklere psikolojide yapı denir. "Zeka, tutum, ilgi, kaygı, depresyon, atılganlık, içedönüklük, dışa dönüklük, güvensizlik vb." gibi kişilik özellikleri psikolojik yapıya örnek olarak verilebilir. Yapı, birbiriyle ilgili olduğu düşünülen belli öğelerin veya bu öğeler arasındaki ilişkilerin oluşturduğu bir bütündür. Bu yapılar hipotetiktir (teoriktir, kuramsaldır). Yani var oldukları kabul edilir. Doğrudan ispatlanamaz. Ancak gözlemlerle varlıkları hissedilir. Örneğin günlük dilde "zeki adam" dediğimizde bunu ispatlayamayız. Yani zekânın varlığını ispatlamaya kalkmayız. O kişinin bizim kabul ettiğimiz bir yapıyla ilgili davranışları gösterdiğini düşünürüz.
Bir ölçme aracının yapısı ise, testte yer alan maddelerin birleştirilmesi ile oluşur. Bu yönüyle, bir testte yer alan maddeler testin amacına ne kadar uygun olursa, testin yapı geçerliği de o ölçüde yüksek olur. Yapı geçerliği bir araçla ölçülmek istenen yapının o araçla ortaya konulma derecesi olarak tanımlanabilir. Yapı geçerliği, yapının tanımlanmasındaki doğruluğa, yapıdan çıkarsanan gözlenebilir davranışların yapıyla ilgili olmasına, davranışların yapının tamamını (kapsamını) temsil etmesine, gözlenebilir davranışları ölçmek için yazılan maddelerin (soruların) onları ölçebilme derecesine bağlıdır.
… Yapı Geçerliği: Bir ölçme aracının yapı geçerliğini belirlemek için faktör analizi yapmak gerekir. Bu analiz, bir ölçme aracının kaç tane alt özelliği ölçtüğünü gösteren istatistiksel bir işlemdir.
4) Görünüş Geçerliği Bu geçerlik türü, ölçme aracının neyi ölçtüğünü değil de neyi ölçer göründüğünün belirlenmesi işlemidir. Görünüş geçerliği olan testler, yalnızca kapsadığı özellikleri ölçer, diğer özellikleri işleme katmaz.
…..Görünüş Geçerliği Bu çalışma testin tamamı için "olduğu kadar maddeler için de yapılır. Yani maddelerde ölçülmek istenen davranışı ölçüyor görünmelidir. Örneğin "14/4 işlemi sonucunda kalan kaç olur." ile "On dört'ü dörde böldüğümüzde kalan kaç çıkar." Soruları matematik davranışını aynı geçerlik düzeyinde ölçüyor görünmemektedir. Birincisi daha iyi bir matematik sorusu gibi görünmektedir.
Ölçme Aracının Geçerliğini Etkileyen Faktörler 1. Ölçme aracının güvenirliği üzerinde etkili olan özellikler geçerlik üzerinde de etkilidir. 2. Ölçme aracında yer alan soruların sayısının artırılması geçerliği yükseltir. 3. Testte yer alan soruların güçlük düzeyleri normal dağılım eğrisine benzemelidir. 4. Ölçme aracında yer alan maddelerin düzeyi, öğrencilerin seviyesine ne kadar uygun olursa geçerlik düzeyi de o ölçüde artar. 5. Testte yer alan soruların, çalışan ve çalışmayan öğrencileri ayırt edebilir olması, geçerliğin yükselmesini sağlayacaktır.
… Ölçme Aracının Geçerliğini Etkileyen Faktörler 6. Testi cevaplamak için verilen sürenin fazla veya az olmaması geçerliği yükseltir. 7. Testte yer alan maddelerin kolaydan zora, basitten karmaşığa doğru sıralanması geçerliği olumlu yönde etkiler. 8. Testin uygulaması sırasında kopya çekilmesi geçerliği düşürür. 9. Testin puanlanmasında hata yapılmaması geçerliğin yükselmesini sağlayacaktır. 10. Testte yer alan soruların doğru cevaplarının sistematik olarak sıralanmaması geçerliği yükseltir. 11. Ölçme aracında, dersin veya konunun her hedef davranış ile ilgili sorulara yer verilmesi geçerliği yükseltir.
Geçerlik ve Güvenirlik Arasındaki İlişki Bir ölçme işleminde güvenirlik “nasıl ölçülecek?”, geçerlik ise “ne ölçülecek?” sorusuna odaklanır. Yani ölçme aracının geçerliği, testte yer alan maddelerin neyi ölçtüğü ile ilgiliyken, güvenirliği bu testin nasıl uygulanacağı ile ilgilidir. 2. Ölçme aracının geçerlik düzeyi; bütün hatalardan (sabit, sistematik ve tesadüfî hatalar) olumsuz etkilenirken, güvenirlik düzeyi yalnızca tesadüfî hatalardan olumsuz etkilenir. 3. Güvenirlik düzeyi düşük olan ölçme araçlarının geçerliği de düşük olur. Yani güvenirlik, geçerlik için en önemli ön şarttır.
… Geçerlik ve Güvenirlik Arasındaki İlişki 4. Geçerliği yüksek olan bir testin güvenirliği de mutlaka yüksek olur. Çünkü geçerliğin yüksek olması için, ölçme sürecine hiçbir hata karışmamış olması gerekir. 5. Bir ölçme aracının güvenirlik düzeyi yüksek olsa bile geçerlik düzeyi düşük olabilir. 6. Geçerlik ve güvenirlik düzeyi düşük olan bir ölçme aracının geçerliğini yükseltilmek için öncelikle güvenirlik düzeyini yükseltmek gerekir. Çünkü bir ölçme aracının geçerlik düzeyi, ne kadar çaba gösterilirse gösterilsin, güvenirlik katsayısının karesinden (r2) daha fazla yükseltilemez.
ÖLÇME ARACININ KULLANILIŞLIĞI Kullanışlılık, bir ölçme aracında aranan üçüncü temel özelliktir. Kullanışlılık; bir ölçme aracının geliştirilmesinin, çoğaltılmasının, uygulanmasının, cevaplanmasının ve puanlanmasının kolay olmasıdır. Ayrıca bir testin maliyeti ne kadar düşük olursa, kullanışlılığı o ölçüde yüksek olur.
Ölçme aracının kullanışlılığı ile ilgili genel özellikler şunladır: Hazırlanması: Öğretmenin ölçme aracını hazırlarken zorlanmaması ve kısa sürede tamamlaması, Uygulanması: Öğretmenin ölçme aracını uygularken güçlük çekmemesi ve kısa sürede uygulaması, Cevaplanması: Öğrencilerin ölçme aracını cevaplarken zorluk çekmemeleri ve kısa sürede cevaplamaları,
Puanlanması: Öğretmenin ölçme aracını puanlarken zorlanmaması ve kısa sürede puanlaması, Maliyetin düşüklüğü: Ölçme aracını okula maddi yönden yük getirmemesidir.
ÖLÇMENİN STANDART HATASI Ölçme aracının hatalardan arınıklık derecesini gösteren güvenirlik katsayısı, ölçme işleminde yapılan hatanın miktarını belirtmez. Ölçmede yapılan hataların standart değerini hesaplamak için, güvenirliğe ve test puanlarının standart sapmasına dayalı olarak ölçmenin standart hatasının hesaplanması gerekir.
Se: Ölçmenin standart hatası Sx: Test puanlarının standart sapması Yapılan hatanın miktarını veren ölçmenin standart hatası aşağıdaki formülle ile hesaplanır. Se: Ölçmenin standart hatası Sx: Test puanlarının standart sapması rx: Testin güvenirliği Se = Sx 1-rx
Örnek: %68 olasılıkla (70-2)=68 ile (70+2)=72 aralığındadır. Ölçmenin standart hatasının 2 olduğu durumda, testten 70 puan alan bir öğrencinin, %68 olasılıkla (70-2)=68 ile (70+2)=72 aralığındadır. %95 olasılıkla (70-4)=66 ile (70+4)=74 aralığındadır. %99 olasılıkla (70-6)=64 ile (70+6)=76 aralığındadır.
Değerlendirme Türleri 1) Öğrenci başarısının değerlendirilmesi, 2) Öğrenme eksikliklerinin değerlendirilmesi, 3) Eğitim programının değerlendirilmesi, 4) Hazır bulunuşluk düzeyinin değerlendirilmesi, 5) Rehberlik amacıyla yapılan değerlendirme, 6) Öğretmenin değerlendirilmesi. 143
Eğitimde Kullanılan Ölçme Araç ve Yöntemleri A. Geleneksel Ölçme Araç ve Yöntemleri 1. Yazılı Yoklamalar 2. Kısa Cevaplı Testler 3. Doğru-Yanlış testleri 4. Ödev ve Projeler 5. Sözlü sınavlar 6. Çoktan Seçmeli Testler 144
Eğitimde Kullanılan Ölçme Araç ve Yöntemleri B. Diğer Ölçme Araç ve Yöntemleri 1. Portfolyolar (Öğrenci gelişim dosyası) 2. Öz değerlendirme 3. Gözlem Formları 4. Performans değerlendirme çizelgeleri (kontrol listeleri veya dereceleme ölçekleri) 5. Tutum ölçekleri 6. Kavram haritaları 7. Gösteriler, Anektodlar,Tartışmalar, Sergiler, Görüşme (Mülâkat), Projeler, Araştırma Kâğıtları vb. 145