Sunuyu indir
1
ÖLÇME VE DEĞERLENDİRME
Ölçmede Bulunması Gereken Nitelikler
2
Kazanımlar Ölçmede geçerlik ve güvenirlik kavramlarını açıklar
Ölçmede geçerlik ve güvenirlik arasındaki ilişkiyi açıklar Geçerli ve güvenilir ölçme gerçekleştirmek için yapılması gerekenleri sıralar Uygun güvenirlik hesaplama yöntemini seçip uygular
3
Başlarken Geçerlik? Güvenirlik? Geçerlik ve güvenirlik gerekli midir?
Ölçmede hata olur mu?
5
Ölçme Araçlarının Nitelikleri
Geçerlik Bir ölçme aracının ölçülmek istenilen özelliği doğru bir şekilde ölçmesidir. Güvenirlik Ölçme aracının ölçtüğü değişkeni duyarlılıkla ölçebilmesidir. Kullanışlılık Ölçeğin kolaylıkla uygulanabilmesidir.
6
Ölçmede Geçerlik Bir ölçme aracının ölçmek istediği özelliği ölçme derecesiyle ilgili bir kavramdır. Yani ölçme aracı ölçmek istediği özelliği ne kadar doğru ölçebiliyorsa o derece geçerlidir. Ölçülmek istenen özelliğin tam ve doğru bir şekilde ölçülmesi geçerliğin konusudur. Diğer bir ifadeyle, ölçme aracının amaca hizmet etme derecesidir. Bir ölçme aracının ölçülmek istenilen özelliği ölçme derecesine, “onun bu özelliği ölçmedeki geçerlik düzeyi” denir. Eğitimdeki ölçmelerde, yalnızca ölçme aracı değil, bu araçtan elde edilen sonuçların geçerliği de önemlidir. Diğer bir ifadeyle, testten elde edilen sonuçlara dayalı olarak yapılan yorumların geçerliği de önemlidir.
7
Ölçmede Geçerlik Fen ve Teknoloji dersine olan tutumları ölçmek için geliştirilen bir araç aynı dersin başarısını ölçmek için kullanılabilir mi? Her ölçme aracı hangi amaç için geliştirilmişse onun için kullanılmalıdır. Çünkü tutum ölçeği başarıyı değil, öğrencilerin derse karşı ilgi, sevgi, önem v.b. özelliklerini ölçmek amacıyla geliştirilmiş bir araçtır.
8
Ölçmede Geçerlik Başarı sınavların ve testlerin sonuçlarının geçerliğini belirleme yaklaşımları iki kategoride toplanabilir: Doğrudan geçerlik: Uzman (öğretmenler, test geliştiriciler, alan uzmanları gibi) kişilerin, testleri ya da sınavları doğrudan inceleme ve analizine dayanır. Türetilmiş geçerlik: Test ya da sınav sonuçlarının, bağımsız bir testten elde edilen sonuçlarla istatistiksel olarak karşılaştırılmasına dayanır.
9
Ölçmede Geçerlik Doğrudan geçerlik çalışmalarını gerçekleştirmek, istatistiksel yaklaşıma oranla daha kolaydır. Çünkü bağımsız bir testten elde edilmiş ölçüt puanlarına ihtiyaç yoktur. Bununla birlikte, bu yaklaşım, doğrudan uzmanların kararlarına bağlı olduğundan, istatistiksel yaklaşıma göre daha az objektiftir. İstatistiksel yaklaşım elde edilen verilerin bağımsız bir testten elde edilen puanlar ile korelasyonunu içerir ve geçerlik katsayısı -1,00 ile +1,00 arasında değerler alabilir. Pratikte hesaplanan geçerlik katsayıları oldukça düşüktür. Nadiren 0,60 ve 0,70 gibi değerler gözlenmektedir. Bazı durumlarda oldukça düşük bir geçerlik katsayısı dahi yeterli görülebilir (Turgut, 1995).
10
Geçerlik Türleri Geçerlik Türleri Yapı (Construct) Kapsam (Content)
Ölçüt (Criterion) Görünüş
11
Yapı Geçerliği Ölçme aracının, o araçla ölçülmek istenilen kuramsal yapıyı ortaya koyabilme derecesidir. Bir yapının tanımlanmasında aşağıdaki adımlar takip edilebilir. Yapı ile ilgili olduğu düşünülen davranışları tespit etmek. Bu konuda ne kadar çok veri toplanabilirse yapı o derece iyi tanımlanır. Açıklanacak yapının ilişkili olduğu ve olmadığı diğer yapıları belirlemek. Bu durum yapının sınırlarının belirlenmesi için gereklidir. Bu yapılarla ilgili davranışları tespit ederek, bunların hangilerinin ölçülecek yapı ile ilgili olduğunu belirlemek.
12
Kapsam Geçerliği Kapsam geçerliği için öncelikle aracın ölçmeyi amaçladığı içeriğin net bir şekilde tanımlanması ve içeriği kapsayacak sayıda soru hazırlanmalıdır. Bu nedenle, araç geliştirirken tüm amaç ve kazanımlar göz önünde tutulmalıdır. Örneğin, lise ikinci sınıf kimya dersi ile ilgili olarak bir test geliştirdiğimizi varsayalım. Kapsam geçerliği için, dersin kapsamında yer alan tüm konuların ve her konu ile ilgili kritik davranışların o testle yoklanması gerekmektedir. Bu nasıl yapılır?
13
Kapsam Geçerliği Kritik davranışların belirlenmesinde Belirtke Tablosu’ndan yararlanılır. Belirtke tablosu, bir boyutunda, hazırlandığı ders ya da alanla ilgili konular ya da içerik, diğer boyutunda ise, bu içerikle öğrencilere kazandırılacak hedef ve davranışları içeren iki boyutlu bir tablodur.
14
Asit ve bazlar ünitesine yönelik belirtke tablosu
Davranış Düzeyleri Konular Bilgi Kavrama Uygulama Toplam Asit-Baz Teorileri 8 4 12 Asit ve Bazların Kuvveti Asit ve Bazların Metallere Etkisi 2 Nötralleşme 14 16 24 10 50
15
Asit ve bazlar ünitesine yönelik belirtke tablosu
Davranış Düzeyleri/Soru Adetleri Konular Bilgi Kavrama Uygulama Toplam Asit-Baz Teorileri 4 2 6 Asit ve Bazların Kuvveti Asit ve Bazların Metallere Etkisi 1 Nötralleşme 7 8 12 5 25
16
Kapsam Geçerliği Kapsam geçerliğinde gözden kaçırılmaması gereken diğer önemli bir husus, testte yer alan soruların gerçekten hedeflenen davranışları ölçüp ölçmediğinin belirlenmesidir. Yarılanma süresi 10 yıl olan 1000 gram radyoaktif bir elementten 50 yıl sonra ne kadar geride kalır? Bu soruda bir gariplik var mı? K=K0 (1/2)t/t1/2
17
Ölçüt Geçerliği Ölçüt geçerliği, bireylerin bir testten elde ettiği puanlarla, aynı özelliğe yönelik geçerliği ve güvenirliği belirlenmiş başka bir testten aldıkları puanlar arasındaki korelâsyon olarak düşünülebilir. Test puanları ile ölçüt puanları arasındaki korelâsyonun +1’e yakın olması geçerliğin yüksek, 0’a yakın olması geçerliğin düşük olduğunu ve negatif olması ise testin… ölçütün ölçtüğünden başka ve onunla ters yönde bir özelliği ölçtüğünü gösterir
18
Ölçüt Geçerliği Bir ölçüte dayalı geçerlik belirlemek amacıyla seçilen ölçüt puanların sıralanan özelliklere sahip olması gerektiği belirtilmektedir: Ölçüt puanlar, ölçme aracının yordamaya çalıştığı değişkenle doğrudan ilgili olmalıdır. Ölçüt puanlar, kararlı olmalı, günden güne değişmemelidir. Ölçüt puanlar, bireyin ölçülen özellikle ilgili başarısını gerçekten yansıtacak şekilde nesnel ve güvenilir olmalıdır. Ölçütün elde edilmesi pratik ve kolay olmalıdır.
19
Görünüş Geçerliği Görünüş geçerliği, adından da anlaşılacağı gibi, bir testin görünüşte neyi ölçüyor göründüğü ile ilgilidir. Örneğin, bir Din Kültürü ve Ahlak Bilgisi başarı testini ele alalım. Testte baktığımızda, adının, cevaplama yönergelerinin ve testteki her bir sorunun Din Kültürü ve Ahlak Bilgisi ile ilgili olduğu izlenimi vermesi görünüş geçerliğidir.
20
Geçerliği Etkileyen Faktörler
Madde sayısı ve ölçme yöntemi Çok madde daha geniş kapsam Güvenirlik Geçerlik için güvenirlik Puanlayıcı yanlılığı Objektif puanlama Uygulama Koşulları Sınav için uygun çevre şartları
21
Geçerliği Artırmanın Yolları
Kapsam geçerliğini sağlamak için konu-soru dengesi olmalıdır. Kopya, ipuçları, şansla doğru cevabı bulma, kitap ya da defterdeki sorunun aynısını sorma, bir sorunun cevabının diğerinde verilmesi gibi durumlar olmamalı ya da minimuma indirilmelidir. Güvenilir olmalıdır. Ön şart güvenirliktir. Sınav ve ölçme araçlarının güçlüğü ortalama (optimum) olmalıdır. Her yıl aynı sorular sorulmamalıdır. Sorulacak sorular hazırlanan tarafından önceden çözülüp varsa hata ve eksikleri giderilmelidir. Uzman görüşleri alınmalıdır. Kopyaya mani olmak için tanınan süre gereğinden fazla olmamalıdır. Sınav ortamı gürültüden arınık olmalıdır.
22
Ölçmede Güvenirlik Güvenirlik, ölçme sonuçlarının tesadüfî hatalardan arınık olma derecesi olarak tanımlanabilir. Diğer bir ifadeyle elde edilen sonuçların tutarlılığı ya da tekrarlanabilirliğinin bir derecesidir. Ölçme sonuçlarının duyarlı, tutarlı ve kararlı olması güvenirlik açısından önemlidir. Cep telefonunun boyunun ölçümünde, kumaşçıların kullandıkları metrenin mi yoksa teknikerlerin kullandığı cetvelin mi kullanıldığı ölçüm daha duyarlıdır? Bakkal terazisi mi yoksa kuyumcu terazisi mi daha duyarlıdır?
23
Ölçmede Hata Yapılan her ölçüme bir miktar hata karışır. Hata:
Ölçülmek istenen özelliğe ait gözlenen değer ile özelliğe ilişkin gerçek değer arasındaki farktır. Hatalardan sakınmak için hata kaynakları ve hataların ölçme sonuçlarını nasıl etkilediği bilinmelidir. Hata kaynağı; ölçümcü, araç, yöntem, ortam, nesne ya da bireyin etkileşimi.
24
Ölçmede Hata Ölçmede Hata Sabit Hata Sistematik Hata Tesadüfi Hata
25
Sabit Hata Bir ölçmeden diğerine miktarı değişmeyen hata türüdür.
Her ölçümde hata aynıdır ve kaynağı bellidir. Örnek: Eşit kollu terazide kefelerden birinin büyük olması. Lastik pompasının 2 psi fazla göstermesi
26
Sabit Hata Eğitimden Örnek:
Öğretmenin her sınav kâğıdına 10 puan fazla vermesi Yetersiz süreden dolayı soruların yapılamaması Sabit hatalar, puanların ortalamasını değiştirir, ancak hata miktarı tüm ölçümler için aynı olduğundan standart sapmayı değiştirmez.
27
Sistematik Hata Ölçülen büyüklüğe, ölçmeyi yapan kişiye, ölçülen özelliğe ve ölçme koşullarına bağlı olarak miktarı değişen ve tüm ölçmelere aynı oranda etki etmeyen hatalar. Yanlılık hatalarıdır. Örnek: 2 cm uzun bir metre ile 10 metrelik kumaş ölçmek Öğretmenin yazının güzelliğinin değerlendirilmediği bir sınavda yazısı güzel olan öğrencilere daha fazla puan vermesi Kız, erkek veya çalışkan öğrencilere daha fazla puan Hesaplamada birimin hatalı verilmesi (Fen Bilimleri) Bu tür hatalar, ölçümlerin güvenirliğini etkilemezken, geçerliğini etkilemektedirler. Sistematik hatalar arttıkça ölçme sonuçlarının geçerliği azalır.
28
Rastgele Hata Ölçme sonuçlarına karışan, miktarı ve kaynağı net olarak belli olmayan hatalardır. Rastgele hatalar, ölçmeyi yapan kişiden, ölçmenin yapıldığı ortamdan, şans başarısından, ölçmeye konu olan bireylerden kaynaklanabilir. Ölçme sonuçlarının güvenirliğini etkilerken, geçerliğini etkilemez. Rastgele hatalar, arttıkça güvenirlik azalır. Güvenirlik çalışmaları, ölçme sonuçlarına karışması muhtemel rastgele hataları en aza indirmek için yapılır.
29
Güvenirlik Tahmin Yöntemleri
Güvenirliği, tam olarak hesaplamak mümkün değildir. Bunun yerine güvenirlik tahmin edilmektedir. Tek uygulamaya dayalı yöntemler İki uygulamaya dayalı yöntemler
30
Güvenirlik tahmin yöntemleri
Yöntemin Adı Hesaplama Türü İşlem Boyutu Test-Tekrar Test yöntemi Kararlılık katsayısı Bir test formunun aynı öğrenci grubuna belli bir aralıkla iki kez uygulanmasına dayanır. İki testin uygulamaları arasındaki zaman aralığı arttıkça güvenirlik katsayısı düşecektir. Eşdeğer formlar yöntemi Denklik katsayısı Aynı içeriğe yönelik hazırlanan iki eş değer test formunun aynı öğrenci grubuna (zaman aralıklı ya da zaman aralığı olmaksızın) uygulanması esasına dayanır. Testi yarılama yöntemi İç tutarlılık katsayısı Bir test formunun iki eş yarıya bölünüp uygulanması esasına dayanır. Testin iç tutarlılığının bir göstergesini verir. Özellikle hız testleri için yüksek güvenirlik tahminleri verir. Kuder-Richardson ve Alpha katsayısı İç tutarllık katsayısı Testi yarılama yönteminden daha düşük güvenirlik tahminleri verir.
31
Tek Uygulamaya Dayalı Yöntemler
Tek uygulamaya dayalı yöntemler, ölçme aracının örnekleme bir kez uygulanması sonucu elde edilen puanlardan yararlanılarak güvenirlik katsayısının hesaplanmasına dayanır. Bunlar; Kuder-Richardson KR-20 ve 21, Cronbach Alpha (α) ve Testi Yarılama (Eşdeğer Yarılar) yöntemleridir. İlk iki yöntemde, öğrencilerin her bir test maddesine verdikleri cevaplara yönelik bir istatistiksel analizden (madde varyansı) güvenirlik katsayısı türetilmektedir. Testi yarılama yönteminde, testin eşdeğer iki yarısına ait puanlardan Sperman Brown veya Rulon formülü kullanılarak güvenirlik hesaplanmaktadır.
32
Kuder-Richardson KR-20 ve 21
Kuder-Richardson KR-20 ve 21 formüllerinin test sonuçlarının güvenirlik hesaplamalarında kullanılabilmesi, testin ölçtüğü özellik açısından homojen olması, yani aynı özelliği ya da değişkeni ölçüyor olması sayıtlısına dayanmaktadır. Eğer ölçülen özellik homojen değilse, testteki maddeler arasındaki tutarlılık azalacak ve test puanlarını yorumlamak güçleşecektir. K: Testteki madde sayısı pi: i. maddenin güçlük indeksi qi: 1-pi S2x : Test puanlarına ait varyans X: Aritmetik ortalama
33
Cronbach Alpha (α) Bir testin iç tutarlılığını belirlemek amacıyla yaygın olarak kullanılan bir istatistiksel tekniktir. Bu yöntem, bir testin muhtemel tüm iki yarılarının ortalama korelâsyonu olarak da yorumlanabilir. Cronbach Alpha (α) yöntemi, ağırlıklı ya da çoklu puanlanabilen maddelerden oluşan testlere de uygulanabilmektedir. Cronbach Alpha (α) güvenirliği için kullanılan formül, aşağıda verilmiştir.
34
Testi Yarılama (Eşdeğer Yarılar)
Geliştirilen araç öğrenci grubuna tek oturumda uygulanır ve sonrasında test iki eş yarıya bölünerek, her bir yarıdan öğrencilerin aldığı puanlar karşılaştırılır. Pearson Momentler Çarpımı Korelâsyon Katsayısı, yarıların eşdeğerliğinin bir göstergesidir. X: Öğrenciye ait yarı ham puan Y: Aynı öğrenciye ait diğer ham puan
35
Testin tümüne yönelik güvenirlik katsayısı
Sperman-Brown formülü Rulon formülü SF2: fark puanlarına ait varyans, Sx2 : toplam test puanlarına ait varyans
36
Örnek X Formu (Tek) Y Formu Çift) X2 Y2 X.Y 10 100 7 8 49 64 56 4 2 16 32 6 36 48 28 5 3 25 9 15 70 12 81 1 119 108 837 772 752 20 maddelik bir Türkçe testini, 20 öğrenciye pilot olarak uygulayan bir öğretmen testi tek sayılı ve çift sayılı maddeleri içerecek şekilde iki forma ayırdı (X, Y). rxy= ,69 rtüm= ,81
37
İki Uygulamaya Dayalı Yöntemler
Test-Tekrar Test Yöntemi Aynı aracın, aynı bireylere, aynı koşullarda, farklı zamanlarda iki defa uygulanmasıdır. Uygulamalar arasındaki sürede öğrencilerin ölçülen becerilerinde değişikliğin olmadığı varsayımına dayanır. Pearson Momentler Çarpımı Korelasyonu Eşdeğer (Alternatif, Paralel) Formlar Yöntemi Aynı testi kullanmak yerine iki paralel test formu geliştirilmekte ve bunun üzerinden güvenirlik hesaplama yoluna gidilmektedir. Pearson Momentler Çarpımı Korelasyon
38
Ölçmenin Standart Hatası
Ölçmenin standart hatası (Sh), ölçülen özelliğin gerçek değeri ile ölçme sonucu gözlenen değeri arasındaki farkı ifade etmektedir. Sh= S: Standard sapma, rx: güvenirlik katsayısı
39
Güvenilirliği Etkileyen Faktörler
Ölçme aracından kaynaklanan hatalar Ölçmeyi yapan kişiden kaynaklanan hatalar Güvenirlik belirleme yöntemleri Testi alan kişi ya da grubun özelliklerine yönelik faktörler Testi uygulama koşulları Şans başarısı
40
Güvenirliği Arttırmanın Yolları
Çok sayıda soru hazırlamak, Sorular açık, anlaşılır ve öğrencinin ortada şaibe oluşturmayacak şekilde cevaplayacağı türde olmalıdır. Öğrenciler soruları dikkatli ve hızla cevaplamak konusunda teşvik edilmelidirler. Sınav süresi soruların cevaplarına göre optimum şekilde ayarlanmalıdır. Sınavdaki sorular, cevaplayanların yaklaşık yarısı tarafından doğru cevaplanmalıdır. Yani test güçlüğü 0,5-0,55 olması gerekir. Sorular objektif yollarla puanlanmalıdır. Ölçmenin yapılmasında titizlik ve dikkat göstermek gerekir. Hazırlanan ölçme aracının, ölçmek istenilen değişkeni duyarlı ölçmesi gerekir. Ölçme sonuçlarının, hassas bir şekilde kaydedilmesi gerekir.
41
Güvenirlik ile Geçerlik Arasındaki İlişki
Bir ölçme aracının geçerliği için güvenirlik gereklidir, ancak yeterli şart değildir. Tam anlamıyla tutarlı sonuçlar veren bir test, ölçülen özellikle ilgili doğru bilgi sağlamayabilir. Yani, ölçme aracınız, tam olarak ölçmek istediğiniz özelliği ölçmüyorsa, tutarlı ölçümler verse bile onu kullanmanın anlamı yoktur. Geçerlik açısından baktığımızda ise, bir test, geçerli değilse, o zaman güvenirliği tartışmanın anlamı yoktur.
42
Güvenirlik ile Geçerlik Arasındaki İlişki
43
KULLANIŞLILIK Uygulama kolaylığı Puanlama kolaylığı
Puanları yorumlama kolaylığı Maliyetin düşük olması Testin uygun mekanik yapıda olması
44
Kaynaklar Çepni, S., Baki, A., Ayas, A., Demircioğlu, G. ve Akyıldız, S. (2009). Ölçme ve Değerlendirme. Celepler Yayınevi: Trabzon. Turgut, M. F. ve Baykul, Y. (2010). Eğitimde Ölçme ve Değerlendirme. Pegem Akademi: Ankara. Atılgan, H., Kan, A. ve Doğan, N. (2007). Eğitimde Ölçme ve Değerlendirme. Anı Yayıncılık: Ankara.
Benzer bir sunumlar
© 2024 SlidePlayer.biz.tr Inc.
All rights reserved.