Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

ÖLÇME ve DEĞERLENDİRME

Benzer bir sunumlar


... konulu sunumlar: "ÖLÇME ve DEĞERLENDİRME"— Sunum transkripti:

1 ÖLÇME ve DEĞERLENDİRME
Yrd.Doç.Dr. Bülent Ediz 2010-Bursa 1

2 Eğitim Eğitim öğrencide istenilen davranışları geliştirmek, kusurlu davranışları düzeltmek ve istenmeyen davranışları ortadan kaldırmak için yapılır. İlkokul veya Lise öğrenimi, Meslek öğrenimi vb. eğitimin genel örnekleridir. Kurslarda daktilo, piyano veya dans öğretilmesi veya bir politik görüş kazandırılması da eğitimin çeşitli örnekleridir. 2

3 Eğitim Eğitime tabi tutulan kişilerde, eğitim sürecinin sonucu olarak planlanan davranış değişikliklerinin meydana gelmesi beklenir. Eğitim işleminin tamamlanmasıyla bu davranışlar eğitilenlere kazandırılmış olabilir. İstenilen davranışların hiç oluşmaması, oluşsa bile istenilen derecede bir davranış değişikliği olmaması da mümkündür. İstenilen niteliklerde bir davranış değişikliği uygulanan eğitimin başarısına, beklenen davranış değişikliğinin gerçekleşmemesi de başarısızlığına kanıttır. 3

4 Eğitim Uygulanan bir eğitimin başarılı olup olmadığının, başarılı ise ne derecede ve hangi öğrenciler için başarılı olduğunun bilinmesi istenir. Eğitim işlemi devam ederken, başarısızlığın ve başarısız bireylerin erken tanınması, önlem alınmasını kolaylaştırır. Başarı derecesinin bilinmesi ve başarısızlık hallerinin ortaya çıkarılması, ileride girişilecek benzer eğitim etkinliklerinin daha gerçekçi esaslarla planlanmasına yardım eder. 4

5 Eğitim Fakat, başarı derecesinin bilinmesi ve başarısız olanların tanınması, ancak, öğrencilerde meydana gelen davranış değişikliklerinin ölçülüp değerlendirilmesiyle mümkün olur. Herhangi bir eğitim dönemi ardışık basamaklardan oluşur. Bir eğitim sistemi çeşitli düzeylerde okullara, bir okul sınıf veya yıllara, bir yıl ise daha kısa alt dönemlere bölünür. 5

6 Eğitim Eğitime kapsam açısından bakılınca da, ardışık bölümlerden oluşmuş ders veya programlar görülür. Öte yandan, öğrenciler okullara alınırlar, başarılarına göre ardışık basamaklarda ilerletilirler. Bazı hallerde bir kısım öğrencilere programın tekrarlatıldığı, bir kısım öğrencilerin sistemden çıkarıldığı olur. Bütün bu işlemler öğrenci hakkında verilen bazı kararların sonucunda yapılır. 6

7 Eğitim Öğrenciler hakkındaki bu çeşit eğitim kararları; çoğu zaman, öğrenci başarısına ilişkin bir takım ölçmelere ve değer yargılarına dayanır. Ne yazık ki, başarıya dayanan kararlar her zaman isabetli olmaz. İsabetli bir karar verilebilmesi için karara dayanak olacak kadar yeterli bilgi toplanması, toplanan bilgilerde önemli hatalar bulunmaması ve bu bilgilerin doğru yorumlanması gerekir. 7

8 Eğitim Herkes şu veya bu konuda karar verme durumunda kalmış ve çeşitli kararlar vermiştir. Buna rağmen, karar işleminin mahiyeti. bir kararda ne gibi öğeler bulunduğu, kararların hangi koşullarla doğru olabileceği pek az kişi tarafından bilinir. Karar işleminin ve öğelerinin genelde çözümlenmesi, karar verme süreci hakkında önemli bilgiler verir. 8

9 Eğitim Bir coğrafya öğretmeninin bütünleme sınavında kullanmak üzere dört yazılı yoklama sorusu hazırladığını ve bunların doğru cevaplarına sırasıyla en çok 10, 30, 40, 20 puan vermeyi kararlaştırdığını düşünelim. Öğretmenin buraya kadar yaptığı iş, bir ölçme aracı hazırlamak ve o araç için bir ölçme kuralı saptamak olmuştur. Öğretmen sınavı uyguladıktan sonra, bir öğrencinin cevaplarına sırasıyla 10, 0, 30, 20 puanlarını vermiş olsun. Öğretmenin bu aşamada yaptığı iş bir ölçmedir. 9

10 Eğitim Bundan sonra öğretmen öğrenciye, =60 ve 60/10=6 işlemleriyle, «altı» notunu vermiş olsun. Öğrenciye not verilmesi bir değerlendirme işlemidir. Sonra bu not okul idaresine gider; orada, sınav yönetmeliğinin “Bütünlemede en az beş notu geçer” hükmüne göre, öğrencinin coğrafya dersinden geçtiği yargısına varılır. Bu değer yargısına ulaşma da bir değerlendirmedir. Bu değer yargısı, varsa öteki bütünlemeli derslerdeki değer yargılarıyla birlikte, öğrenci hakkındaki sınıf geçme kararına dayanak olur. 10

11 Eğitim Her kararın gerisinde bir değer yargısı bulunur.
Değer yargılarına, gözlem veya ölçme sonuçlarının bir ölçüte vurulmasıyla ulaşılır. Örnekteki öğretmenin 60/10=6 işlemiyle yaptığı değerlendirmede kullandığı ölçüt, “tam puan 100” veya “tam not 6” esasına göre, o sınavda sorulan soruların tümü olmuştur. Okul idaresinin “coğrafyadan geçer” yargısına da, 6>5 işlemiyle ve yönetmeliğin koyduğu “en az beş” ölçütüyle ulaşılmıştır. 11

12 Eğitim Öğrenciler hakkındaki eğitim kararları, başarının yanında başka değer yargılarına ve verilere de dayanmak zorundadır. Fakat, öğrenci başarısı hakkındaki değer yargıları, eğitim kararlarının en önemli dayanağıdır. Bu kararların isabetli olması için, öğrenci başarısı hakkında yeterince doğru bir değer yargısına ulaşılması istenir. 12

13 Eğitim Bir değer yargısının doğruluğu ise, hem dayandığı gözlem veya ölçmelerin doğruluğuna, hem de seçilen değerlendirme ölçütünün uygunluğuna bağlıdır. Fakat, bugün ülkemizde ölçme ve değerlendirmenin iyi bilinmemesi, ölçme sonuçlarıyla ölçütlerin birbiriyle karıştırılmasına, yetersiz dayanaklarla isabetsiz kararlar verilmesine sebep olmaktadır. 13

14 Eğitim Bazen güvenilir olmayan bir ya da birkaç ölçme sonucuna dayanarak karar verildiği; bazen de geçerli olmayan bir ölçüt seçildiği, hatta ölçütün yanlış kullanıldığı görülmektedir. Ölçme ve değerlendirme, genel kullanımda birbirinden ayrı anlam taşıyan iki kavramdır. 14

15 Eğitim Öğretmenlerimizin ve üst düzeydeki bazı eğitimcilerimizin bu kavramları birbirine karıştırarak kullandıkları görülmektedir. Ölçmede eşyanın, olayların veya insanların ölçmeye konu olan niteliklerinin gözlenmesi, sayılması veya bir ölçme aracıyla karşılaştırılması vardır. Ölçme işleminin sonucunda da, ölçmeye konu olan niteliğin ya sayı, ya derece, ya da sıfatlarla gösterilmesi vardır. 15

16 Eğitim Ölçmelere her zaman hata karışır.
Bir ölçme sonucunun güvenilir olması, ölçme hatalarının önemsiz dereceye indirilmesiyle sağlanır. Değerlendirme ise, ölçme sonuçlarını bir ölçüte vurarak, ölçülen nitelik hakkında bir değer yargısına varma sürecidir. 16

17 Eğitim Değerlendirmenin güvenilir ölçme sonuçlarına dayanması, geçerli bir ölçütle yapılması, değer yargısına ulaşma işlemlerinde yanlışlık bulunmaması doğru bir değer yargısına ulaşmak için gereklidir. Değerlendirmenin dayanacağı ölçme sonuçlarının hatalarını, azaltmak, eğitimdeki niteliklerin ölçülmesinde çok zordur. 17

18 Eğitim Değerlendirmenin kullanılacağı eğitim kararına uygun bir ölçüt seçimi ise daha zordur. Çünkü, uygun bir ölçüt seçme işleminde, eğitimin amaçlarından öğrencinin özgeçmişine kadar birçok etkenin dikkate alınması gereklidir. Eğitim kararları öğrenci, öğretmen, programlar, ders araçları, okullar, vb. hakkında olabilir. 18

19 Eğitim Kararlara öğrencilerle ilgili işlemler açısından bakılınca, değerlendirmenin en az iki görevi ortaya çıkar. Bu görevlerden biri öğrencileri başarılarına göre sınıflamaktır. “geçti - bütünlemeli – kaldı”, “zayıf - orta – iyi” gibi kararlar veya öğretim amaçları için öğrenci başarısına dayanan diğer gruplama işlemleri birer sınıflamadır. İkinci görev öğrenciyi tanımaya yardımcı olmaktır. 19

20 Eğitim Öğrenciyi tanıma daha ziyade rehberlik amaçlarına hizmet ettiğinden, bu göreviyle değerlendirme, öğrencinin eksik yönlerini, kuvvetli olduğu alanları, özel yeteneklerini, öğrenme güçlüklerini ortaya çıkarmaya çalışır. Sınıftaki öğretimin iyi yürütülebilmesi için, öğrenci başarısının sık sık ölçülüp değerlendirilmesi gerekir. 20

21 Eğitim Gerçekten, bir sınıftaki öğrencilerin herhangi bir dersteki başarıları ölçülüp değerlendirilecekse, o dersin öğretmeni, ölçme ve değerlendirme becerilerine sahip olmak kaydiyle, bu işi yapacak en yetkili kimsedir. Onun için, öğrenci başarısının ölçülmesi ve değerlendirilmesi konuları, öğretmenlik meslek programlarının önemli bir parçası haline gelmiştir. 21

22 Eğitim Öğretmen; bu görevi yerine getirebilmek için, ölçme ve değerlendirme adıyla bilinen alanın bazı özel bilgilerini rahatlıkla kullanabilecek derecede iyi bilmek, bu alanda bazı beceriler geliştirmiş ve olumlu tutumlar kazanmış olmak zorundadır. 22

23 Eğitim Ölçme ve değerlendirme alanının bilgi, beceri ve tutumlarının bir öğretmene kazandırılması, bu alandaki uzmanların yetişmesi için gerekli eğitim kadar kapsamlı ve zor değildir. Bu bilgi ve beceriler, meslek öncesinde haftada birkaç saatlik bir yıl süreli bir dersle, meslek içinde bir kursla, hatta meraklı öğretmenlerin kendi gayretleriyle kazanılabilir. 23

24 Eğitim Ölçme ve değerlendirme, alanının özel bilgilerini kazanmış bir öğretmenle, bu bilgileri kazanmamış bir öğretmen arasında önemli farklar vardır. Ölçme ve değerlendirme tekniklerine uyarak not veren bir öğretmen, hem daha az hatalı değer yargılarına ulaşmış olur, hem de kendi öğretim yöntemlerini değerlendirip geliştirebilir. 24

25 Eğitim Çünkü, iyi bir ölçme, ders programının ve öğrenme sürecinin, ayrıntılarına kadar analiziyle başlar. İşte bu analiz, öğretmenin, kendi öğretim etkinliklerini geliştirmesine yardım eder. Şüphesiz, eğitim kararları, sadece öğretmenin kendi öğrencileri hakkında verdiği kararlardan ibaret değildir. 25

26 Eğitim Öğrenci seçimi, program değerlendirme, araştırma gibi etkinliklerde kullanılacak ölçme araçlarının hazırlanması, daha ileri uzmanlık bilgi ve becerileri gerektirir. Öğretmenin bu alandaki araçlardan ve araştırma sonuçlarından yararlanması beklenir. Bunun için de öğretmen, uzmanlık ürünlerinden yararlanabilecek yetişkinliğe ulaşmalıdır. 26

27 Eğitimde Ölçme Eğitimde birçok değişken ölçülebilir.
Ölçülen büyüklükler çoğu halde öğrencilerin bir takım nitelikleridir. Bu sebeple, ölçme işlemi her zaman ölçülecek büyüklüğün tanımlanmasıyla başlar. Ölçme, araç gerektirir. 27

28 Eğitimde Ölçme Ölçme araçları, ölçülecek büyüklüğün gözlenip sayılarla ifadesini kolaylaştırır. Her araç, bir bakıma, gözlemin daha duyarlı yapılmasını sağlar. Eğitimde kullanılan ölçme araçları, ölçülecek büyüklüğün tabiatına ve aracın kullanılacağı gruba göre çeşitlilik gösterir. 28

29 Eğitimde Ölçme Ölçmeyi yapacak kimse, değerlendirmenin amacına uygun bir araç seçmek, yoksa böyle bir aracı bizzat yapmak ihtiyacını duyar. Eğitimde kullanılan ölçme araçları, yapımlarının gerektirdiği uzmanlık ve beceriler bakımından çeşitlilik gösterir. 29

30 Eğitimde Ölçme Ölçme ve değerlendirme sonuçları, çoğu zaman idarecilere, öğrenci velilerine ve öğrencilere bildirilir. Bu kimseler, genellikle ölçme sonuçlarını kendi başlarına yorumlayıp bir anlam çıkaracak bilgi ve becerilere sahip değildirler. Onun için, ölçme ve değerlendirme sonuçlarının ilgililer için anlamlı bir dille verilmesi zorunlu olur. 30

31 Eğitimde Ölçme Bu iş de ölçme ve değerlendirmeyi yapan öğretmene düşer. Eğitimdeki ölçme araçları hem kullanılır, hem de uygulamadan alınan sonuçlara dayanılarak analiz edilip geliştirilir. Örneğin, bir yazılı yoklamada alınan cevapların önceden hazırlanmış bir anahtarla puanlanması sırasında, sorularda ve anahtarda kusurlar görülebilir. İleride kullanılmak üzere, sorular düzeltilebilir ve anahtar yeniden hazırlanabilir. 31

32 Eğitimde Ölçme Ölçme araçlarını analiz etme, kusurlarını bulup düzeltme, bu işlemlerde özel eğitimleri olan öğretmenlerce daha iyi ve daha kolayca yapılır. 32

33 Ölçmenin Temelleri Değerlendirmeye hizmet edecek bir ölçmenin değerlendirme amacına uygun olması değerlendirmenin gerektirdiği kadar duyarlı ve hatadan arınık olması istenir. Bu niteliklerde bir ölçme yapılabilmesi için ölçmenin temel kavramları ve ilkeleri ana çizgileriyle bilinmelidir. 33

34 Ölçmenin Önemi Ölçmenin önemi, bilimdeki ve uygulamadaki yeri tartışmasız kabul edilebilecek kadar açıktır. Ölçmek, genellikle bir niteliği nicelemek veya sayısal ifadelerle belirtmek anlamında kullanılır. Bir niteliğin «büyük» «çok», «fena», «pekiyi» gibi sıfatlarla belirlenmesi sayılarla ifade edilmesinden daha az kesinlik taşır. 34

35 Ölçmenin Önemi Sayılarda anlamın kesinliği, çoğu zaman, ifadenin değerini artırır. Ölçme, gözlemlerimize gerçekten kesinlik kazandırıyorsa, o konudaki bilgilerimiz de kesinleşiyor demektir. Ölçmenin bilim ve uygulamada önem kazanması işte bu kesinleştirmede yatar. Ayrıca, sayılarla yapılan işlemler de kolaylaşır. 35

36 Ölçmenin Önemi Ölçme işlemleri hem gözlemleri kolaylaştıran hem de gözlemlerin duyarlığını artıran işlemlerdir. Bir bilim dalı daha kesin olmak yolunda ise ve bir uygulamada daha kesin verilere dayanacaksa ölçme yapılması zorunlu olur. 36

37 Ölçmenin Önemi Eğitimde ölçmenin önemi, eğitimin teorik bir bilim olma gayretleri yanında, pratik kararlarda değer yargılarına dayanak sağlamasından gelir. Eğitimde ölçme gayretleri ilerledikçe, ölçme araç ve metotları geliştirildikçe, bir çok eğitim kararı, subjektif kanılardan ziyade objektif ölçmelere dayanmaya başlamıştır. 37

38 Ölçmenin Önemi Nitekim, testlerin ortaya çıkmasından önce, zeka, yetenek, tutum, kişilik gibi terimlerle ifade edilen niteliklerin kişilerdeki dereceleri gözlemlerle ancak kabaca kestirilebiliyordu. Bugün, birçok nitelik testlerle ölçülmekte, niteliğin kişideki derecesi standart birimlerle gösterilmekte bu ölçümlere dayanılarak çeşitli kararlar verilmektedir. 38

39 Ölçmenin Önemi 1. 6/F sınıfındaki öğrenciler sayılmış. 38 kişi bulunmuştur. 2. Sami’nin boyu ölçülmüş, 152 cm bulunmuştur. 3. Bu sabah okul bahçesindeki termometre 16°C gösteriyordu. 4. Nermin, giriş sınavı sonucunda, tıp fakültesine on sekizinci olarak girdi. 5. Dünkü konferanslarda Ali Atar, çok iyi konuştu, fakat Ömer sık sık kekeledi. 6. Yoklama cetvelinde yatılı öğrenciler 2 gündüzlüler 1 kodu ile gösterilmiştir. Yukarıda değişik ölçmeler gösterilmiştir. 39

40 Ölçme Tanım Ölçme, bir niteliğin gözlenip gözlem sonucunun sayılarla veya başka sembolerle gösterilmesidir. Canlıların, olayların veya eşyanın ölçülecek niteliğini diğer niteliklerinden ayırt edebilmek ölçmenin birinci basamağıdır. Ölçme işlemi açısından bu basamakta yapılacak iş, ölçülecek ampirik(deneysel olarak elde edilen) sistemi ölçme değişkeniyle ve ölçme boyutuyla tanımlamaktır. 40

41 Ölçme Tanım Ölçmenin ikinci basamağı, ölçme sonuçlarının sayı veya sembollerle gösterilmesidir. Ölçme işlemi açısından bu basamakta yapılacak iş, ölçülecek değişkene ve ölçmenin amacına uygun bir sembol veya sayılar kümesi seçmektir. Ölçmenin üçüncü basamağı, gözlenen değişkenin belli değerlerine belli sayılar verilmesidir. Bu basamakta yapılacak iş, gözlenen değişkenin hangi değerine hangi sayının verileceğini gösteren kuralı saptamaktır. 41

42 Ölçme Tanım Uzunluk ölçmek için arşın veya metre seçme, bir yazılı yoklamayı puanlamak için doğru cevap anahtarı hazırlama ve hangi nitelikteki bir konuşmaya “iyi” denileceğini kararlaştırma gibi işlemler. Aslında, ölçme kuralının saptanmasından başka bir şey değildir. 42

43 Ölçmede Birimler Ölçme sonuçlarını sayılarla ifade ederken, çoğu halde bir birim söz konusudur. «152 cm», «16°C», «36 öğrenci» gibi ölçme sonuçlarında cm, °C ve «öğrenci» birer birim ifade etmektedirler. Ölçmenin önemli problemlerinden biri, ölçme işleminin yapılmasını kolaylaştıracak ve ölçme sonuçlarının kullanılacağı amaca uygun düşecek bir birim seçmektir. 43

44 Ölçmede Birimler Ölçmede kullanılacak birimlerde bulunması istenen üç özellik, birimlerin eşitliği genelliği ve kullanış amacına uygunluğudur. Metre kulaçtan daha iyi bir birimdir. Çünkü metrenin yapımı ve kullanılışındaki hataların sınırları içinde, bütün metreler birbirine eşittir; fakat, bütün kulaçlar birbirine eşit değildir. 44

45 Ölçmede Birimler Metre ve yarda kesinlikle tanımlanmıştır metre ve yarda birbirine çevrilebilir. Fakat insanların bir kısmının yarda kullanması iletişim güçlüğü yaratır. Onun için birimlerde birlik, birimlerin eşitliği kadar önemlidir. 45

46 Ölçmede Birimler Üstelik, farklı birimler kullanıldığı hallerde, biri diğerine hatasızca çevrilemeyen birimlerdeki iki ölçmeyi birbiriyle karşılaştırma olanağı da bulunamaz. 46

47 Ölçekler Ölçme işleminin yapılışına ve ölçme sonuçlarını göstermede kullanılan sayı kümesinin özeliklerine bağlı olarak çeşitli ölçekler elde edilir. Ölçmenin bilimsel incelenmesi sonucu, ölçeklerin şu dört ana türde olabileceği ortaya çıkarılmıştır. 1. Eşit oranlı ölçekler 2. Eşit aralıklı ölçekler 3. Sıralama ölçekleri 4. Sınıflama ve isimsel ölçekler 47

48 Ölçekler Eşit Oranlı Ölçekler : Bir değişkenin iki gerçek değerinin birbirine oranının, bu değerlere karşılık olan iki ölçme sonucunun birbirine oranına eşit olmasına, eşit oranlılık özeliği denir. Yapılan ölçmede denemeler sonucunda elde edilen ilişkiler kümesi elemanları arasındaki oranlar korunursa, şüphesiz, eşit oranlı ölçme sonuçları elde edilir. 48

49 Ölçekler Eşit Aralıklı Ölçekler: Bir ölçeğin sıfır noktası ile değişkenin sıfır değerinin biribirine karşılık olmadığı haller de vardır. Mesela, termometre 0°C sıcaklığını gösterirken havanın ısısı gerçek anlamda sıfır değildir. 49

50 Ölçekler Bu hal ölçekte sıfır noktasının itibari olarak seçilmesinden doğar. Bununla birlikte, ölçekteki eşit aralıklar değişkenin değerlerinde eşit farklara karşılık oluyorsa, eşit aralıklı bir ölçek meydana gelir. Santigrat ve fahrenheit gibi sıcaklık ölçekleri, zaman ölçekleri ve benzerleri eşit aralıklıdır. 50

51 Ölçekler Birimlerin eşitliğini sağlayabilen her ölçek eşit aralıklı bir ölçek niteliği kazanır. Eşit aralıklı ölçekte bir ölçme aracı meydana getirilecekse, bir birim tanımlanır ve pratik amaçlara uygun bir sıfır noktası seçilir. 51

52 Ölçekler Sıralama Ölçekleri: Ölçülecek değişkenin iyice bilinmediği sıfır değerinin anlamsız olduğu ve bir birimin tanımlanamadığı haller de vardır. Bu hallerde o değişkenin değerleri bir büyüklük sırasına konulabiliyorsa, sıralama işlemiyle ölçme yapılabilir. 52

53 Ölçekler Öğrencileri boy sırasına dizen bir beden eğitimi öğretmeni böyle bir ölçme yapmış olur. Bir Türkçe öğretmeni de, öğrencilerin kompozisyonlarını pekiyi, iyi, orta, zayıf gibi dört gruba ayırdığında, buna benzer bir sıralama yapmış olur. 53

54 Ölçekler Sıralamada sıfırın anlamı yoktur.
Bir, birim söz konusu olmadığından sıraları farklı iki ölçme arasındaki farkın ne büyüklükte olduğu da bilinmez. 54

55 Ölçekler Sınıflama Ölçekleri : Ölçülecek değişkenin belli bir boyutu olmadığını, değişkenin değerlerinin herhangi bir boyutta sıralanamadığını kabul edelim. Bu halde ölçülecek bir nitelik yok mudur? Ölçülecek bir nitelik varsa, ölçme nasıl yapılabilir? Bir sınıfta, bir kısmı erkek bir kısmı kız olmak üzere, N öğrenci bulunsun. 55

56 Ölçekler Bu sınıfın öğretmeni “Kızlar dışarı çıksın” deyip grubu böylece ikiye ayırdığında bir sınıflama yapmış olur. Bir müdür yardımcısı da sınıf geçme defterinin sonuç hanesine her öğrenci için «geçti», «kaldı», «bütünlemeli» kelimelerinden birini yazdığında bir sınıflama işlemi yapmış olur. 56

57 Ölçekler Ölçülecek değişken sadece kategorik değerler alabiliyorsa, ancak sınıflama ve her kategorideki bireyleri saymak mümkündür. Sınıflama sonuçları genellikle ancak iki bireyin aynı kategoride veya farklı kategorilerde olduğunu bildirir. 57

58 Ölçekler Fakat, bir sınıflamada kategoriler (sınıflar) bir boyutta sıralanabilirse bu kategorilere dahil bireyler de aynı şekilde sıralanabilir. Sınıf geçen öğrencilerin bütünlemelilerden onların da kalanlardan daha başarılı olduğu kabul edilsin. 58

59 Ölçekler Bu varsayım doğru ise. başarı seviyeleri bakımından bu üç kategori arasında «geçti> bütünlemeli> kaldı» bağıntıları doğru olur. Bununla birlikte bir kümenin bütün elemanlarını sıralamak ile aynı kümenin bütün elemanlarını sıralı kategorilere göre sınıflamak arasında fark vardır. 59

60 Ölçekler Sınıflama yoluyla elde edilen ölçme sonuçları üzerinde ancak sınıfların frekanslarına dayanan istatistiksel işlemler anlamlı olur. 60

61 Ölçme Ölçme, insanların günlük hayatında önemli bir yer tutar. Bir çok şeyin miktarı ya da sayısal büyüklüğü hakkında fikir sahibi olmak için ölçmeye, ölçme araçlarına ve onun standart birimlerine başvururuz. Ölçmenin en genel tanımı, “geçerli görgül yollarla test edilebilecek kurallar çerçevesinde nesnelere belli özelliklere sahip oluş derecelerine göre sayılar veya semboller vermektir” şeklinde yapılmaktadır. 61

62 Ölçme Ölçmenin hangi türde olacağı, ölçülen özelliğe ve ölçülen özelliğin gözlenme şekline bağlıdır. Gözlenen sonuçlar elde edilirken yapılan bir gözlemin ne şekilde yapıldığı ve ölçme sonuçlarının elde ediliş biçimi, ölçme türlerinin tanımlanmasına yardımcı olur. 62

63 Ölçekler Ölçekler, ölçülen değişkenin tipine göre; 1. Sürekli Ölçekler
2. Kesikli Ölçekler En temel özellikler bakımından da; 1. Eşit oranlı ölçekler 2. Eşit aralıklı ölçekler 3. Sıralama ölçekleri 4. Sınıflama ve isimsel ölçeklerdir. 63

64 ÖLÇME ARAÇLARINDA BULUNMASI GEREKEN NİTELİKLER
Farklı amaçlara hizmet eden çalışmalara dönük, farklı ölçme araçlarından elde edilen bilginin, pratik durumlarda kullanılabilir olması için ölçme aracına ilişkin iki teknik özelliğin sağlanmış olması gereklidir. Bunlardan birincisi, ölçme aracıyla ölçülmek istenen özelliğin amaca uygun olarak farklı özelliklerle karıştırılmadan ölçülmesidir. Ölçme aracında bulunması gereken ikinci özellik ise, ölçme aracından elde edilen sonuçların, benzer koşullar altında, tekrar uygulandığında yeniden elde edilebilmesidir. 64

65 ÖLÇME ARAÇLARINDA BULUNMASI GEREKEN NİTELİKLER
Benzer koşullar altında, aynı özellik farklı zamanlarda aynı ölçme aracıyla tekrar ölçüldüğünde ölçme aracından elde edilen sonuçlarının aynı olması beklenir. Bu, ölçme aracının hatasız ve doğru ölçümler yaptığının bir göstergesidir. Ölçme aracının doğru sonuçlar üretmesi anlamına gelen bu özellik, teknik olarak ölçme aracının güvenirliği şeklinde ifade edilir. Burada güvenirlik, ölçülen özelliğin, gerçekten ölçülüp ölçülemediğine bakmaksızın, ölçme aracından elde edilen sonuçların doğruluğu şeklinde ele alınacaktır. 65

66 ÖLÇME ARAÇLARINDA BULUNMASI GEREKEN NİTELİKLER
Bu açıdan bakıldığında, güvenirliğin geçerlik için ön şart olduğu, fakat geçerliği garanti altına almayacağı görülebilir. Ölçme aracında bulunması gereken iki teknik özelliğin yanında üçüncü özellik ise, güvenirlik ve geçerlik kadar önemli olmasa da, ölçme aracının kullanışlılık özelliğidir. 66

67 ÖLÇMEDE HATA VE HATA KAYNAKLARI
Ölçme yaparken ölçülen özelliğin miktarı hakkında doğru bilgi edinebilmek ve bu ölçme sonuçlarına dayanarak doğru kararlar verebilmek için, mümkün olduğunca hatasız ölçme elde etmek istenir. Ancak gerek fen bilimlerindeki ölçümlerde, gerekse eğitim ve psikoloji gibi sosyal bilimlerde ölçüm sonuçlarına mutlaka bir miktar hata karışır. Bu hatanın miktarı genellikle bilinemez. 67

68 ÖLÇMEDE HATA VE HATA KAYNAKLARI
Eğitim ve psikolojideki değişkenlerin yapısı göz önüne alındığında, bu alanlarda yapılacak ölçümlerin hatalı olma olasılığı daha fazladır. Eğitim uygulamalı bir bilim dalıdır ve eğitim süreci içerisinde bir çok ölçme durumu yer alır. Bu ölçmelerde, hata yapmaktan kaçınmak isteniyorsa, hata kaynakları ve bu hata kaynaklarının ölçme sonuçlarını nasıl etkileyeceği bilinmelidir. 68

69 Hata ve Hata Türleri Ölçme sonuçlarına karışan hatalar; ölçmeciden, ölçme aracı ve ölçme yönteminden, ölçmenin yapıldığı ortamdan, üzerinde ölçme yapılan nesne ya da bireylerin sözü edilen bu etkenlerle etkileşimi gibi bir çok kaynaktan gelebilmektedir. Ölçmede gözlenen bir özelliğin gerçek değeri bulunmak istenir. Ancak ölçmeye karışan çeşitli hatalar nedeniyle gerçek değer ölçme yoluyla doğrudan elde edilemez. Gerçek değer, gözlenen puanlar (ölçme sonuçları) yardımıyla kestirilmeye çalışılır. 69

70 Hata ve Hata Türleri Gerçek puan ölçme ile elde edilemeyen kuramsal bir değerdir ve ölçülen özelliğin gerçek değerini ifade eder. Gerçek puan, klasik test kuramında ölçülen özelliğe ilişkin sonsuz sayıda ölçmelerden elde edilen puanların ortalaması olarak tanımlanır. Ölçülmeye çalışılan özellikler sabittir ve bu özellikleri ölçmek için geliştirilen ölçme araçlarından elde edilen sonuçların farklılığı, özellikleri ölçerken ölçmeye karışan hatalardan kaynaklanır. Tüm bu açıklamalar ışığında hata, ölçülmek istenen özelliğe ait gözlenen değer ile özelliğe ilişkin gerçek değer arasındaki farktır. 70

71 Hata ve Hata Türleri Hata kavramını daha iyi anlaşılabilmesi için bir örnek üzerinde açıklayalım. Bir sınıftaki bir grup öğrencinin sınıflarındaki öğretmen masasının uzunluğunu ölçtüğünü ve her birinin farklı bir sonuç bulduğunu varsayalım. Ölçülen özelliğe yani uzunluğa ilişkin olarak bu öğrencilerin bulduğu sonuçlardan hangisi doğrudur? 71

72 Hata ve Hata Türleri Masa uzunluğunun gerçek değeri sabit ve tek bir değer olduğuna göre, bütün öğrencilerin farklı sonuçlar bulması ölçme sonuçlarında hatanın olduğunu gösterir. Bu sebeple hangi öğrencinin bulduğu ölçme sonucunun doğru olduğunu belirlemek oldukça güçtür, çünkü masanın gerçek uzunluk değeri bilinmemektedir. Bunu gözlenen değerlerden kestirmek mümkündür. Gerçek değeri belirlemenin bir yolu gözlenen değerlerin ortalamasını almak suretiyle gerçek puanı kestirmektir. 72

73 Hata ve Hata Türleri Gözlenen değerlerin ortalaması alındığında ve bu değer masa uzunluğunun gerçek değeri kabul edildiğinde her bir öğrencinin bulduğu ölçme sonucunun bu değerden farkı ölçme hatası olarak tanımlanabilir. Hata ölçme sonuçlarına çeşitli şekillerde karışabilir. Ölçme hataları, kaynağı yönü ve miktarı göz önünde tutularak sabit, sistematik ve tesadüfi (rastgele) hatalar olmak üzere üç türde incelenebilir. 73

74 Sabit Hatalar Bir ölçmeden diğerine, miktarı değişmeyen hatalardır. Daha somut olduğu için fen bilimlerinden bir örnekle bu hata tipi açıklanabilir. Ucu 2 santimetre kırık bir cetvelle, onu bir kez kullanmak suretiyle, ölçme yapıldığını varsayalım. Cetveli bir defa kullanarak yapılan her ölçüm, kırık olan kısmın uzunluğu kadar, yani 2 santimetre hatalı olacaktır. 74

75 Sabit Hatalar Ölçmeye konu olan nesneler üzerinde yapılan bütün ölçümlerde yapılan hata miktarı eşittir ve 2 santimetredir. Hata miktarı ölçmeden ölçmeye değişmediği için, burada ölçme sonuçlarına karışan hata, sabit hatadır. 75

76 Sabit Hatalar Eğitimde de sabit hataların ölçme sonuçlarına karışması söz konusu olabilir. Eğitimde bu hata türüne ilişkin bir örnek; bir öğretmenin yaptığı 5 soruluk bir yazılı yoklama sınavında, öğrencilere gerekenden az süre vermesi nedeniyle öğrencilerin tamamının beşinci soruyu yanıtlayamadığı bir durum olabilir. Öğrencilerden bazıları eğer, yeterli süre olsaydı, soruların tamamını yanıtlayabilecekken, süre yetmediği için yanıtlayamamışlardır. Sınav sonuçlarını düşük bulan bir öğretmenin tüm öğrencilerin notlarına 5 puan ilave etmesi de başka bir örnek olabilir. 76

77 Sabit Hatalar Bu durumlarda ölçme sonuçları gerçek durumu yansıtmayıp hatalı olur. Ölçme sonuçlarına karışan hata, tüm ölçmelerde aynı miktarda olduğundan sabit hata olarak adlandırılır. 77

78 Sistematik Hatalar Ölçülen büyüklüğe; ölçmeciye veya ölçme koşullarına ve belli bir duruma bağlı olarak miktarı değişen hatalardır. Yukarıdaki örnekte verilen ölçme aracının (ucu kırık cetvel) daha büyük bir uzunluğu ölçmek üzere birden fazla kullanılması durumunda, hata miktarı ölçme aracının kullanım sayısına bağlı olarak artacaktır. 78

79 Sistematik Hatalar Eğer ölçme aracı 2 kez kullanılmışsa, ölçümlerde, 2x2=4 santimetrelik bir hata, eğer 5 kez kullanılmışsa, ölçümlerde 2x5=10 santimetrelik bir hata olacaktır. Bu tip hataların eğitimden de bir çok örneği vardır. Bir yabancı dil sınavında, okuyucunun, yanlış söylemesi nedeniyle öğrencilerin bir kelimeyi yanlış yazmaları ve bu kelimenin metnin içinde birden fazla geçmesi de sistematik hataya sebep olur. Yine öğretmenin erkek öğrencilere, kız öğrencilerden daha fazla puan vermesi, yazısı güzel olan öğrencilere yazısı güzel olmayan öğrencilere nazaran daha yüksek puan vermesi vb. gibi hatalar sistematik hatalara örnek olarak verilebilir. 79

80 Sistematik Hatalar Gerek sistematik, gerekse sabit hatalarda ölçme sonuçlarına karışan hatanın miktarı, yönü ve kaynağı bellidir. Bu durum yukarıdaki örneklerden de rahatça anlaşılabilir. Bu sebeple bu tür hataların ölçme sonuçlarına karışmasını engellemek ya da düzeltmek nispeten daha kolaydır. 80

81 Rastgele (Tesadüfi) Hatalar
Ölçme sonuçlarına gelişi güzel karışan, kaynağı, miktarı ve yönü kesin olarak bilinmeyen hatalardır. Tesadüfi hatalar, ölçmenin yapıldığı ortam, ölçmeyi yapan kişinin dikkatsizliği, ölçme aracı vb. gibi birçok hata kaynağından gelen bir hata türüdür. Ölçmelere tek yönlü olarak karışmazlar. Ölçme sonuçlarına bazen pozitif, bazen de negatif yönde karışabilirler. Bu nedenle tesadüfi hatalar kontrol edilemez. 81

82 Rastgele (Tesadüfi) Hatalar
Sabit ve sistematik olmayan ölçme hataları, tesadüfi değişken olma özelliğine sahiptir. Bu nedenle ölçmede hata kuramları sadece tesadüfi hatalar üzerine kurulmuştur. 82

83 Hata Kaynakları Ölçme sonuçlarına dayanarak bir karara varılması amaçlandığından, ölçmelerde ne kadar hata olabileceğini kestirmek zorunlu bir hal alır. Çünkü verilecek kararların isabetlilik derecesi yapılan ölçümlerin doğruluğuna bağlıdır. Bu sebeple ölçme sonuçlarına karışan hata ve hata kaynakları iyi tanımlanmalı ve hata miktarını kestirebilecek metotlar bulunmalıdır. Ölçme sonuçlarına karışan hatalar genel olarak; ölçmeyi yapan kişilerden, ölçmenin yapıldığı araçtan, ölçme ortamından ve ölçmenin yapıldığı gruptan kaynaklanabilir. 83

84 Hata Kaynakları Ölçmeyi yapan kişiden kaynaklanan hatalar Ölçmeyi yapan kişinin (ölçmecinin) ölçme yaparken; öznel puanlama eğilimi, dikkatsizliği, yorgunluğu vb. ölçme sonuçlarına hata karışmasına neden olabilir. Puanlama aşamasında, puanlayıcının kendine ait yorumları puanlamaya etki edebilir. Her puanlayıcı sınavları kendi bakış açısına ve anlayışına göre değerlendirecektir. Eğitimde, özellikle yazılı yoklama ve ödevler puanlanırken; puanlayıcının, farklı bakış açıları hataya neden olabilir. 84

85 Hata Kaynakları Örneğin, bir puanlayıcı yazılı yoklama kağıtlarını puanlarken, ardı ardına iyi düzeyde kağıtları puanladıktan sonra gelen orta düzeyde kağıtlara olduğundan düşük puan verme eğiliminde olabilir. Aynı kağıtlar, değişik puanlayıcılar tarafından puanlandığında puanlayıcılar arasındaki görüş, bakış açısı ve yorumlama farklılıkları olabileceğinden dolayı, aynı kişi tarafından farklı zamanlarda yapılan puanlamalarda puanlayıcıların içinde bulunduğu koşullar ölçme sonuçlarına hata karışmasına sebep olabilir. 85

86 Hata Kaynakları Puanlamanın nesnel olmaması, öznel kanılara dayalı olması hata kaynağıdır. Bir testten elde edilen puanların, puanlayıcıya ve puanlama zamanına göre değişmemesi; puanlamadaki tesadüfi hataların azlığını yani, testin puanlama güvenirliğinin yüksekliğini gösterir. Ölçmenin yapıldığı araçtan kaynaklanan hatalar. Ölçme aracının (testin) yapısından gelen hata kaynaklarından birisi testi oluşturan maddelerin örneklemidir. 86

87 Hata Kaynakları Ölçtükleri davranış ve kapsam bakımından homojen (benzeşik) maddelerden oluşan bir test, heterojen (farklı) maddelerden oluşan bir testten daha güvenilirdir. Bu konuda hataya neden olan bir diğer faktör testte yer alan maddelerin kapsamı yeterince örnekleyememesi, bir diğer ifadeyle temsil etmemesidir. Bu açıklama ve kavramlar, kapsam ve içerik açısından testin içerisindeki maddeler arasındaki farklılığı (hetorojenlik) ifade ettiği kadar, testler arasındaki maddelerin farklılığını da ifade eder. 87

88 Hata Kaynakları Bir özelliği ölçmek üzere bir test geliştirilmişse, testin maddelerinin geliştirilmiş olduğu özelliğin kapsamına giren tüm konuları yeterince kapsaması, tüm davranışları iyi örneklemesi gereklidir. Eğer test, maddeleri geliştirildiği konuların tamamını örneklemez ise, öğrenci bildiği yerlerden soru çıktığında yüksek puan, bilmediği yerlerden soru çıktığında ise düşük puan alacaktır. Bu durum da öğrencinin, ölçülen özellik hakkındaki durumunu net bir şekilde görmeyi engelleyecektir. Diğer bir ifade ile ölçme sonuçları ve buna dayalı yapılacak değerlendirmeler hatalı olacaktır. 88

89 Hata Kaynakları Yine testler yapılandırılırken maddelerin iyi ifade edilememesi, öğrencilerin soruları yanlış anlamasına ve hataya neden olacaktır. Eğer iki ya da daha fazla test geliştirilirse, testlerden birinde veya bir kaçında, maddelerin ifade edilişinde veya kapsamın örneklenmesinde farklılıklar olabilir. Bu problem, özellikle paralel testlerde görülebilir. Bu durumda, aynı özelliği ölçen paralel iki testi alan bir bireyin puanları farklılaşır. 89

90 Hata Kaynakları Başka bir ifade ile, testler aynı özelliği ölçmesine ve aynı amaca hizmet etmesine rağmen, bireyin her bir testten aldığı puanlar farklı olur. Bu durumda farklı puanların söz konusu olmasının nedeni ise ölçme hatalarıdır. Maddelerin ve yönergenin daha iyi ifade edilmesi ve kapsamın daha iyi örneklenmesi nedeni ile birinci testten yüksek puan alan bir birey, eğer ikinci test aynı özelliklere sahip değilse daha düşük puan alabilir. 90

91 Hata Kaynakları Bu nedenle, bir test ya da testler yapılandırılırken davranış alanının çok iyi tanımlanması, ölçülecek hedef davranışların, madde tipinin, sayısının ve uygulama süresinin uygun biçimde belirlenmesi gereklidir. Testin yapısı ile ilgili diğer bir konu da testin uzunluğu, yani testteki madde sayısıdır. Testin uzunluğunun artırılması ile, testin güvenirliğinde beklenen artışı kestirmek için aşağıdaki formül kullanılır. 91

92 Hata Kaynakları Güvenirlik ve madde sayısı arasındaki ilişkinin daha iyi anlaşılması için bu durumun örneklenmesi yerinde olabilir. Örneğin, güvenirlik katsayısı olacaktır. Testin madde sayısı iki kat artırıldığında güvenirlik katsayısı 0,60’tan 0,75’e çıkması beklenir. 92

93 Hata Kaynakları Ayrıca, Spearman-Brown formülü sayesinde, belli bir güvenirliğe sahip bir testin istenilen güvenirlikte bir test haline getirmek için, madde sayısını en az kaç kat artırılması gerektiğini hesaplamakta olanaklıdır. - - 93

94 Hata Kaynakları Örneğin, bir öğretmenin, güvenirliği 0,60 olan 20 maddelik (soruluk) bir test kullandığını varsayalım. Bu öğretmenin testin güvenirliğini 0,90’a çıkarmak için testteki madde sayısını kaç kat artırması gerektiği aşağıdaki gibi hesaplanabilir. - - - 94

95 Hata Kaynakları Bu sonuç, testin güvenirliğini 0,90’a çıkarmak için öğretmenin testin uzunluğunu altı kat artırması gerektiğini ifade eder. Testin önceki madde sayısı 20 olduğuna göre, testin uzunluğu 6 kat artırıldığında ve madde sayısı 20x6=120’ye çıkarıldığında güvenirliğinin 0,90’a yükseleceği söylenebilir. Testin yapısı ile ilgili diğer bir hata kaynağı, özellikle çoktan seçmeli ve doğru yanlış tipi objektif testlerde karşılaşılan ve şans başarısı olarak adlandırılan, yanıtlayıcının doğru yanıtı bilmediği halde tahmin yoluyla bulmasıdır. 95

96 Hata Kaynakları Bu durum, bir test üzerinde ölçülen özellik açısından bireyin ölçülen durumunun, gerçekte olduğundan çok görünmesine, eğer aynı özelliği ölçen paralel testler söz konusu ise bireyin iki testten elde edeceği puanların farklı olmasına neden olur. Yukarıda ifade edilen durumların her biri hata varyansını artıran kaynaklarındandır. Hata varyansının artması ise güvenirliği düşürür. 96

97 Hata Kaynakları Testteki madde sayısını artırmak, hata varyansını azaltmak için bir yöntemdir. Sözgelimi, belli bir konuda hazırlanmış 5 maddelik bir doğru yanlış testini alan ve hiçbir bilgisi olmayan bir bireyin tüm soruları doğru yanıtlayıp tam puan alma olasılığı 1/32 iken, madde sayısı 10’a çıkarıldığında bu konuda hiçbir şey bilmeyen bir öğrencinin tüm soruları doğru yanıtlandırma ve tam puan alma olasılığı 1/1024 olur ve şans başarısı azalır. Bu nedenle madde sayısını arttırmak şans başarısını azaltmak için uygun bir yöntemdir. 97

98 Ölçmenin yapıldığı ortamdan kaynaklanan hatalar
Test uygulanırken ortaya çıkan testin yapıldığı ortamla ilgili bazı hata kaynakları, testi alan bireylerin motivasyonunu ya da dikkatini etkileyebilir. Bu da ölçme sonuçlarına hata karışmasına neden olabilir. Bu faktörlerin etkisiyle, birey alabileceği puanın altında veya üstünde puan alabilir. 98

99 Ölçmenin yapıldığı ortamdan kaynaklanan hatalar
Testin uygulanışı sırasında, sınavın uygulandığı dersliğin sıcaklığı, ışık, havalandırma, gürültü düzeyi, sınav düzeninin kopya çekmeye uygun olması gibi faktörler, ortamla ilgili hata kaynaklarına örnek olarak verilebilir. Teste ait uygulama koşulları, testi alan her öğrenci için aynı olmalıdır. Yani, testi alan tüm bireyler aynı koşul ve olanaklarda sınavı almalıdır. 99

100 Ölçmenin yapıldığı ortamdan kaynaklanan hatalar
Eğer bir test, testi alan bütün bireylere eşit ve tutarlı koşullar altında uygulanmazsa, o testten yüksek puan alan öğrenciler testle ölçülmek istenen özelliğe en çok sahip olanlar değil, testi en iyi koşullar altında alanlar olacaktır. Eğer aynı özelliği ölçen iki test uygulanacaksa, standart ve benzer koşullar altında uygulanmalıdır. Aksi takdirde bireylerin testlerden elde ettikleri puanlar arasında farklılıklar olacaktır. Bu nedenle güvenirliği artırmak için, testler bütün bireylere eşit ve standart koşullar altında uygulanmalı ve ortamdan kaynaklanabilecek hata faktörleri giderilmelidir. 100

101 Ölçmenin yapıldığı gruptan kaynaklanan hatalar
Ölçmenin yapıldığı gruba ait bireylerin, ölçme işlemi yapılırken içinde bulundukları motivasyon, heyecan, stres, uykusuzluk, dikkat dağınıklığı vb. gibi özel koşullar ya da ölçme işlemi yapılmadan önce geçirdikleri, kaza, şok, tartışma vb. gibi olumsuz yaşantılar, onların ölçülen özelliklerine ilişkin gerçek performanslarını ortaya koymalarını engelleyecektir. Bu durumda bireylerden elde edilen puanlar olması gerekenden yani onların gerçek performansından farklı olacaktır. 101

102 Ölçmenin yapıldığı gruptan kaynaklanan hatalar
Bu da güvenirliği etkileyen bir hata kaynağıdır. Bu sebeple, test verilmeden önce, testi alan bireylerin moral ve motivasyonu onları rahatlatıcı ve telkin edici sözlerle düzeltilmelidir. Ölçmenin yapıldığı grubun ölçülen özellik açısından homojen ya da hetorojen bir yapıya sahip olması da güvenirliği etkileyen önemli bir hata kaynağıdır. 102

103 Ölçmenin Standart Hatası
Ölçme hatası, yukarıda bahsedilen açıklamalara dayanarak, ölçülen özelliğin, bireyde ya da nesnede var olan gerçek değeri ile, ölçme ile bu özelliğe ilişkin belirlenen gözlenen değer arasındaki farkı ifade eder. Yukarıda da belirtildiği gibi bireyde ya da nesnede var olan bir özelliğe ait gerçek değer bilinmediğinden, kuramsal olarak bir özelliğe ait sonsuz sayıda gözlenen değerin aritmetik ortalaması gerçek değer olarak tanımlanır. 103

104 Ölçmenin Standart Hatası
Daha sonra özelliğe ilişkin her bir gözlenen değerin, bu ortalamadan (kestirilen gerçek değer) farkı belirlenir. Bu fark, o ölçmeye ilişkin hata olarak adlandırılır. Bu açıklamadan da anlaşılacağı gibi, güvenirlik ve hata ölçüleri bir tek ölçme kümesinden kestirilemez. Ölçme hatalarına ilişkin bir dağılıma gereksinim vardır. Ölçülen özelliğin kestirilen gerçek değeri ile her bir bireyden gözlenen değer arasındaki farklardan oluşan hataların bir dağılımı vardır. 104

105 Ölçmenin Standart Hatası
Bahsedilen bu hataların aritmetik ortalaması ölçmenin standart hatasını tanımlar. Ölçme hatalarını, onun dağılımı hakkında bir takım varsayımlar yapmadan kullanmak olanaksızdır. Ölçme hatalarına ait dağılımın normal olduğu varsayılır. Normal dağılımda ortalamanın düştüğü alanın sağı ve solunda olmak üzere 3 birim (standart sapma) alan vardır. Standart hata da güvenirlik gibi hata ölçüsünü veren bir istatistiktir. Fakat, hata miktarını bir oran olarak değil, test puanı biriminde verir. 105

106 Ölçmenin Standart Hatası
SH; ölçmenin standart hatasını, Sx; ölçme sonuçlarının standart sapmasını; r ; güvenirlik katsayısını ifade etmek üzere, ölçmenin standart hatası; 106

107 Ölçmenin Standart Hatası
Bu eşitlik aracılığıyla, test puanlarının ne kadar hatalı olduğu, test puanı cinsinden kestirilebilir. Bu istatistik testi puanlarının standart sapması ve güvenirlik katsayısı biliniyorsa kolayca hesaplanabilir. Bu, bir bireyin sonsuz sayıdaki paralel testten aldığı gözlenen puanlardan gerçek puanını elde etmek istediğimizde, yapılan hataların dağılımının standart sapması olarak ifade edilir. Bu eşitliğin dayandığı varsayım; standart sapmanın bireylerin gerçek puanlarından bağımsız olduğu ve testi alan tüm bireyler için aynı olduğudur. 107

108 Ölçmenin Standart Hatası
Gözlenen puanlar dağılımına ilişkin standart sapması 10 olan, bir testin güvenirliği 0,75 olarak hesaplanmış olsun. Bu değerler yerine konarak, test puanlarına ait standart hata; olarak bulunur. Bu sonuç aynı zamanda, testi alan, bireylerden herhangi birinin sonsuz sayıdaki paralel testten aldığı puanlara ilişkin dağılımın standart sapmasının 5 olduğu bilgisini de verir. 108

109 Ölçmenin Standart Hatası
Ölçme hatalarının gerçek puanlardan ve birbirlerinden bağımsız olduğu ve normal dağılım gösterdikleri varsayımları altında standart sapma güven aralıklarının hesaplanmasında kullanılabilir. 109

110 GÜVENİRLİK Güvenirlik, hem eğitim ve psikolojide kullanılan testler için hem de bu testlerin sonucuna dayalı değerlendirme yapmak için önemli bir kavramdır. Bu nedenle ölçme araç ve yöntemlerinde bulunması gereken temel bir özelliktir. Güvenirlik kavramının anlamı; birbiri ardına yapılan denemelerden aynı sonucun elde edilmesidir. 110

111 GÜVENİRLİK Psikometri, bilimi bu tanım üzerinde yoğunlaşmış ve bu tanımın kapsamını bir hayli geliştirmiştir. Bir testin güvenilir olmaması, ölçme hatalarının miktarının göstergesidir ve bir testten elde edilen puanların yorumlanmasında ölçme hatalarının miktarının bilinmesi, o sonuçlara dayanarak doğru karar vermek açısından çok büyük öneme sahiptir. Bu sebeple bu kavram ve tanım psikometrik açıdan geniş bir şekilde ele alınmış ve geliştirilmiştir. 111

112 GÜVENİRLİK İlk ele alındığı zamanlardan bu yana geçen süre içerisinde güvenirlik kavramının psikometrik açıdan esasları aynı kalmıştır. Güvenirlik kavramına ilişkin yapılan tanım ve açıklamalar, onun nasıl ele alınacağını ve hangi yöntem ve tekniklerle belirleneceğini tanımlamıştır. Otis, 1925 yılında güvenirliği şu ifadelerle açıklamıştır; bir testin iki formu aynı özelliği mükemmel (tutarlı) bir şekilde ölçüyorsa, uygulandığı grupta yer alan bireylerin iki formdan elde ettiği puanlar arasında mükemmel bir korelasyon olacaktır. 112

113 GÜVENİRLİK Testin iki formundan elde edilen puanlar arasındaki korelasyonun düşük olması ölçme hatasından kaynaklanır. Ölçme hatası, ne kadar büyük olursa, korelasyon o derece düşük olacaktır. 0 halde, iki form arasındaki korelasyon testin ölçme hatasının göreli miktarının ölçüsüdür. Açıkça anlaşılmaktadır ki Otis güvenirliği; bir testin iki (paralel) formundan elde edilen puanların tutarlığı şeklinde tanımlamıştır . 113

114 GÜVENİRLİK Paralel testlerden elde edilen puanlar arasındaki tutarlığı yansıtan bu görüş, daha sonraları bir testi oluşturan her bir maddenin paralel bir test olduğu düşünülerek bir testi oluşturan maddelerin, testin bütünüyle olan tutarlılığı anlamında olan iç tutarlılık görüşüne öncülük etmiştir. Bunlar, tutarlılık anlamında bir güvenirlik anlayışını yansıtır. Aynı zamanda güvenirlik, bir ölçme aracı hangi özelliği ölçüyor olursa olsun, aracın ve yapılan ölçmenin hatasızlığıyla da ilgilidir. 114

115 GÜVENİRLİK Ölçmenin amacına uygun olarak yeterli duyarlıkta olmayan bir araçla yapılan ölçmeler, daha duyarlı bir araçla yapılan ölçmelere göre daha az güvenilirdir. Örneğin, santimetre bölmeli bir araçla elde edilen ölçmeler, metre bölmeli bir araçla elde edilen ölçmelerden, milimetre bölmeli bir araçla yapılan ölçmeler ise, santimetre bölmeli bir araçla elde edilen ölçmelerden daha duyarlıdır. Bu nedenle ölçülen özelliğin miktarı hakkında daha duyarlı ölçümler verirler. 115

116 GÜVENİRLİK Bu bakımdan ele alındığında güvenirlik, duyarlılık anlamı da taşır. Duyarlılık, daha çok ölçme aracının veya ölçme sonuçlarının birimlerinin büyüklüğüyle ilgilidir. Birimleri küçük olan ölçme aracı veya sonucu, birimi büyük olandan daha duyarlıdır. Dolayısıyla daha güvenilirdir. 116

117 GÜVENİRLİK Ölçmeci, ölçülen özellik açısından bireyler arasındaki farkları ne kadar ince ve duyarlı tespit edebilirse, o kadar hatasız ölçmeler elde eder. Bu nedenle, ölçülen özelliğe bağlı olarak duyarlı ölçme araçlarının seçilmesi güvenilir sonuçlar almak için önemlidir. Güvenirliğe bir başka bakış açısı da, bir özelliğin, benzer koşullar altında aynı araçla birden fazla ölçülmesi sonucu elde edilen ölçme sonuçlarının birbirleriyle tutarlı olmasıdır. 117

118 GÜVENİRLİK Bu da ölçme aracının aynı sonuçları benzer koşullar altında yeniden üretebilmesiyle ilgilidir. Bu, durum ölçme aracının ölçülen özelliği kararlı bir şekilde ölçtüğünün göstergesidir ve kararlılık anlamında güvenirliği ifade eder. Hem duyarlılık hem de kararlılık anlamındaki güvenirliğin daha anlaşılır olabilmesi amacı ile, bir örnek verilebilir. 118

119 GÜVENİRLİK Bir nesnenin uzunluğunu ölçmek için kullandığımız santimetre bölmeli bir metre ile elde ettiğimiz ölçme sonuçları, elastik bir materyal kullanarak yapılan ölçme sonuçlarından daha duyarlı ölçümler verecektir. Santimetre bölmeli metre, tekrarlanan her ölçme işleminde benzer sonuçlar vereceği için hata daha düşük olacaktır. Eğer, uzunluk ölçümü elastik bir materyal kullanarak (örneğin bir lastik parçasıyla) yapılırsa durum farklılaşır. 119

120 GÜVENİRLİK Bu durumda, aynı uzunluğun tekrarlı ölçümlerinde aynı sonucun bulunması güçleşir. Gerek aynı bireyin aynı özelliği tekrarlı ölçümlerinde, gerekse farklı bireylerin aynı ölçme aracıyla aynı özelliğe ait ölçme sonuçlarında hata yapma olasılığı, (santimetre bölmeli metre ile elde edilen ölçüm sonuçları birbirine daha yakın olacağından) daha az olacaktır. 120

121 GÜVENİRLİK Bütün bunların dışında, güvenirlik, APA (American Psychological Association) tarafından eğitim ve psikoloji de kullanılan ölçme araçları (testlerin) standartlarına göre, belki de en geniş anlamıyla; “ölçme sonuçlarının (test puanları) ölçme hatalarından arınıklık derecesi” olarak tanımlanmıştır (APA, 1974). Bu tanıma dayanarak en genel biçimde güvenirlik; ölçme aracının ölçmek istediği özelliği hatasız olarak ölçebilme derecesi olarak tanımlanabilir. 121

122 GÜVENİRLİK Bir testi ve testten elde edilen sonuçları doğru değerlendirmek için, başlıca hata kaynaklarını, bu kaynaklardan gelen hata miktarını, güvenirlik derecesini ve belli koşullara göre sonuçlarının genellenebilirliğinin açıklanması gerekmektedir. Güvenirliğin tanımından da anlaşılacağı gibi hata kavramı, güvenirlik için önemli ve tanımlanması gereken bir kavramdır. Fakat, gerek hata kavramının ve gerekse güvenirliğin daha iyi anlaşılmasını sağlamak amacıyla, güvenirliğe teorik açıdan yaklaşılması bu aşamada uygun olacaktır. 122

123 Güvenirliğe İlişkin Teorik ve İstatistiksel Yaklaşım
bireyin bir özelliğini ölçmeye ilişkin hazırlanmış bir testten elde ettiği puan, özelliğin bireydeki gerçek değerini ifade eden bireyin gerçek puanı ve hata puanından oluşur. Klasik test kuramında bu ifade aşağıdaki eşitlikle gösterilir. X=T+E Burada X; bireylerin testten elde ettiği gözlenen puanı, T; bireyde sabit bir şekilde bulunan ve gözlenemeyen gerçek puanı, E ise; ölçmeye karışan hatayı ifade etmektedir. Burada sözü edilen hata türü, ölçmeye nereden karıştığı, yönü ve miktarı bilinmeyen, sistematik olmayan tesadüfi hatalardır. 126

124 Güvenirliğe İlişkin Teorik ve İstatistiksel Yaklaşım
Bu bağıntıya dayanarak bireylerin gözlenen puanlarındaki değişkenliğin (Sx²) bireylere ait gerçek puan varyansı (St²) ile hata varyansının (Se²) toplamına eşit olduğu varsayılmıştır. Bu eşitlik ise; şeklinde ifade edilmiştir. 127

125 Güvenirliğe İlişkin Teorik ve İstatistiksel Yaklaşım
Klasik test kuramında güvenirlik indeksi, bu eşitliğe dayanarak gerçek puanlar varyansının gözlenen puanlar varyansına oranı olarak tanımlanır ve; şeklinde veya hata puanları cinsinden; şeklinde ifade edilir. Güvenirlik indeksi, 0 ile 1 arasında değişen değerler alır. 128

126 Güvenirliğe İlişkin Teorik ve İstatistiksel Yaklaşım
Güvenirlik indeksinin +1olması mükemmel bir güvenirliği, dolayısıyla hatasız bir ölçmeyi, 0 olması ise tamamıyla güvenilir olmayan, tümüyle hatalardan oluşan bir ölçmeyi ifade eder. Yukarıda verilen tüm eşitliklerde bilinemeyen değerler söz konusudur. 129

127 Test Tekrar Test Güvenirliği
Bir testin güvenirliğine ilişkin bilgi edinmek için başvurulan ve en çok bilinen yöntemlerden birisi, aynı testi aynı gruba, farklı zamanlarda tekrarlı olarak uygulamaktır. Bu durumda güvenirlik katsayısı, aynı bireylerin her iki uygulamadan aldıkları puan dağılımları arasındaki korelasyon katsayısıdır. 130

128 Test Tekrar Test Güvenirliği
Her bir bireyin iki testten elde ettiği puanlar (performans) arasındaki tesadüfi farklılıkları ifade eder. Bu farklılıklar, test dışında kontrol altında tutulamayan, ortamdaki gürültü, ışık, hava koşulları gibi değişkenlerden kaynaklanabilir veya bireylerin bir test durumundan diğerine değişebilen, yorgunluk, motivasyon eksikliği, hastalık vb. gibi kendileriyle ilgili durumlar söz konusu olabilir. 131

129 Test Tekrar Test Güvenirliği
Test- tekrar test güvenirliği belirlenirken, ölçmelerin yapılacağı zaman aralığı dikkatle belirlenmelidir. Çünkü, test-tekrar teste dayalı ölçme sonuçları arasındaki korelasyon, ölçmeler arasındaki zaman aralığı arttıkça düşer. 132

130 Test Tekrar Test Güvenirliği
Test-tekrar test güvenirlik katsayısı aynı zamanda, ölçme aracının, ölçmek istediği özelliği farklı zamanlarda tutarlı bir şekilde ölçüp ölçmediğinin ölçüsünü verir. Bu, ölçme aracının iki ya da daha fazla uygulanması sonucunda, ölçme aracından elde edilen puanların ne derece kararlı olduğunu gösterir. 133

131 Test Tekrar Test Güvenirliği
Bu nedenle bu katsayı kararlık katsayısı olarak ta adlandırılır. İki uygulamaya ilişkin ölçmelerden farklı puanlar elde edilmesinin iki kaynağı vardır. Bunlardan biri ölçme aracıyla, diğeri ise yanıtlayıcılarla ilgilidir. Ölçme sonuçlarındaki farklılığın ne kadarının hangi kaynaktan geldiği bilinmez. 134

132 Test Tekrar Test Güvenirliği
İki uygulamadan elde edilen puanlar arasındaki korelasyonun yüksek olması, hem testten elde edilen puanların kararlılığını hem de iki uygulama arasında geçen zamanın ölçülen nitelik üzerinde fazlaca etkili olmadığını gösterir. 135

133 Test Tekrar Test Güvenirliği
Fakat, iki uygulamadan elde edilen puanlar arasında düşük bir korelasyon elde edilmesinin kaynağı, ölçme aracının güvenirliğinin düşüklüğü olabileceği gibi, aradan geçen zamanın etkisiyle ölçülen özellikte meydana gelecek değişmeler de olabilir. 136

134 Test Tekrar Test Güvenirliği
Bu durum, test-tekrar test güvenirliğinin en dezavantajlı yönüdür. İki uygulama arasındaki zamanın çok kısa tutulması sorulan soruların ve yanıtların ikinci uygulama sırasında hatırlanmasına, çok uzun tutulması ise, bireylerin ölçülen özellik açısından yeni kazanımlara neden olabilir. 137

135 Test Tekrar Test Güvenirliği
Aynı testin, aynı gruba, farklı zamanlarda iki defa uygulanması ile elde edilen iki puan dizisi arasındaki ilişki, testlerden elde edilen puanlar sürekli değişken olarak ele alındığı için Pearson Momentler Çarpımı Korelasyon Katsayısı (PMÇKK) ile belirlenebilir. Bu katsayı test-tekrar test güvenirliğinin bir kestiricisi ve güvenirlik katsayısı olarak kullanılır. 138

136 Test Tekrar Test Güvenirliği
PMÇKK, -1 ile +1 arasında değer alabilir. Fakat güvenirlik, tanımı gereği (-) negatif değer almaz. Bu nedenle test-tekrar test güvenirlik katsayısı 0 ile +1 arasında değerler alır. Hesaplanan bu korelasyon katsayısı +l’e yaklaştığı ölçüde, iki uygulamadan elde edilen puanlar birbirine yakın, 0’a yaklaştığı ölçüde ise iki uygulamadan elde edilen puanların birbirinden farklı olduğu anlamını taşır. 139

137 Test Tekrar Test Güvenirliği
Örneğin, hazırladığı matematik testinin güvenirliğini belirlemek isteyen bir öğretmen, 20 maddeden oluşan bu testi, 15 gün arayla 15 öğrenciye iki defa uygulamış olsun. Öğrencilerin her iki uygulamadan aldıkları puanlar Tablo 2,l’deki gibi olsun. 140

138 Test Tekrar Test Güvenirliği
141

139 Test Tekrar Test Güvenirliği
olarak bulunur. Bulunan bu değer güvenirlik katsayısı olarak, testin birinci uygulaması ve ikinci uygulamasından elde edilen puanların tutarlılık düzeyini ve testin zamandan zamana ne düzeyde kararlı ölçmeler yapabildiğini gösterir. 142

140 Eşdeğer (Paralel) Formlar Güvenirliği
Test-tekrar test güvenirliğinin yukarıda bahsedilen güçlükleri ve dezavantajlarıyla başa çıkmanın bir yolu, aynı testi kullanmak yerine eşdeğer formlar geliştirmek ve bunun üzerinden güvenirliği hesaplamaktır. Bu yöntem, iki eşdeğer test formun aynı gruba uygulanmasına dayalıdır. 143

141 Eşdeğer (Paralel) Formlar Güvenirliği
Bu durumda güvenirlik katsayısı, iki formdan elde edilen puanlar arasındaki korelasyon katsayısıdır. Aynı gruba uygulanan bu iki değişik ama birbirinin eşdeğeri olan test formlarından elde edilen bireylere gözlenen puanlar arasındaki korelasyona eşdeğerlik katsayısı adı verilir. 144

142 Eşdeğer (Paralel) Formlar Güvenirliği
Bu katsayı 0 ile 1 arasında değerler alır. Bu katsayının 0’a yakın olması eşdeğer form güvenirliğinin düşük olduğunu, l’e yakın olması ise eşdeğer form güvenirliğinin yüksek olduğunu gösterir. Bu yöntemle, test-tekrar test güvenirliğinin en önemli dezavantajlarından biri olan, ikinci formun uygulanışı sırasında soruların hatırlanabileceği sorunu her iki formdaki sorular eş değer fakat farklı sorular olduğu için ortadan kalkar. 145

143 Eşdeğer (Paralel) Formlar Güvenirliği
Ayrıca, iki uygulama arasındaki zaman aralığı problemi de nispeten ortadan kalkar. İki form, sorular farklı olduğu için arka arkaya uygulanabilir. Fakat yine de iki uygulama arasındaki süre, hata varyansı kaynağıdır ve dikkatle belirlenmelidir. 146

144 Eşdeğer (Paralel) Formlar Güvenirliği
Eşdeğer formlar yöntemi, test-tekrar test yönteminin avantajlarına rağmen bazı dezavantajlara sahiptir. İki testin birbirine paralel olması için, testlerin kapsamlarının, ortalamalarının, varyanslarının, madde sayılarının ve tiplerinin, madde güçlüklerinin ve diğer madde istatistiklerinin birbirine eşit olması gereklidir. 147

145 Eşdeğer (Paralel) Formlar Güvenirliği
Uygulamada bunu sağlamak oldukça güçtür. Bu nedenle formların paralelliği, testten elde edilen puanlar arasında ve testlerin varyansları arasında istatistiksel yönden anlamlı bir fark olup olmadığını test etmek suretiyle belirlenebilir. Eğer iki form arasındaki zaman uzun tutulursa, bireylerin ölçülen özelliğinde değişme ya da gelişme meydana gelebilir. 148

146 Eşdeğer (Paralel) Formlar Güvenirliği
Bu durumda ölçme hatası, teste ya da ölçme aracına yüklenemez. Bu nedenle iki uygulama arasındaki süre tanımlanmalı ve iyi ayarlanmalıdır. 149

147 Tek Uygulamaya Dayalı Yöntemler (İç tutarlılık)
Paralel formlar güvenirliği, aynı kapsama ilişkin iki ya da daha fazla test hazırlamayı gerektirir. Paralel formların hazırlanması, oldukça zor ve zahmetli bir iş olmasının yanında ekonomik de değildir. Yine bir testin birden fazla sayıda uygulamasına dayanan test-tekrar test güvenirliği, bireylerin ölçülen özelliğinin niteliği, ekonomiklik ve iki ölçme arasında bırakılacak zaman aralığının yol açtığı problemler nedeniyle her durumda kullanışlı olmayabilir. 150

148 Tek Uygulamaya Dayalı Yöntemler (İç tutarlılık)
Bu nedenle, paralel test kavramından ve onun varsayımlarından hareketle yeni yöntemler geliştirilmiştir. Bunlar; iç tutarlığa dayalı, eşdeğer yarılar, Cronbach Alfa ve KR-20 ve KR-21 yöntemleridir. Bu yöntemlerle elde edilen güvenirlik katsayısı iç tutarlılık katsayısı olarak da adlandırılır. Farklı durumlar ve zamanlardan kaynaklanan ölçme hataları, iç tutarlılık katsayılarını etkilemez. 151

149 Tek Uygulamaya Dayalı Yöntemler (İç tutarlılık)
İç tutarlık katsayıları, test-tekrar test güvenirliği ya da paralel form güvenirlik katsayılarıyla eş değer olarak düşünülmemelidir. Testin maddeleri arasındaki ilişkilere dayanılarak elde edilen güvenirlik tahminleri, testin zaman içindeki kararlığı veya paralel form güvenirliği yerine kullanılmamalıdır. 152

150 Eşdeğer Yarılar (Testi Yarılama) Metodu
Eş değer yarılar yöntemiyle güvenirlik belirlemede, bir test formunun tek oturumda uygulanması ve testi eşit iki yarıya bölmek suretiyle her bir bireye ait iki test puanı elde etmek söz konusudur. Tek oturumda uygulanan ve iki yarıya bölünen testin her iki yarısının paralel olduğu ve her iki yarının ortalama ve varyanslarının eşit olduğu varsayılır. 153

151 Eşdeğer Yarılar (Testi Yarılama) Metodu
Bireylerin testin iki yarısından elde ettikleri puanlar arasındaki korelasyon eşdeğerlik katsayısı olarak adlandırılır. Eş değer yarılar güvenirliği, kapsam tutarlılığına ilişkin bir ölçü sağlar. Bu güvenirlik, ölçme aracının tek oturumda uygulanmasından dolayı ölçme aracından elde edilecek sonuçların ya da puanların zaman içindeki kararlılığına ilişkin bilgi içermez. 154

152 Eşdeğer Yarılar (Testi Yarılama) Metodu
Eş değer yarılar güvenirliğine ilişkin problemlerden birisi eş değer yarılar elde etmek için testin ne şekilde iki yarıya bölüneceği sorunudur. Her test çok çeşitli şekillerde iki yarıya bölünebilir. Fakat, çoğu durumda birinci ve ikinci yarı eşdeğer olmayabilir. Her iki yarıdaki maddelerin güçlüğü aynı olmayabilir. 155

153 Eşdeğer Yarılar (Testi Yarılama) Metodu
Yorgunluk, sınav ortamı ve sorulara alışma, sıkıntı ve motivasyon gibi değişkenler test boyunca aynı kalmayacağından dolayı testin başındaki performansla sonundaki performans farklı olacak ve maddeleri doğru yanıtlama olasılığı değişecektir. 156

154 Eşdeğer Yarılar (Testi Yarılama) Metodu
Bütün bu olumsuzluklardan kurtulmak ve testi eşdeğer bir şekilde iki yarıya bölmenin bir yolu, maddeleri sıra numaraları baz alınarak tek sayılı ve çift sayılı sorular şeklinde ayırmaya dayanır. Bu yöntemde, tek numaralı maddeler (1,3,5,7,9,.. gibi) bir yarı, çift numaraları maddeler de (2,4,6,8,10,... gibi) diğer yarı olacak şeklide test iki yarıya ayrılır. 157

155 Eşdeğer Yarılar (Testi Yarılama) Metodu
Eğer test birbirine yakın güçlükteki maddelerden oluşuyorsa böyle bir yarılama sonucunda testin yarılarından elde edilecek puanlar eşit olabilir. Bu yöntem dışında, eğer ölçülen özellik tek boyutlu ve madde güçlükleri birbirine çok yakınsa, maddeler tesadüfi çekilmek suretiyle eş değer yarılar oluşturulabilir. 158

156 Eşdeğer Yarılar (Testi Yarılama) Metodu
Test, eşdeğer iki yarıya bölündükten sonra, yarılardan elde edilen puanlar arasındaki pearson korelasyon katsayısı hesaplanır. Hesaplanan bu katsayı, yarıların eş değerliğinin derecesini verir. Aynı zamanda bu katsayı, eş değer yarılardan birinin güvenirliği olarak kabul edilir. Testin tümüne ilişkin güvenirlik kat sayısı Spearman- Brown formülü; 159

157 Eşdeğer Yarılar (Testi Yarılama) Metodu
160

158 Eşdeğer Yarılar (Testi Yarılama) Metodu
Örnek: Hazırladığı matematik testinin güvenirliğini belirlemek isteyen bir öğretmenin, 10 maddelik testi, 20 öğrenciye uyguladığını, uygulamadan sonra testi tek sayılı sorular bir form (A) çift sayılı sorularda bir form (B) olacak şekilde ikiye bölerek puanlamış olsun. Bu yolla oluşturduğu eşdeğer iki forma ilişkin puanlar Tablo 2.2’de 161

159 Eşdeğer Yarılar (Testi Yarılama) Metodu
162

160 Eşdeğer Yarılar (Testi Yarılama) Metodu
0.84 olarak bulunur. Eğer eşdeğer yarılar güvenirliği Rulon formülüyle hesaplanacak olursa, tablo aracılığıyla hesaplanan toplam test puanlarına ait varyans (S2x=7.05) ve fark puanlarına ait varyans (S2F=1.78) eşitlik; - 163

161 KR-20 ve KR-21 Güvenirliği Testin kapsamı ne kadar homojense, maddeler birbiriyle o derece yüksek ilişkili olacağından, maddeler arasındaki tutarlılık da o derece yüksek olacaktır. Testi içeren maddeler heterojenleştikçe maddeler arası tutarlılık azalacak ve test puanlarını yorumlamak güçleşecektir. 164

162 KR-20 ve KR-21 Güvenirliği Örneğin, 10 adet okuduğunu anlama, 10 adet sayılar arası ilişkileri kullanarak problem çözme, 10 adet uzamsal ilişkiler ve 10 adet de sözcük öbekleri arasındaki ilişkileri yoklayan 40 soruluk bir testin kapsamı heterojen olduğundan (farklı yapıları ölçmeyi amaçladığından) bireylerin performansları arasında çok düşük ilişki olacaktır. 165

163 KR-20 ve KR-21 Güvenirliği Böyle bir testten alınan puanların yorumlanması da belirsizlik taşıyacaktır. Örneğin, homojen bir kapsama sahip olmayan bu testten iki öğrencinin de aynı puan, yani 40 üzerinden 20 puan aldıklarını düşünelim. “Bu iki bireye ait performans eşit midir?” Bu sorunun yanıtı, heterojen testlerde belirsizdir. 166

164 KR-20 ve KR-21 Güvenirliği Bu bireylerden birisi okuduğunu anlama ve sözcük öbekleri arasındaki ilişkiyi yoklayan soruların hepsini doğru yapmış; diğer bireyse sayılar arası ilişkiler ve uzamsal ilişkilere ait soruları doğru yanıtlayarak 20 puan almış olabilir. 167

165 KR-20 ve KR-21 Güvenirliği Bu durumda testten aldıkları puanlara bakarak bu bireylerin performansının birbirine eşit olduğu söylenebilir mi? Bu açıklamalar ışığında bu iki bireyin performanslarının birbirine eşit olduğu söylenemez. 168

166 KR-20 ve KR-21 Güvenirliği Kuder ve Richardson (1937), her maddenin birbiriyle paralel olduğu ve aynı ortalama ve varyansa sahip olduğu varsayımından hareketle KR-20 formülünü geliştirmişler ve buradan elde edilecek katsayıyı bir testin iç tutarlık katsayısı olarak adlandırmışlardır. 169

167 KR-20 ve KR-21 Güvenirliği KR-20 eşitliği aşağıdaki gibidir.
170

168 KR-20 ve KR-21 Güvenirliği KR-2O, doğru yanıta 1 ve yanlış yanıta 0 puan vermek suretiyle, iki kategorili puanlanabilen maddelerden oluşan testin güvenirliğini hesaplamak için kullanılabilen bir yöntemdir. Ağırlıklı ya da çoklu puanlanabilen maddelerden oluşan bir testin güvenirliğini belirlemek için KR-20 yöntemi kullanılamaz. 171

169 KR-20 ve KR-21 Güvenirliği KR-20 iç tutarlılık güvenirliği testte yer alan her bir maddenin madde güçlük indekslerinin bilinmesi ya da hesaplanabilmesi durumunda kullanılabilir. Madde güçlük indekslerinin bilinemediği ya da hesaplanamadığı durumlarda kullanılmak üzere Kuder ve Richardson (1937) tarafından KR-21 iç tutarlılık güvenirlik katsayısı geliştirilmiştir. 172

170 KR-20 ve KR-21 Güvenirliği KR-21 güvenirlik katsayısı, tüm testi oluşturan maddelerin güçlükleri birbirine eşit olduğu varsayımına dayalı olarak; 173

171 KR-20 ve KR-21 Güvenirliği ile ifade edilir (Erkuş, 2003). Bu eşitlik, test istatistikleri cinsinden ifade edildiğinde, X: test puanları ortalaması olmak üzere; eşitliği hesaplamada kullanılabilen eşitliktir. 174

172 KR-20 ve KR-21 Güvenirliği KR-21, madde güçlükleri indekslerinin eşit olduğu varsayımına dayandığı için, testi oluşturan madde güçlükleri arasındaki farklılıklara duyarlı değildir. Bu nedenle KR-21, KR-20’den daha düşük çıkma eğilimindedir. 175

173 KR-20 ve KR-21 Güvenirliği Başka bir ifade ile, testteki maddelerin güçlük indekslerinin birbirine eşit olmadığı durumda KR-21 ile hesaplanan güvenirlik katsayısı KR-20 ile hesaplanan güvenirlik katsayısından küçük çıkar. Bu özelliği nedeni ile KR-21 güvenirliğin bir alt sınırı olarak ele alınır ve yorumlanır. 176

174 KR-20 ve KR-21 Güvenirliği KR-20 ve KR-21 güvenirliğinin nasıl belirlenebileceğine ilişkin bir örnek aşağıda verilmiştir. Hazırladığı matematik testinin güvenirliğini belirlemek isteyen bir Öğretmenin, 10 maddelik testi, 20 Öğrenciye uygulamış ve aşağıdaki madde- test puanları matrisini elde etmiştir. 177

175 KR-20 ve KR-21 Güvenirliği 178

176 KR-20 ve KR-21 Güvenirliği olarak bulunur. KR-21 ise, Tablo 2.3’de hesaplanan değerler eşitlik’de yerine konarak; olarak bulunur. Görüldüğü gibi, KR-20, KR-21’den büyük çıkmıştır. Bu durum, KR-21’in madde güçlükleri indekslerinin eşit olduğu varsayımına dayandığı, testi oluşturan madde güçlükleri arasındaki farklılıklara duyarlı davranmadığı ve test istatistiklerine dayalı olmasından kaynaklanmaktadır.

177 Cronbach Alfa () Güvenirliği
Eğer test, doğru yanıta 1 ve yanlış yanıta 0 puan vererek, iki kategorili puanlanabilen maddelerden oluşuyorsa, ağırlıklı ya da çok kategorili puanlanabilen maddelere sahipse, KR-20 ile aynı mantık üzerine kurulu ve ona benzeyen Cronbach Alfa () yöntemi kullanılır. Bu yöntemin KR-20’den tek farkı, çoklu (polytomous) puanlanabilen maddelerden oluşan testlere uygulanabilmesidir.

178 Cronbach Alfa () Güvenirliği
Cronbach Alfa eşitliği aşağıdaki gibidir. Formül incelendiğinde, KR-20’den farklı olarak parantez içerisindeki bölme işleminin payında yer alan ve madde varyansını ifade eden terimin (pq) yerine (S2i) olmasıdır.

179 Cronbach Alfa () Güvenirliği
Bu durumun nedeni, KR-20’nin iki kategorili puanlamaya dayalı olmasından dolayı, madde puanlarının Bernoulli dağılımı, ’nın ise, çok kategorili puanlamaya dayalı olmasından dolayı, madde puanlarının normal veya bir diğer ifadeyle sürekli dağılım göstermesidir. Cronbach Alfa formülü, Hoyt’un türettiği varyans analiziyle güvenirlik hesaplamasına dayanak sağlar.

180 Puanlayıcı Güvenirliği
Eğitimde yazılı ve sözlü yoklamaların puanlanmasına, öznel etkilerin karışması söz konusudur. Bu nedenle de puanlayıcıların verdiği öznel puanları ve bu puanlara dayalı verilen kararların doğruluğunu değerlendirmek için farklı puanlayıcıların verdikleri madde ve test puanlarının birbiriyle ne derece tutarlı olduğunun belirlenmesi gereklidir.

181 Puanlayıcı Güvenirliği
Puanlayıcı güvenirliği, iki ya da daha fazla puanlayıcı ya da yargıcının farklı bireylere ve farklı maddelere ilişkin yaptıkları puanlamalar arasındaki tutarlılığın derecesidir. Puanlayıcı güvenirliğini belirlemek için kullanılabilecek farklı yöntemler vardır.

182 Puanlayıcı Güvenirliği
En çok bilinen ve yaygın olarak kullanılan yöntem; iki veya daha fazla puanlayıcının aynı bireylere ait testleri birbirlerinden bağımsız olarak puanlamasına ve bu puanlamalar arasındaki korelasyonun hesaplanmasına dayanır.

183 Puanlayıcı Güvenirliği
Puanlayıcıların sınıflama düzeyinde ölçme yapmaları durumunda, iki puanlayıcının puanlamaları arasındaki puanlayıcı güvenirliğine ilişkin katsayıyı belirlemek için kappa istatistiği kullanılabilir. Kappa istatistiğine ilişkin eşitlik; po; gözlenen uyum oranı, pc; şansla beklenen uyum oranını ifade etmek üzere;

184 Puanlayıcı Güvenirliği
şeklinde yazılır. Kappa istatistiği, ikiden fazla puanlayıcı olması durumunda puanlayıcı güvenirliğinin belirlenebileceği şekilde, Flies (1971) tarafından düzenlenmiştir . Eğer puanlayıcılar, sıralama düzeyinde ölçme yapmışsa, iki puanlayıcının, puanlamaları arasındaki puanlayıcı güvenirliğine ilişkin katsayıyı belirlemek için sıra farkları korelasyon katsayısı kullanılabilir.

185 Genellenebilirlik Kuramı
G kuramı, bir testten elde edilen puanı, o testten elde edilebilecek olası puanların tümüne ilişkin bir örnek olarak kabul eder ve denklemlerini bu doğrultuda geliştirir. Test puanlarının; bireyler, testin alındığı koşullar, maddeler ve madde örneklemi gibi koşullara ne derece bağlı olduğunu ya da test puanlarının, ifade edilen koşullar altında evrene ne derece genellenebileceğini belirlemeyi amaçlar.

186 Genellenebilirlik Kuramı
G kuramının hesaplamaları, varyans analizi ve onun çeşitli desenlerini kapsayan tekniklerine dayalıdır. Bu durumda güvenirlik katsayısıyla aynı anlamı taşıyan genellenebilirlik (G) katsayısı, beklenen puan varyansının, gözlenen puan varyansına oranıdır.

187 Genellenebilirlik Kuramı
Genellenebilirlik kuramında faktör ya da değişkenlik kaynağı olarak adlandırılan potansiyel bütün hata kaynaklarının ayrı ayrı ve birbirleriyle etkileşiminden meydana gelen hataları göz önünde tutan bir G katsayısı elde edilir. En genel haliyle, G katsayısının formülü;

188 Genellenebilirlik Kuramı
şeklindedir. Formülde yer alan 2p bireyler varyansı, 2e hata varyansını ifade etmektedir.

189 GEÇERLİK Bir testin geçerliğini belirleme yöntemi;
1)Testin kapsamını analiz etmeyi, 2)Testten elde edilen puanlarla uygun bir ölçütten elde edilen puanları karşılaştırmayı, 3)Testle ölçülmek istenen psikolojik özellik veya diğer adıyla yapının araştırılmasını içerebilir. Bütün bu prosedürler bir testin neyi ölçtüğüne ilişkin anlayış geliştirmek ve bireyler ya da nesnelere ilişkin alınacak kararların doğruluğuna destek sağlayacak bilgi elde etmek için yararlıdır.

190 KAPSAM GEÇERLİĞİ Kapsam geçerliği; bir bütün olarak ölçme aracının ve ölçme aracında yer alan her bir maddenin, testin amacına hizmet etme derecesi olarak tanımlanır, ölçmeye konu olan kapsamı, yeterli ve dengeli olarak örnekleyen ve kapsadığı maddelerin her biri ölçmek istediği davranışı gerçekten ölçen bir ölçme aracının da kapsam geçerliğine sahip olduğunu söylenebilir.

191 KAPSAM GEÇERLİĞİ Kapsam geçerliği belirlenirken aşağıdaki adımların izlenmesi gerektiğini belirtmişlerdir. Ölçmeye konu olan ilgili kapsam alanını tanımlamak, Ölçmeye konu olan kapsam alanında seçkin uzmanları bir araya getirilerek panel oluşturmak, Kapsama ilişkin belirlenen hedef davranışları ve ölçme aracının maddelerini eşleştirebilmek için bir çerçeve oluşturmak, Bu eşleştirme işlemine dayalı bilgi toplama ve özetleme.

192 KAPSAM GEÇERLİĞİ Uzmanlardan, her bir madde için, maddenin ölçmeye çalıştığı yetenek ya da bilgiyi ölçüp ölçmediğini baz alarak, maddenin yeterli olup olmadığı hakkındaki görüşleri alınır. Katılımcı uzmanların bu görüşlerini; yeterli, yararlı ama yeterli değil, yeterli değil şeklinde belirtmeleri istenir. Toplanan uzman tepkileri üzerinden;

193 KAPSAM GEÇERLİĞİ formülü aracılığıyla, kapsam geçerlik oranı belirlenir. Formülde yer alan CVR; kapsam geçerlik oranı, ne; maddenin yeterli olduğu görüşünde olan uzman sayısı, N; panele katılan toplam uzman sayısını ifade etmektedir.

194 KAPSAM GEÇERLİĞİ Bu oran (-1) ile (+1) arasında değer alır.
Kapsam geçerlik oranı -1’e yaklaştıkça; uzmanlar arasında maddenin yeterli düzeyde hedef davranışı ölçmediği görüşünün hakim olduğu, +1’e yaklaştıkça; uzmanlar arasında maddenin yeterli düzeyde hedef davranışı ölçtüğü görüşünün hakim olduğu sonucuna varılır.

195 KAPSAM GEÇERLİĞİ Kapsam geçerliğini belirlemede kullanılacak bir diğer yöntem, Rovinelli ve Hambleton (1977) tarafından geliştirilen maddedavranış uyum indeksidir. Bu yönteme göre, uzmanların test maddelerinin, ilgili kapsama ilişkin davranışları ölçüp ölçmediği yönündeki görüşleri, eğer madde davranışı ölçüyorsa (+1), bu konuda kararsız iseler (0) ve madde davranışı ölçmüyorsa,

196 KAPSAM GEÇERLİĞİ formülü aracılığıyla hesaplanır. Formülde yer alan I j maddesinin, k davranışını ölçüp ölçmediğine ilişkin uyum indeksini, N; davranış sayısı, μk; I maddesinin k davranışını ölçüp ölçmediğine ilişkin puanların ortalaması, μ, j maddesine verilen tüm puanların ortalamasını ifade etmektedir. Madde- davranış uyum indeksi 0 ile 1 arasında değer alır.

197 BİR ÖLÇÜTE DAYALI GEÇERLİK
Bireylerin bir işi yapıp yapamayacağının ya da ölçülen özellikle ilgili geleceğe dönük performansının ölçüsünü veren seçme- yerleştirme amaçlı kullanılan testlerin geçerliği, testi alan bireylerin testten elde ettiği puanlarla, ölçülen özellikle ilişkili geçerliği ve güvenirliği kanıtlanmış puan takımları arasındaki ilişkiyi hesaplamak suretiyle belirlenir.

198 BİR ÖLÇÜTE DAYALI GEÇERLİK
Bu tür kanıtlara dayalı geçerliğe, bir ölçüte dayalı geçerlik adı verilir. Ölçüt puanlar, ölçülen özellikle aynı özelliği ölçen bir araçtan elde edilmişse pozitif yönde ve yüksek bir korelasyon, ölçülen özelliğe zıt bir özelliği ölçen bir araçtan elde edilmişse negatif yönde ve yüksek korelasyon bir ölçüte dayalı geçerliğe ilişkin kanıt olarak kullanılabilir.

199 BİR ÖLÇÜTE DAYALI GEÇERLİK
Bir ölçüte dayalı geçerlik, bir grup bireyin ölçme aracından elde ettiği puanların, ölçüt durumundaki puanlar, sınıflamalar ya da diğer yetenek ve beceri ölçüleriyle karşılaştırmasına dayalıdır.

200 BİR ÖLÇÜTE DAYALI GEÇERLİK
Ölçüt bağıntılı geçerlik çalışmasında; Uygun bir ölçüt, davranış ve onu ölçmek için yöntem tanımlama, Testin kullanılacağı grubun tümünü (evren) temsil edici uygun bir örneklem belirleme, Testin uygulanması ve bireylere ait puanların kaydedilmesi, Ölçüte ulaşma ve her bir bireyin ölçüt üzerindeki performans düzeylerini (ölçüt puanlarını) belirleme, Test puanları ile ölçüt puanlar arasındaki ilişkinin gücünü belirleme.

201 Ölçüte Dayalı Geçerliği Etkileyen Faktörler
Ölçüt dayanaklı geçerlik farklı değişkenlerden etkilenir. Ölçütün durumu, yordayıcı ve ölçütün güvenirlikleri, örneklem büyüklüğü, yordayıcı ve ölçütün birbirini etkilemesi, aralığın daralması gibi faktörler bu faktörler arasında sayılabilir.

202 Ölçüte Dayalı Geçerliği Etkileyen Faktörler
Ölçütün Durumu: Bir ölçüte dayalı geçerlik belirlenirken, ölçütle ilgili bazı konular göz önünde tutulmalıdır. Bu konun başında da değinildiği gibi, ölçütün, testin yordamaya çalıştığı değişkenle doğrudan doğruya ilgili olmaması, ölçüt puanların kararlı olmaması, günden güne veya belli zaman aralıklarında değişmesi, ölçüt puanların elde edilişinin, zaman ve emek açısından kolay ve pratik olmaması bir ölçüte dayalı geçerliğin düşmesine yol açar.

203 Ölçüte Dayalı Geçerliği Etkileyen Faktörler
Yordayıcı ve Ölçütün Güvenirlikleri: Yordama geçerliğine ilişkin katsayının büyüklüğünün, yordayıcı ve ölçütün güvenirlik ile sınırlı olduğu ve bu katsayının yordayıcı ve ölçüt puanların güvenirliklerinin çarpımının kare- kökünden daha fazla olamayacağı belirtilmişti. Tüm bu açıklamalar ışığında, bir ölçüte dayalı geçerliğin alabileceği en yüksek değerin ölçütün ve yordayıcının güvenirliğine bağlı olduğu söylenebilir.

204 Ölçüte Dayalı Geçerliği Etkileyen Faktörler
Yordayıcı ve Ölçütün Uzunlukları: Testin uzunluğunu artırma güvenirliği artırdığından, yordayıcı ve ölçütün uzunluğu artırıldığında, güvenirlikleri de artacaktır.

205 Ölçüte Dayalı Geçerliği Etkileyen Faktörler
Ölçüt ve Yordayıcının Birbirini Etkilemesi: Bazı durumlarda, ölçüt ve yordayıcı birbirini etkiler. Bu durumların bazıları bir ölçüte dayalı geçerliği yükseltirken, bazıları düşürür.

206 Ölçüte Dayalı Geçerliği Etkileyen Faktörler
Aralığın Daralması (Grup Homojenliği) ve Örneklem Büyüklüğü :Ölçme aracının seçme amaçlı kullanıldığı durumlarda, seçme işlemi büyük grup üzerinden yapıldığı halde, ölçüt puanlar daha küçük ve sadece seçilmiş grup (homojen grup) üzerinden elde edilir.,Bu durum geçerliğin düşmesine yol açar. Bunun nedeni, seçilmiş grubun gözlenen puan aralığı ve buna bağlı olarak da gerçek puanlar arasındaki aralığın daralmasıdır.

207 Test Yanlılığı Test yanlılığı, farklı gruplardan cevaplayıcıların test ortalamalarında ortaya çıkan sistematik bir fark (hata) olarak tanımlanabilir. Diğer bir deyişle, ilgilenilen bir özelliği kestirmede kullanılan testin, gruba bağlı olarak sistematik bir biçimde ortalamanın altında veya üstünde kestirimde bulunmasıdır. Bu gruplar genellikle etnik farklılık, cinsiyet, anadil farklılığı veya bir engele sahip olma özellikleriyle birbirinden ayrılır. Eğer bir test yanlı ise, testi alan farklı gruplardaki bireylere eşitsiz davranılmasına neden olur

208 Test Yanlılığını Belirlemede Kullanılan İstatistiksel Teknikler
Ortalamalar Arası Fark: Test yanlılığını belirlemenin en basit yolu ortalamalar arası farka bakmaktır. Regresyon Tekniği: Test yanlılığını belirlemede daha fazla kabul gören bir tekniktir. Tekniğe göre, eğer farklı grupların test puanları aynı regresyon çizgisinde yer alıyorsa, grupların ortalamaları arasında fark olsa da test yansızdır. Eğer farklı grupların test puanları farklı regresyon çizgisinde yer alırsa test yanlıdır.

209 Madde Yanlılığı Madde yanlılığı analizlerinin iki temel amacı vardır. Bunlardan birincisi, test puanlarının değişik gruplardan gelen farklı değişkenlik kaynaklarından etkilenip etkilenmediğinin araştırılması; ikincisi ise bu ilişkisiz kaynakların bazı alt gruplar için adil olmayan bir avantaj sağlayıp sağlamadığıdır.

210 Madde Yanlılığı Genel olarak, madde yanlılığı analiz tekniklerini aşağıdaki kategorilerde sınıflamak mümkün görünmektedir. 1- Madde ayırıcılık gücü ve madde güçlüğü teknikleri 2- Varyans analizi tekniği 3- Mantel-Haenszel tekniği 4- Faktör analizi teknikleri 5- Ki-Kare tekniği 6- Kısmi korelasyon tekniği 7- Madde güçlük dönüşümü (MGD) tekniği 8- Örtük özellikler kuramı teknikleri Lojistik regresyon teknikleri vd. olarak sıralanabilir.

211 Madde Yanlılığı Madde Güçlük İndeksi Tekniği: Öncelikle her bir grup için madde güçlüğünü (p) hesaplamak gerekir. Maddeler gruplar için aldığı p değerlerine göre sıralanır ve her bir gruptaki sıralama karşılaştırılır. Karşılaştırma sırasında sapan madde, yanlılık belirtisi gösterir. Madde Ayırıcılık Gücü İndeksi Tekniği: Her bir grup için madde ayırıcılık güçleri karşılaştırılır. Bunlar genellikle madde ve test puanları arasındaki nokta çift serili veya çift serili korelasyonların karşılaştırılmasıdır.

212 Madde Yanlılığı Faktör Analizi Tekniği: Bir testin faktör yapısı her bir grup için hesaplarıır. Testin faktör sayısı gruplar için değişirse teste veya gruplara bağlı olarak farklı faktörde yükü olan maddelere yanlı gözüyle bakılabilir. Varyans Analizi Tekniği: Test puanlarına madde ve grup değişkenlerine göre varyans analizi uygulanır. Aynı test verilen için, iki ya da daha fazla grup arasında madde x grup etkileşimi manidar çıkarsa ilgili maddelerin yanlı olduğu yorumu yapılır.

213 Madde Yanlılığı Madde Güçlük Dönüşümü (MGD) Tekniği: Angoff Delta grafik tekniği de denir. Angoff ve Ford (1973) tarafından önerilen bir tekniktir. Madde güçlüklerinin bir grafikle gösterilmesini içeren yöntemdir. MGD tekniği, maddeler ve grup etkileşimine her bir maddenin katkısını belirlemeye çalışan varyans analizi yaklaşımının bir uzantısıdır. Ki-kare Tekniği: Bu tekniğe göre bir maddenin yansızlığı, aynı test puanı kategorisinde fakat farklı alt gruplarda yer alan cevaplayıcıların, maddeyi doğru cevaplama oranlarının aynı olması olarak tanımlanmaktadır.

214 Madde Yanlılığı Ki-kare tekniğinde, gözlenen puanlar ölçeği birkaç kategoriye ayrılır. Her bir kategori içinde, alt gruplar bir maddeyi doğru cevaplama oranları açısından karşılaştırılır. Eğer oranlar gruplar arasında farklılık gösteriyorsa bu durum madde yanlılığı için bir kanıt olarak kullanılabilir. Mantel-Haenszel Tekniği: Mantel-Haenszel yaklaşımı belli avantajlar sağlayan Ki-kare tekniğidir. Diğer ki-kare tekniklerinden daha güçlü olan yanı maddedeki yanlılık miktarının ölçüsünü hesaplamayı sağlamasıdır. Yanlılık ölçümü Mantel-Haenszel oranı olarak verilir.

215 Madde Yanlılığı Lojistik Regresyon: Log-Lineer ve Mantel-Haenszel yaklaşımına benzemektedir. Madde bağımlı değişken olarak düşünülür ve madde puanları üzerinde grup etkisinin anlamlı olup olmadığına bakılır. Eğer madde grup etkileşimi anlamlı ise bu maddenin yanlı olabileceğine karar verilir. Lojistik regresyon yaklaşımı çok kullanılan bir tekniktir. Yanlılık çalışmaları genellikle maddeler üzerinde yürütülür ama yanlılığın kendisi testlerin kullanılması üzerine odaklanır. Eğitimde kullanılan başarı, yetenek ve ilgi testlerinin büyük çoğunluğu için yanlı veya adaletsiz olduğu yorumunu yapmamızı sağlayacak bir dış standart yoktur. Yanlılık çalışmalarının sosyal değeri eşitlik kavramıyla açıklanabilir.

216 Madde Yanlılığı Test ve madde yanlılığının etkisini gidermek için, testi planlama, madde yazma ve gözden geçirme, maddeleri deneme ve madde seçme, ölçek ve normların geliştirilmesi ile diğer tüm aşamalarda uzman kanısına başvurulmalıdır.

217 KULLANIŞLILIK Geçerlik ve güvenirlik gibi teknik özelliklerinin yanında, bir ölçme aracında bulunması gereken bir diğer özellik de kullanışlılıktır. Bir testin kullanışlılığını, onun geliştirilmesi, çoğaltılması, uygulanması ve puanlanmasının kolay ve ekonomik olması şeklinde tanımlanmıştır.

218 Ekonomiklik Ölçme aracının, zaman, para, emek açısından ekonomik olması demektir. Ölçme aracı, hazırlayan kişiye ve diğer okul personeline, çok fazla mali yük getirmemelidir. Ekonomiklik; ne ucuz test ve yöntemleri gelişi güzel kullanmayla sağlanabilir, ne de pahalı araçları ya da yöntemleri tercih etmek doğrudur. Ekonomiklik, ölçme aracının geçerlik ve güvenirlik gibi teknik özelliklerinin göz önünde tutularak, olabildiğince ucuza mal edilebilmesidir.

219 Uygulanabilirlik Bir ölçme aracı ya da testin uygulanabilirlik özelliğine sahip olabilmesi için, Ölçme aracının ya da testin, yönergesi (talimatları) ve testle ilgili açıklamalar, açık seçik ve öğrencilerin anlayabileceği biçimde olmalı, Ölçme aracının ya da testin biçimsel özellikleri (formatı) uygun ve anlaşılır olmalı, Eğer ölçme aracı ya da test çeşitli materyalleri veya parçaları içeriyorsa, bu parça veya materyaller kolayca ve anlamlı bir biçimde birleştirilebilir ve kullanılabilir olmalı, Testi uygulayan kişi ya da kişiler gereksiz çaba sarf etmeden testi kullanabilmeli ya da uygulayabilmelidirler. Uygulanabilirlik, diğer bir deyişle uygulama kolaylığı, iki açıdan ele alınabilir.

220 Puanlanabilirlik Ölçme aracının puanlanabilirlik özelliğine sahip olabilmesi için, Ölçme aracı ve/veya yanıt kağıdı (formu) öğrenci yanıtlarını uygun biçimde almak için, öğrencinin kolayca anlayabileceği ve algılayabileceği biçimde düzenlenmeli, Yanıt anahtarı dikkatli, özenle ve doğru hazırlanmalı, kullanımı kolay, anlaşılır ve pratik olmalı, güvenilir bir puanlamaya olanak sağlamalı, Puanlayıcı, ölçme aracına ilişkin puanları kolay, doğru ve hızlı elde edebilmelidir. Bir testin puanlamasını kolaylaştırmak için, bir çok yöntem vardır.


"ÖLÇME ve DEĞERLENDİRME" indir ppt

Benzer bir sunumlar


Google Reklamları