DOĞU AKDENİZ ÜNİVERSİTESİ YÖNT 580 ARAŞTIRMA YÖNTEMLERİ VERİ ANALİZİ Dr. Aslı Önay AKÇAY Dr. Fırat Emir
If you torture the data enough, nature will always confess.* Ronald Harry Coase (1960) *Alternative: “If you torture the data long enough, it will confess.” (Gordon Tullock (2001))
VERİ ANALİZİ Anket, gözlem, mülakat, literatür taraması vb. metotlarla toplanan ham verilere anlam kazandırma işlemine veri analizi denir. Ham veriler belirli kontrollere tabi tutulmadan ve üzerinde gerekli düzenlemeler yapılmadan analiz için uygun olmayabilir. İlgili işlemler yapılmaksızın analize tabi tutulan ham verilerden elde edilecek sonuçların hatalı olma ihtimali çok yüksektir ve telafisi mümkün olmayan ya da pahalıya patlayan sonuçlar doğurabilir
Veri Seçiminde Nelere Dikkat Edilmeli? Ham veriler kontrole tabi tutulmadan ve gerekli düzenlemeler yapılmadan analiz için uygun olmayabilirler. Bu durumda elde edilecek sonuçlar hatalı ve yanlı olabilirler. İstediğimiz cevabı almamıza yardımcı olacak, taraflı ve sınırlayıcı sorular ve veri seti seçilmemelidir.
Araştırmanın Sorusu
Hipotez (Denence) Nedir? Nasıl Oluşturulur? Hipotez henüz sınanmamış açıklamalardır. Bu açıklamalar varsayım niteliğinde olup, ortaya çıkmış veya çıkacak belirli davranışlar, olgular veya olaylar hakkındadır. Hipotezin araştırma sorusuna önceden verilmiş bir yanıt olduğu söylenebilir Boş Hipotez (H 0 ): “Öğrencilerin okuma ve yazma puanlarının ortalamaları birbirine eşittir” Araştırma Hipotezi (H 1 ): “Öğrencilerin okuma ve yazma puanlarının ortalamaları birbirinden farklıdır.” – H 0 : ų = ų 0 – H 1 : ų ų 0 (çift kuyruk testi) Boş hipotezleri büyüktür/küçüktür diye de kurabilirsiniz. O zaman tek kuyruk (büyükse sol, küçükse sağ) test yapılır. Örneğin, H 0 : “Öğrencilerin yazma puanlarının ortalaması okuma puanlarının ortalamasından daha yüksektir.” H 1 : “Öğrencilerin yazma puanlarının ortalaması okuma puanlarının ortalamasından daha düşüktür.” – H 0 : ų > ų 0 – H 1 : ų < ų 0 (sol kuyruk testi)
Değişken(lerin) Belirlenmesi Ele alınacak (test edilecek) hipoteze bağlı olarak sonuca ulaşmak için yapılan analizde yer alan ve her gözlemde farklılık gösteren unsurdur. Bu değişkene karşılık gelen sayısal değer veridir. Değişkenleri 3 ana türe ayırmak mümkündür: 1- Bağımlı-bağımsız 2- Kategorik-sürekli 3-Nicel-nitel
Örneklem (Veri) Büyüklüğü Örnek kütleden elde edilen verilerden yola çıkarak evren hakkında genellemeler yapmak, olasılığa dayanır. Örnek kütle büyüdükçe evren hakkında yapılan genellemelerde yanılma olasılığı azalır. Örneklem sayısının arası olması Alt gruplar varsa her birinin sayısı en az 30 olmalı Regresyon da dahil birçok çok değişkenli analiz için örnek büyüklüğü değişken sayısının en az 10 katı olmalı
Veri Hazırlama Süreci Ham verilerin analize hazır hale getirilmesi amacıyla yapılan işlemler dizisine veri hazırlama süreci denir: 1) Anketlerin/Formların kontrol edilmesi 2) Düzenleme 3) Kodlama 4) Verinin bilgisayar ortamına aktarılması 5) Veri temizleme 6) Uygun analiz tekniğinin seçimi
Verilerin Betimlenmesi Frekans dağılımı, Merkezi eğilim, Değişkenlik ölçüleri
Frekans Dağılımı Bir ya da daha çok değişkene ait değerlerin ya da puanların dağılımına ait özelliklerini betimlemek amacıyla verileri sayı veya yüzde olarak verir. Tablo, pie-chart veya grafikler kullanılarak gösterilebilir.
Merkezi Eğilim Ortalama = Medyan (Ortanca) = Mod Çarpıklık Basıklık
Değişkenlik ölçüleri Standart sapma: Bir çalışma grubundaki her bir verinin ortalamaya göre ne kadar uzaklıkta olduğunu, bir diğer deyişle dağılımın ne yaygınlıkta olduğunu gösteren bir ölçüdür. Varyansın karekökü alınarak hesaplanır. Standart sapma büyüdükçe ortalamadan uzaklaşan verilerin dağılımı artar.
Analiz Tekniklerinin Sınıflandırılması 1- Değişken Sayısına Göre: Tek/Çok 2- Veri Özelliklerine Göre: Parametrik/Parametrik Olmayan 3- Amaçlara Göre: Farklılık Tespiti/İlişkilerin Analizi
1- Değişken Sayısına Göre
Çok Değişkenli Analiz Testleri: – Korelasyon analizi, regresyon analizi, kümeleme analizi, ayırma analizi ve faktör analizi. – Amaç: iki veya daha çok değişken arasındaki ilişkileri inceler. – Bağımlı değişkenlerdeki değişim bağımsız değişkenlerle açıklanmaya çalışılır. – Ör: bir tüketicinin harcama miktarı ile alışveriş merkezinde kalış süresi ve cinsiyeti.
2- Veri Özelliklerine Göre Sıralama Parametrik Analiz Teknikleri Parametrik Olmayan Analiz Teknikleri
Parametrik Analiz Teknikleri Uygulanma şartları: 1- ölçüm seviyesinin en az aralık seviyesinde olması 2- verinin normal dağılım göstermesi 3- homojen varyans (ANOVA ve t-testleri için önemlidir) 4- analiz sonucunda ortaya çıkan hata terimlerinin birbirinden bağımsız (random, rassal) olması gerekmektedir. (Regresyon analizinde son derece önemlidir.)
Temel İstatistiksel Testler Tek örneklemli t-testi İki bağımsız örneklemli t-testi Eşlenik t-testi Tek yönlü varyans analizi (ANOVA) Korelasyon Basit doğrusal Regresyon Çoklu regresyon Binom testi Ki-kare uyum iyiliği testi Ki-kare testi Wilcoxon-Mann-Whitney testi Kruskal Wallis testi Wilcoxon işaretli sıra toplamı testi Parametrik olmayan korelasyon testi Parametrik Testler Parametrik Olmayan Testler
Alfa anlamlılık düzeyi hipotez testleri sırasında araştırmacı tarafından belirlenir. Yaygın olarak %5 anlamlılık düzeyi (%95 güven aralığı) ve %1 anlamlılık düzeyi (%99 güven aralığı) kullanılmaktadır Örneğin %5 anlamlılık düzeyi: ‘eğer örnek kütleniz 100 kere seçilmiş olsa bunlardan en az 95 tanesi evrenin özelliklerini temsil edecek güce sahiptir’ anlamına gelmektedir. %95 parametreyi kapsar
t- testi Hipotez testlerinde en yaygın olarak kullanılan yöntemdir t-testi, iki grubun ortalamalarını karşılaştırarak arada istatistiksel anlamda bir farkın olup olmadığını tespit etmede kullanılır. Bir değişken açısından bir gruba ait ortalama değerin öngörülen değerden farklı olup olmadığı Incelenen bir değişken açısından bağımsız iki grup arasında anlamlı farkın olup omadığı İncelenen bir değişken açısından herhangi bir grubun farklı şartlar altındaki tepkileri arasında anlamlı farklılığın olup olmadığının incelenmesine yönelik hipotezleri test eder.
t- testi Üç farklı t-testi vardır: – tek grup t testi (one sample t-test), – bağımsız iki grup arası t testi (independent samples t-test) – eşleştirilmiş iki grup arası t testi (paired-samples t- test)
ANOVA (Varyans Analizi, F-testi) t-testi, sadece iki grup arasındaki farklılıkların incelenmesi için uygundur. Ancak uygulamada ikiden fazla grubun karşılaştırılması gerekebilir ANOVA, üç ya da daha fazla grup arasındaki farklılıkların incelenmesinde kullanılır. ANOVA F istatistiğini verir. Uygulanabilmesi için tüm parametrik test önşartlarının sağlanması gerekmektedir. Homojenlik terimi istatistikte gözlem birimlerinin birbirlerine yakın olduğunu belirtmek için kullanılır. – ANOVA testleri grup ve değişken sayısı açısından değişik şekillerde tasarlanabilir.
Tek-Yönlü ANOVA Tek yönlü varyans analizinde bir bağımsız değişkenin ikiden fazla gruptaki durumu test edilir: – Evlilik hakkındaki görüşlerin medeni duruma (evli, bekar, dul) göre farklılık gösterip göstermediğini test etmek – farklı eğitim düzeylerindeki kadınların kozmetik harcamaları arasında fark olup olmadığını bulmak için – Bir yarışma programı sunucusu kelime bulma yarışmasında yarışmacılara bilinmeyen kelimenin ilk harfini söylemenin, son harfini söylemenin veya hiçbir harf söylememenin, yarışmacının kelimeyi bulma süresi üzerinde etkili olup olmadığını merak etmektedir – Piyasaya yeni bir mamul sürmek üzere olan bir tüketici ürünleri firması dört farklı ambalaj arasında kararsızdır. Bunun için bir araştırma yaptırmıştır. Bu ambalajlar arasında tüketicilerce tercih ve beğenme açısından anlamlı farklılıklar var mıdır? – Bir işletme müdürü bir üretim hattında çıkan hatalı parça sayısının üç vardiya için farklı olduğunu iddia etmektedir.
Korelasyon testi İki ya da daha fazla normal dağılmış, verileri aralıklı/oranlı ölçekle toplanmış değişkenler arasındaki ilişkiyi test etmek için kullanılır. Örneğin, iki sürekli değişken; okuma puanı ve yazma puanı arasında ilişki olup olmadığını test edebiliriz.
Önce hipotez kuralım
Korelasyon testi
Tablonun yorumu Öğrencilerin okuma ve yazma puanları arasında pozitif bir korelasyon (0,597) olduğu ve bu korelasyonun istatistiksel açıdan anlamlı olduğunu görüyoruz (Pearson’s r = 0,597, p = 0,01). (Korelasyon katsayısı r ile gösterilir). Korelasyon katsayısının karesini alıp 100’le çarparsanız okuma ve yazma puanları arasındaki değişimin kaçta kaçının açıklandığını tahmin edebilirsiniz (%36). Yani okuma puanlarının %36’sı yazma puanlarındaki değişimle açıklanabilir. Yani okuma puanları yüksek olan öğrencilerin yazma puanları da yüksektir (ya da yazma puanları yüksek olan öğrencilerin okuma puanları da yüksektir.) Boş hipotez reddedilir.
Regresyon Analizi Bağımlı değişken ile bağımsız değişken arasındaki ilişkiyi incelemek amacıyla kullanılan bir yöntemdir. Bağımlı değişkendeki değişimin önemli bir kısmı bağımsız değişkenlerce açıklanabilir mi? (aralarında bir ilişki var mı?) Bağımlı değişkendeki değişimin ne kadarı bağımsız değişkenlerce açıklanabilmektedir? (ilişkinin şiddeti) Değişkenler arasında ne tür bir ilişk var? Bağımlı değişkene ait ileriye dönük değerleri tahmin etmek mümkün müdür ve nasıl tahmin edilmelidir? Belirli şartların kontrol edilmesi durumunda, spesifik bir değişken veya değişkenler grubu diğer değişken veya değişkenler üzerindeki etkileri nelerdir ve nasıl değişmektedir?
Regresyon Analizi Regresyon analizi sonuçlaının yorumlanmasında birçok araştırmacı ve öğrenci tarafından ciddi hatalar yapılmaktadır. En yaygın hata, regresyon analizi sonuçlarının yorumlanmasında bağımsız değişkenin bağımlı değişkene sebep olduğu şeklindeki yorumdur. Bağımsız değişkenlerin bağımlı değişkendeki değişimi açıklıyor lması sebepselliği gerekli kılmaz. Regresyon analizi değişkenler arasındaki ilişkinin yapısı ve derecesi ile ilgilenmektedir.
Değişen Varyans Sorunu (Heteroscedasticity) Neden önemli? t ve F istatistikleri sapmalı olacak, testler güvenilir olmaktan çıkacaktır. Nasıl anlaşılır? Daha önceki çalışmalar Grafik yöntemi: hata tahmin karelerinin grafiği incelenir veya Goldfeld-Quandt Test White Test
Çoklu Doğrusallık (Multicollinearity) Eğer açıklayıcı değişkenler tam olmasa da birbiriyle bir ilişki içindeyse “tam olmayan çoklu doğrusallık” sorunu vardır. Neden önemli? Tahmin sonuçları bu sorundan önemli ölçüde etkilenir. Analiz sonuçları yanlış yorumlanabilir. Nasıl anlaşılır? Katsayı tahminlerinde beklenmedik işaret ve/veya büyüklüklerin bulunması. Açıklayıcı değişkenler arası korelasyon katsayılarının yüksekliği t istatistikleri giderek küçüleceğinden aslında bağımlı değişkeni anlamlı olarak açıklayan bağımsız değişkenler, hipotez testlerinde, yanlış olarak, anlamsız bulunacaklardır. Buna karşın R2 değeri yüksek olabilir.
Parametrik Olmayan Analiz Teknikleri Parametrik analiz şartlarını sağlamayan verilere uygulanabilen ve daha az sayıda şartlar öne süren analiz teknikleridir Non-parametrik testlerde nominal, ordinal ya da normal dışı dağılım gösteren sayısal veriler değerlendirilir. Ayrıca örneklem büyüklüğü 30’dan az ise (n<30) bu testleri kullanmak gerekmektedir Parametrik testlerden daha zayıftırlar çünkü parametrik testler veride bulunan daha fazla bilgiden yararlanır Bu teknikler arasında Ki-kare testi, İşaret testi, Mann – Whitney U testi, Wilcoxon işaretli sıralamalar testi, Run testi ve Kruskal – Wallis testi sayılabilir
Parametrik Olmayan Analiz Teknikleri Bağımsız gruplardaki t testi yerine; Mann Whitney U testi Bağımlı gruplardaki t testi yerine; Wilcoxon işaretli sıralar testi Anova testi yerine; Kruskal Wallis H Testi
3- Amaçlara Göre Sınıflama Farklılıkların Tespitine Yönelik İlişkilerin Analizine Yönelik
Her bir tekniğin uygulanabilmesi için gözlemlenen ön koşullar vardır. Veri analizi yapmadan önce analiz amacını, veri özelliklerini ve analiz önkoşullarını bilmek şarttır! ( Not: tabloda yaygın kullanılan analiz tekniklerine yer verilmekle birlikte, teknikler burada belirtilenlerle sınırlı değildir)
Kaynakça Bouma, Gardy D. ve G.B.J. Atkinson, “A Handbook of Social Science Research”, Oxford University Press, İngiltere, Büyüköztürk, Şener, “Sosyal Bililer için Veri Analizi El Kitabı” 16. Baskı, Pegem Akademi, Ankara, Şubat Coşkun, Recai, Remzi Altunışık, Serkan Bayraktaroğulu ve Engin Yıldırım, “Sosyal Bilimlerde Araştırma Yöntemleri, SPSS Uygulamalı”, 8. Baskı, Sakarya Kitabevi, İstanbul, Mart YÖNT 580 Ders notları, 8. Bölüm ction-9 ction-9