İLERİ ARAŞTIRMA YÖNTEMLERİ

Slides:



Advertisements
Benzer bir sunumlar
Sosyal Bilimlerde Araştırma Yöntemleri
Advertisements

Unsupervised Learning (Kümeleme)
Veri Madenciliğinde Kümeleme Slink Algoritması
İLİŞKİLERİ İNCELEMEYE YÖNELİK ANALİZ TEKNİKLERİ
ANOVA.
Bölüm 6 Nicel Veri Toplama
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
İstatistik Kavramı İstatistik; kesin olmayışlığın ışığı altında karar verme tekniğidir. Ana kitle hakkında örneklem yardımıyla tahmin çalışmalarıdır. Kitle.
Tanımlayıcı İstatistikler
İstatistikte Temel Kavramlar
Tıp alanında kullanılan temel istatistiksel kavramlar
Deneysel Yöntem İstatistiksel Yöntemler
Temel İstatistik Terimler
Değişkenlik Ölçüleri.
THY ANALİZLERİ Ki – Kare Testi
yunus.hacettepe.edu.tr/~tonta/courses/spring2008/bby208/
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
MUTLAK DEĞERLENDİRME Elif Tuba BEYDİLLİ.
THY Örneği Verilerin Diskriminant Analizi İle Açıklanması
Merkezi Eğilim (Yer) Ölçüleri
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
İSTATİSTİKTE GÜVEN ARALIĞI VE HATALAR
Makine Öğrenmesinde Yeni Problemler
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
Meta Analizinde Son Gelişmeler
Yrd. Doç. Dr. Cemalettin DEMİRELİ
İstatistik ve Biyoistatistiğe Giriş: Temel İstatistiksel Kavramlar
Sıklık Tabloları ve Tek Değişkenli Grafikler
KISIM II Matematiksel Kavram ve Prosedürlerin Gelişimi BÖLÜM 21 Veri Analizi Kavramlarının Gelişimi.
ARAŞTIRMA TÜRLERİ.
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
Tek Anakütle Ortalaması İçin Test
IMGK 207-Bilimsel araştırma yöntemleri
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
NİCEL ARAŞTIRMA DESENLERİ
BÖLÜM 2 Endüstri/Örgüt Psikolojisinde Araştırma Yöntemleri.
Parametrik ve Parametrik Olmayan Testler Ortalamaların karşılaştırılması t testleri, ANOVA Mann-Whitney U Testi Wilcoxon İşaretli Sıra Testi Kruskal Wallis.
Korelasyon testleri Pearson korelasyon testi Spearman korelasyon testi Regresyon analizi Basit doğrusal regresyon Çoklu doğrusal regresyon BBY252 Araştırma.
BİL551 – YAPAY ZEKA Kümeleme
Parametrik ve Parametrik Olmayan Testler Ortalamaların karşılaştırılması t testleri, ANOVA Mann-Whitney U Testi Wilcoxon İşaretli Sıra Testi Kruskal Wallis.
NİCEL ARAŞTIRMA DESENLERİ
OLASILIK ve İSTATİSTİK
Lineer Regresyon. Amaç: Bu konu sonunda Tıp Fakültesi 1. sınıf öğrencilerinin çeşitli bağımsız değişkenleri kullanarak bir nümerik değişkenin değerini.
Eğitimde ve Psikolojide ÖLÇME VE DEĞERLENDİRME
Yrd.Doç. Dr. Özcan PALAVAN
TEMEL BETİMLEYİCİ İSTATİSTİKLER
Kümeleme Modeli (Clustering)
ANLAM ÇIKARTICI (KESTİRİMSEL) İSTATİSTİK
PANSİYONLU OKULLARDA ÇALIŞAN BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLERİNİN KARAR VERMEDE ÖZ SAYGI ve KARAR VERME STİLLERİ Yasin DEMİRCAN, Vedat AYAN Tekışık Anadolu.
Temel İstatistik Terimler
İç Geçerlik Varılan bir nedensel ilişkide sonucun deney değişkenleri ile açıklanma düzeyi ile ilgilidir. Deneyde kontrol iç geçerliği arttırmak için yapılır.
Hipotez Testinde 5 Aşamalı Model
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
NİŞANTAŞI ÜNİVERSİTESİ
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
NİŞANTAŞI ÜNİVERSİTESİ
1.Hafta Haftalık Çizelge Temel Kavramlar SPSS’ e giriş
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
Temel İstatistik Terimler
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
…………………………………………………………………………………………………
Sunum transkripti:

İLERİ ARAŞTIRMA YÖNTEMLERİ Doç. Dr. ÇAĞRI BULUT KÜMELEME ANALİZİ HAZIRLAYAN ÖZLEM KOÇTAŞ

İÇERİK Kümeleme analizi nedir? Kullanım alanları Varsayımları Yapılan testler Örnek

Kümeleme analizi nedir? Kümeleme analizi büyük bir gözlem grubunu alt gruplara(kümelere) ayırır. Bağımlı ve bağımsız değişkenler arasında ayrım yapmaz. Kümeyi oluşturan tüm değişkenlerin karşılıklı bağlantılarını inceler. Analizin ana amacı benzer değişkenleri sahip oldukları karakteristiklere göre görece homojen gruplara toplamak ve gruplar arası heterojenliği maksimize etmektir. Kümelerin geometrik gösteriminde kümeleme başarılı ise küme içindeki elemanların birbirine yakın olduğu, kümelerin ise görece birbirine uzak yerleştiği gözle görülebilmektedir. X veri setinde yer alan değişkenlerin, bireyler arasındaki uzaklık esas alınarak, benzer bireylerin aynı kümelerde toplanması ve yeni bir bireyin hangi kümeye dahil olduğunun tahmin edilmesi kümeleme analizinin esasını oluşturmaktadır.

Kümeleme Analizi ile Ayrışma Analizi Karşılaştırması Her iki yöntem de sınıflandırma ile ilgilenir. Ayrışma analizinde sınıflandırma kuralı geliştirebilmek için her nesne ya da olayın grup üyeliği hakkında ön bilgiye ihtiyaç vardır. Buna karşın; kümeleme analizinde her hangi bir nesnenin grup üyeliği ile ilgili a priori bilgi bulunmamaktadır. Bunun dışında, küme sayısı ayrışma analizinde biliniyorken kümeleme analizinde bilinmez. Ayrıca kümeleme analizinde sonuçlar sadece mevcut durumu ortaya koyacağından, sonuçların gelecekte kullanılması söz konusu değildir.

Kümeleme Analizinin Amaçları n sayıda birimi olabildiğince kendi içinde homojen ve kendi aralarında farklı alt gruplara ayırmak. p sayıda değişkeni, n sayıda birimde saptanan değerlere göre ortak özellikleri açıkladığı varsayılan alt kümelere ayırmak ve ortak faktör yapıları ortaya koymak. Hem birimleri hem de değişkenleri birlikte ele alarak ortak n birimi p değişkene göre ortak özellikli alt kümelere ayırmak. Birimleri, p değişkene göre saptanan değerlere göre, izledikleri biyolojik ve tipolojik sınıflamayı ortaya koymak yani bir tipoloji veya sınıflama geliştirmek. İşletmeleri gruplama amacıyla kavramsal sınıflama cetvelleri geliştirmek. Veri keşfi yoluyla hipotez üretmek. Hipotez test etmek veya bir veri setinde başka yöntemlerle yapılmış olan gruplamaların varlığını belirlemek.

Potansiyel Uygulama Alanları Kümeleme analizi; tıp, psikoloji, biyoloji, sosyoloji, eğitim bilimleri, ekonomi, mühendislik, pazarlama, veri madenciliği gibi farklı disiplinlerde kullanılmaktadır. Kullanıldığı disiplinlere göre adı Q analizi, tipoloji yapılandırma, sınıflandırma analizi ve nümerik taksonomi olarak değişmektedir. Pazarlamada; market segmentlerinin oluşturulması, müşteri davranışlarını anlamak, yeni ürün fırsatlarını tespit etmek, ürün/hizmet testleri yapmak için pazar seçimi, veriyi azaltmak gibi amaçlarla kullanılabilir. Tıp alanında; hastalıkların sınıflandırılması, hastalıklara ya da semptomlara göre tedavilerin sınıflandırılması gibi amaçlarla kullanılır. Genel olarak; gruplar için ön tahmin, hipotezlerin testi, veri yapısının netleştirilmesi, veri indirgenmesi, aykırı değerlerin bulunması şeklinde kullanım alanları sıralanabilir.

Kümeleme Analizi Varsayımları Kümeleme analizi sonuçları gelecek tahmininde kullanılmaz bu sebepten çok değişkenli istatistik analizlerde önemli olan verilerin normallik, doğrusallık ve homojenlik varsayımları, kümeleme analizi için çok önemli olmayıp, verilerin uzaklığının normalliği yeterli kabul edilmektedir. Kümeleme analizinde kullanılan örneklemin ana kütleyi iyi temsil etmesi ve analizde kullanılan değişkenler arasındaki çoklu bağlantının analizi etkilemesinin önlenmesi gereklidir.

Kümeleme analizinin uygulama aşamaları 1-Problemi formülize et 2-Uzaklık ölçüsünü seç 3-Kümeleme prosedürünü seç 4-Kümelerin sayısına karar ver 5-Kümeleri yorumla 6-Geçerlilik ve güvenilirliği ölç

1-Problemin formülize edilmesi: Birim ya da değişkenlerin doğal gruplamaları hakkında kesin bilgilerin bulunmadığı anakütlelerden alınan n sayıda birimin p sayıda değişkenine ilişkin gözlemlerin elde edilmesidir. (veri matrisinin belirlenmesi). Problemin tanımlanmasında en önemli kısmı değişkenlerin seçilmesidir Bir ya da iki tane uygun olmayan değişkenin seçilmesi sonuca zarar verebilir. Aykırı değerlerle (outlier) karşılaşıldığında bunun bir grubu temsil eden önemli bir değer olup olmadığına bakılmalıdır.

2-Uzaklık ölçüsünün seçimi Birimlerin/değişkenlerin birbirleri ile olan benzerliklerini ya da farklılıklarını gösteren uygun bir benzerlik ölçüsü ile birimlerin/değişkenlerin birbirlerine uzaklıklarının hesaplanması başka bir deyişle benzerlik ya da farklılık matrisinin belirlenmesi gereklidir.

Kullanılan uzaklık ölçüleri: Öklidyen uzaklığı : En çok kullanılan uzaklık hesaplama formülü Öklidyen uzaklığı veya onun karesidir. Öklidyen uzaklığı ve Öklidyen uzaklığının karesi formülleri ile standartlaştırılmış verilerle değil, işlenmemiş verilerle hesaplama yapılır. Öklidyen uzaklıkları kümeleme analizine sıra dışı olabilecek yeni nesnelerin eklenmesinden etkilenmezler. Ancak boyutlar arasındaki ölçek farklılıkları Öklidyen uzaklıklarını önemli ölçüde etkilemektedir.

Diğer uzaklık ölçüleri Mahalanobis Uzaklığı: Değer vektörü ile ortalamaların farkının, kovaryans matrisinin tersi ve yine değer vektörü ile ortalamaların farkının tersyüzünün (transpose) çarpımlarının karekökü olarak hesaplanır. City-block (Manhattan) Uzaklığı : Manhattan uzaklığı boyutlar arasındaki ortalama farka eşittir. Bu ölçüt kullanıldığında farkın karesi alınmadığı için sıra dışılıkların etkisi azalır. Chebychev Uzaklığı : Chebychev uzaklığı iki nesne arasındaki mutlak maksimum uzaklığa eşittir.

3-Kümeleme prosedürünün seçilmesi Uygun küme yöntemi yardımı ile benzerlik/farklılık matrisine göre birimlerin/değişkenlerin uygun sayıda kümelere ayrılması gereklidir. Uygulamada genellikle hiyerarşik kümeleme ve hiyerarşik olmayan kümeleme yöntemleri olarak ikiye ayrılırlar.

Kümeleme Yöntemleri Kaynak:Malhotra,Birks Sf:601,2006

Hiyerarşik Kümeleme Birimleri birbirleri ile değişik aşamalarda bir araya getirerek; ardışık biçimde kümeler oluşturmaya ve bu kümelere girecek elamanların hangi uzaklık ya da benzerlik düzeyinde küme elemanı olduğunu belirlemeye yönelik yöntemlerdir. İncelenen veri setinde kaç grup bulunduğunu başlangıçta bilinmediği durumlarda çok uygun bir yöntemdir. Yöntem incelenen veri setinde daha önce gözlemlenmemiş ilişkileri ve prensipleri keşfetme olanağı verir. Tipik olarak sayısı 250’den az olan küçük örneklem gruplarının analizinde etkin olarak kullanılır. Veri matrisindeki birimlerin/değişkenlerin başlangıçta kaç küme oluşturduğuna ve küme elemanlarını belirlemede başlangıçta hangi kriterin seçildiğine göre iki ana gruba ayrılırlar.

Kaynak:www.mathworks.com Hiyerarşik kümeleme yönteminde kümelerin grafiksel olarak ifade edilebilmesi için ağaç diyagram (dendrogram) örneğinden yararlanılabilir. Dendrogram büyük çaplı uygulamalar için uygun değildir. Kümeleme sürecinin başında her gözlem bir kümedir (Ağacın dalları) süreç sonunda ise tüm gözlemler bir kümede toplanır. En düşük düzeyde ele alınan gözlemlerin tümü bağımsız iken, sonraki aşamalarda gözlemler birleşerek yeni kümeleri oluşturmaktadır.

Hiyerarşik Olmayan Kümeleme Ağaç yapısı benzeri yapılar kurulmaz. Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefler. Genellikle büyük örneklem gruplarının (k> 250) analizinde tercih edilmektedir. Hiyerarşik olmayan teknikler düğüm yöntemleri ya da k-ortalamalar yöntemi (k-means method) olarak da adlandırılır. Küme sayısı konusunda ön bilgi var ise ya da araştırmacı küme sayısına karar vermiş ise, bu durumda uzun zaman alan hiyerarşik teknikler yerine hiyerarşik olmayan yöntemler kullanılmaktadır. Veri seti önceden belirlenmiş sayıda kümeye ayrılır. Bu kümelerin merkezleri yani düğüm noktaları hesaplanır. Bu adımlar her gözlem bir kümeye atanana kadar devam eder. Hiyerarşik kümelemede bir gözlem bir kümeye atandıktan sonra tekrar yer değiştirmez.

4-Kümelerin sayısına karar verilmesi Küme sayılarının belirlenmesinde kesin kurallar bulunmamaktadır. Kümeleme analizinden sağlıklı bir sonuç elde edilebilmesi için değişkenlerin seçimi ve küme sayısının belirlenmesi önemlidir. Farklı yöntemler farklı küme sayıları ortaya koyabildiği ve bu konuda da yine tek bir yöntem olmadığı için kümeleme analizi bilimden çok sanat olarak nitelendirilmektedir. Küme sayısının belirlenmesi için halen 1970'lerde geliştirilmiş olan ve çok da güvenilir olmadığı iddia edilen bazı testlerden yararlanılmaktadır. Sayısal bir takım yöntemler geliştirilmesine karşın küme sayısını belirlemede; araştırmacının bilgi düzeyi, mesleki deneyimi ve sonuçların anlamlı olup olmamasının en önemli unsurlar olduğu düşünülmektedir.

5-Kümelerin yorumlanması Kümeleme analizi istatistiksel olarak anlamlı bir sonuç çıkarmaktan çok araştırma ve tanımlama amaçlı kullanılan bir yöntem olarak uygulamada yer bulmaktadır. Çok sayıda değişkenin yine çok sayıda olan gözlem konusu birimler üzerindeki etkisini görme olanağı vermesi açısından oldukça faydalı bir araştırma yöntemidir.

6-Geçerlilik ve Güvenilirliğin Ölçülmesi Kümeleme analizinin son aşaması sonuçların anlamlılığının incelenmesidir. Oluşturulan kümeler tanımlandıktan sonra bu kümelerin güvenilirliği değerlendirilmelidir. Kümelerin istatistiksel güvenilirliğini saptamada bazı istatistiksel atılımlar yapılmış ise de şu anda kullanılan ve güvenilen bir istatistiksel test mevcut değildir. Ayrışma analizi kümeleme analizinin sonuçlarının testinde istatistiksel bir test gibi kullanılabilir. Kümeleme analizinde kurulabilecek en basit hipotez, ‘‘Veri homojen alt gruplara bölünebilir’’ seklindedir.

ÖRNEK 2:Kültürel Kümeler GLOBE(Global Leadership and Organizational Behavior Effectiveness )170 araştırmacının katkıları ile liderlik, örgüt kültürü ve toplum kültürü üzerine 62 farklı toplumda, 951 örgütte, 17.300 katılımcı ile yapılan çok uluslu bir araştırma projesidir.(Öz,2009) “Culture, Leadership, and Organizations: The GLOBE Study of 62 Societies” adıyla 2004 yılında çalışmanın sonuçları yayınlanmıştır. Globe projesi ile 62 milletten kültürel değerler ve inanışlarla ilgili veri toplanmış ve 10 tane küme önerilmiştir. Daha sonra bu kümelerin teyidi amacıyla ayrışma analizi uygulanmış ve öncül(a priori) kümeler güçlü şekilde desteklenmiştir.

Kaynak: Gupta, V. , ve Hanges, P. J. 2004 Kaynak: Gupta, V., ve Hanges, P. J. 2004. Regional and climate clustering of societal clusters. R. J. House, P. J. Hanges, M. Javidan, P. W. Dorfman ve V. Gupta (Der). Culture, leadership, and organizations: the GLOBE study of 62 socities: 178 – 218. California: SAGE.

Hofstede (1980), Schwartz (1994), Smith (1995), Inglehart (1997) ‘ın literatüre yaptığı katkılarla şekillendirilen GLOBE projesine göre kültürel değerler dokuz boyutta incelenebilir: 1-Belirsizliklerden kaçınma, 2-Güç mesafesi, 3- Örgütsel kolektivizm 4-Grup-içi kolektivizm, 5-Cinsiyet eşitliği, 6-Mücadelecilik, 7-Gelecek yönelimlilik, 8-Başarım yönelimlilik ve 9-İnsancıllık (House vd., 2002: 3-10 Akt Öz,2009 ).

Geert Hofstede, 1967-1973 yılları arasında 40 ülkeden 100,000’in üzerinde denekle değerlerle ilgili bir araştırma gerçekleştirmiş ve bu ülkelerin kültür boyutlarını belirlemeye çalışmıştır. Hofstede, kültürleri ayıran dört temel değer boyutu üzerinde karar kılmıştır. Bunlar: 1-Güç mesafesi, 2-Belirsizliklerden kaçınma, 3-Bireysellik-kolektiflik, 4-Erkeklik-dişilik (Hill, 2002: 99). Daha sonra 5. boyut olarak “uzun dönem yönelme”’yi eklemiştir.

KAYNAK:Gupta ve ark,2002

KAYNAK:Gupta ve ark,2002

Teşekkür ederim…

Kaynaklar Gupta,V,Hanges P.J,Dorman,P.,”Culturel Clusters:Methodology and findings”,2002 Çakmak Z.,Uzgören N.,Keçek G., “Kümeleme Analizi Teknikleri İle İllerin Kültürel Yapılarına Göre Sınıflandırılması Ve Değişimlerinin İncelenmesi” Demiralay M, Çamurcu A.Y.,”Cure, Agnes ve k-means Algoritmalarındaki kümeleme Yeteneklerinin Karşılaştırılması”, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Yıl: 4 Sayı: 8 güz 2005/2 s.1-18 Doğan B.,”Bankaların Gözetiminde Bir Araç Olarak Kümeleme Analizi Türk Bankacılık Sektörü İçin Bir Uygulama”, Doktora Tezi,2008 Hair J.F, Black W.C, Babin B.J, Anderson R.E ,Multivariate Data Analysis, Pearson,7.Baskı,2010 Lattin J,Carroll J.D.,Gren P.E,Analyzing Multivariate Data,Thomson Brooks Cole,2003 Malhotra N, Birks D.,Marketing Research-An Applied Approach,Prentice Hall,2006 Tetik,N.,“Çok Değişkenli İstatistik Tekniklerle Ab Pazarının Bölümlendirilmesi”,Yüksek Lisans Tezi,2007 Öz T, “Çok uluslu örgütler ve şube kültürleri etkileşimi: Uygulamalı bir araştırma” Doktora tezi,2009 www.ist.yildiz.edu.tr/dersler/dersnotu/Kum-Analiz.doc bilmuh.gyte.edu.tr/~htakci/vm/kumeleme_analizi.doc