Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

İLERİ ARAŞTIRMA YÖNTEMLERİ Doç. Dr. ÇAĞRI BULUT KÜMELEME ANALİZİ HAZIRLAYAN ÖZLEM KOÇTAŞ.

Benzer bir sunumlar


... konulu sunumlar: "İLERİ ARAŞTIRMA YÖNTEMLERİ Doç. Dr. ÇAĞRI BULUT KÜMELEME ANALİZİ HAZIRLAYAN ÖZLEM KOÇTAŞ."— Sunum transkripti:

1 İLERİ ARAŞTIRMA YÖNTEMLERİ Doç. Dr. ÇAĞRI BULUT KÜMELEME ANALİZİ HAZIRLAYAN ÖZLEM KOÇTAŞ

2 İÇERİK Kümeleme analizi nedir? Kullanım alanları Varsayımları Yapılan testler Örnek

3 Kümeleme analizi nedir? Kümeleme analizi büyük bir gözlem grubunu alt gruplara(kümelere) ayırır. Bağımlı ve bağımsız değişkenler arasında ayrım yapmaz. Kümeyi oluşturan tüm değişkenlerin karşılıklı bağlantılarını inceler. Analizin ana amacı benzer değişkenleri sahip oldukları karakteristiklere göre görece homojen gruplara toplamak ve gruplar arası heterojenliği maksimize etmektir. Kümelerin geometrik gösteriminde kümeleme başarılı ise küme içindeki elemanların birbirine yakın olduğu, kümelerin ise görece birbirine uzak yerleştiği gözle görülebilmektedir. X veri setinde yer alan değişkenlerin, bireyler arasındaki uzaklık esas alınarak, benzer bireylerin aynı kümelerde toplanması ve yeni bir bireyin hangi kümeye dahil olduğunun tahmin edilmesi kümeleme analizinin esasını oluşturmaktadır.

4 Kümeleme Analizi ile Ayrışma Analizi Karşılaştırması Her iki yöntem de sınıflandırma ile ilgilenir. Ayrışma analizinde sınıflandırma kuralı geliştirebilmek için her nesne ya da olayın grup üyeliği hakkında ön bilgiye ihtiyaç vardır. Buna karşın; kümeleme analizinde her hangi bir nesnenin grup üyeliği ile ilgili a priori bilgi bulunmamaktadır. Bunun dışında, küme sayısı ayrışma analizinde biliniyorken kümeleme analizinde bilinmez. Ayrıca kümeleme analizinde sonuçlar sadece mevcut durumu ortaya koyacağından, sonuçların gelecekte kullanılması söz konusu değildir.

5 Kümeleme Analizinin Amaçları  n sayıda birimi olabildiğince kendi içinde homojen ve kendi aralarında farklı alt gruplara ayırmak.  p sayıda değişkeni, n sayıda birimde saptanan değerlere göre ortak özellikleri açıkladığı varsayılan alt kümelere ayırmak ve ortak faktör yapıları ortaya koymak.  Hem birimleri hem de değişkenleri birlikte ele alarak ortak n birimi p değişkene göre ortak özellikli alt kümelere ayırmak.  Birimleri, p değişkene göre saptanan değerlere göre, izledikleri biyolojik ve tipolojik sınıflamayı ortaya koymak yani bir tipoloji veya sınıflama geliştirmek.  İşletmeleri gruplama amacıyla kavramsal sınıflama cetvelleri geliştirmek.  Veri keşfi yoluyla hipotez üretmek.  Hipotez test etmek veya bir veri setinde başka yöntemlerle yapılmış olan gruplamaların varlığını belirlemek.

6 Potansiyel Uygulama Alanları Kümeleme analizi; tıp, psikoloji, biyoloji, sosyoloji, eğitim bilimleri, ekonomi, mühendislik, pazarlama, veri madenciliği gibi farklı disiplinlerde kullanılmaktadır. Kullanıldığı disiplinlere göre adı Q analizi, tipoloji yapılandırma, sınıflandırma analizi ve nümerik taksonomi olarak değişmektedir. Pazarlamada; market segmentlerinin oluşturulması, müşteri davranışlarını anlamak, yeni ürün fırsatlarını tespit etmek, ürün/hizmet testleri yapmak için pazar seçimi, veriyi azaltmak gibi amaçlarla kullanılabilir. Tıp alanında; hastalıkların sınıflandırılması, hastalıklara ya da semptomlara göre tedavilerin sınıflandırılması gibi amaçlarla kullanılır. Genel olarak; gruplar için ön tahmin, hipotezlerin testi, veri yapısının netleştirilmesi, veri indirgenmesi, aykırı değerlerin bulunması şeklinde kullanım alanları sıralanabilir.

7 Kümeleme Analizi Varsayımları Kümeleme analizi sonuçları gelecek tahmininde kullanılmaz bu sebepten çok değişkenli istatistik analizlerde önemli olan verilerin normallik, doğrusallık ve homojenlik varsayımları, kümeleme analizi için çok önemli olmayıp, verilerin uzaklığının normalliği yeterli kabul edilmektedir. Kümeleme analizinde kullanılan örneklemin ana kütleyi iyi temsil etmesi ve analizde kullanılan değişkenler arasındaki çoklu bağlantının analizi etkilemesinin önlenmesi gereklidir.

8 Kümeleme analizinin uygulama aşamaları 1-Problemi formülize et 2-Uzaklık ölçüsünü seç 3-Kümeleme prosedürünü seç 4-Kümelerin sayısına karar ver 5-Kümeleri yorumla 6-Geçerlilik ve güvenilirliği ölç

9 1-Problemin formülize edilmesi: Birim ya da değişkenlerin doğal gruplamaları hakkında kesin bilgilerin bulunmadığı anakütlelerden alınan n sayıda birimin p sayıda değişkenine ilişkin gözlemlerin elde edilmesidir. (veri matrisinin belirlenmesi). Problemin tanımlanmasında en önemli kısmı değişkenlerin seçilmesidir Bir ya da iki tane uygun olmayan değişkenin seçilmesi sonuca zarar verebilir. Aykırı değerlerle (outlier) karşılaşıldığında bunun bir grubu temsil eden önemli bir değer olup olmadığına bakılmalıdır.

10 2-Uzaklık ölçüsünün seçimi Birimlerin/değişkenlerin birbirleri ile olan benzerliklerini ya da farklılıklarını gösteren uygun bir benzerlik ölçüsü ile birimlerin/değişkenlerin birbirlerine uzaklıklarının hesaplanması başka bir deyişle benzerlik ya da farklılık matrisinin belirlenmesi gereklidir.

11 Kullanılan uzaklık ölçüleri: Öklidyen uzaklığı : En çok kullanılan uzaklık hesaplama formülü Öklidyen uzaklığı veya onun karesidir. Öklidyen uzaklığı ve Öklidyen uzaklığının karesi formülleri ile standartlaştırılmış verilerle değil, işlenmemiş verilerle hesaplama yapılır. Öklidyen uzaklıkları kümeleme analizine sıra dışı olabilecek yeni nesnelerin eklenmesinden etkilenmezler. Ancak boyutlar arasındaki ölçek farklılıkları Öklidyen uzaklıklarını önemli ölçüde etkilemektedir.

12 Diğer uzaklık ölçüleri Mahalanobis Uzaklığı: Değer vektörü ile ortalamaların farkının, kovaryans matrisinin tersi ve yine değer vektörü ile ortalamaların farkının tersyüzünün (transpose) çarpımlarının karekökü olarak hesaplanır. City-block (Manhattan) Uzaklığı : Manhattan uzaklığı boyutlar arasındaki ortalama farka eşittir. Bu ölçüt kullanıldığında farkın karesi alınmadığı için sıra dışılıkların etkisi azalır. Chebychev Uzaklığı : Chebychev uzaklığı iki nesne arasındaki mutlak maksimum uzaklığa eşittir.

13 3-Kümeleme prosedürünün seçilmesi Uygun küme yöntemi yardımı ile benzerlik/farklılık matrisine göre birimlerin/değişkenlerin uygun sayıda kümelere ayrılması gereklidir. Uygulamada genellikle hiyerarşik kümeleme ve hiyerarşik olmayan kümeleme yöntemleri olarak ikiye ayrılırlar.

14 Kümeleme Yöntemleri Kümeleme prosedürleri Hiyerarşik Agglomerative Bağlantı Metodları Tek Bağlantı Bütün Bağlantı Ortalama Bağlantı Varyans Metodları Ward Metodu Centroid Metodları Ayırıcı Hiyerarşik Olmayan Sıralı EşikParalel Eşik Optimize Bölme Kaynak:Malhotra,Birks Sf:601,2006

15 Hiyerarşik Kümeleme Birimleri birbirleri ile değişik aşamalarda bir araya getirerek; ardışık biçimde kümeler oluşturmaya ve bu kümelere girecek elamanların hangi uzaklık ya da benzerlik düzeyinde küme elemanı olduğunu belirlemeye yönelik yöntemlerdir. İncelenen veri setinde kaç grup bulunduğunu başlangıçta bilinmediği durumlarda çok uygun bir yöntemdir. Yöntem incelenen veri setinde daha önce gözlemlenmemiş ilişkileri ve prensipleri keşfetme olanağı verir. Tipik olarak sayısı 250’den az olan küçük örneklem gruplarının analizinde etkin olarak kullanılır. Veri matrisindeki birimlerin/değişkenlerin başlangıçta kaç küme oluşturduğuna ve küme elemanlarını belirlemede başlangıçta hangi kriterin seçildiğine göre iki ana gruba ayrılırlar.

16 Kaynak:www.mathworks.com Hiyerarşik kümeleme yönteminde kümelerin grafiksel olarak ifade edilebilmesi için ağaç diyagram (dendrogram) örneğinden yararlanılabilir. Dendrogram büyük çaplı uygulamalar için uygun değildir. Kümeleme sürecinin başında her gözlem bir kümedir (Ağacın dalları) süreç sonunda ise tüm gözlemler bir kümede toplanır. En düşük düzeyde ele alınan gözlemlerin tümü bağımsız iken, sonraki aşamalarda gözlemler birleşerek yeni kümeleri oluşturmaktadır.

17 Hiyerarşik Olmayan Kümeleme Ağaç yapısı benzeri yapılar kurulmaz. Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefler. Genellikle büyük örneklem gruplarının (k> 250) analizinde tercih edilmektedir. Hiyerarşik olmayan teknikler düğüm yöntemleri ya da k-ortalamalar yöntemi (k-means method) olarak da adlandırılır. Küme sayısı konusunda ön bilgi var ise ya da araştırmacı küme sayısına karar vermiş ise, bu durumda uzun zaman alan hiyerarşik teknikler yerine hiyerarşik olmayan yöntemler kullanılmaktadır. Veri seti önceden belirlenmiş sayıda kümeye ayrılır. Bu kümelerin merkezleri yani düğüm noktaları hesaplanır. Bu adımlar her gözlem bir kümeye atanana kadar devam eder. Hiyerarşik kümelemede bir gözlem bir kümeye atandıktan sonra tekrar yer değiştirmez.

18 4-Kümelerin sayısına karar verilmesi Küme sayılarının belirlenmesinde kesin kurallar bulunmamaktadır. Kümeleme analizinden sağlıklı bir sonuç elde edilebilmesi için değişkenlerin seçimi ve küme sayısının belirlenmesi önemlidir. Farklı yöntemler farklı küme sayıları ortaya koyabildiği ve bu konuda da yine tek bir yöntem olmadığı için kümeleme analizi bilimden çok sanat olarak nitelendirilmektedir. Küme sayısının belirlenmesi için halen 1970'lerde geliştirilmiş olan ve çok da güvenilir olmadığı iddia edilen bazı testlerden yararlanılmaktadır. Sayısal bir takım yöntemler geliştirilmesine karşın küme sayısını belirlemede; araştırmacının bilgi düzeyi, mesleki deneyimi ve sonuçların anlamlı olup olmamasının en önemli unsurlar olduğu düşünülmektedir.

19 5-Kümelerin yorumlanması Kümeleme analizi istatistiksel olarak anlamlı bir sonuç çıkarmaktan çok araştırma ve tanımlama amaçlı kullanılan bir yöntem olarak uygulamada yer bulmaktadır. Çok sayıda değişkenin yine çok sayıda olan gözlem konusu birimler üzerindeki etkisini görme olanağı vermesi açısından oldukça faydalı bir araştırma yöntemidir.

20 6-Geçerlilik ve Güvenilirliğin Ölçülmesi Kümeleme analizinin son aşaması sonuçların anlamlılığının incelenmesidir. Oluşturulan kümeler tanımlandıktan sonra bu kümelerin güvenilirliği değerlendirilmelidir. Kümelerin istatistiksel güvenilirliğini saptamada bazı istatistiksel atılımlar yapılmış ise de şu anda kullanılan ve güvenilen bir istatistiksel test mevcut değildir. Ayrışma analizi kümeleme analizinin sonuçlarının testinde istatistiksel bir test gibi kullanılabilir. Kümeleme analizinde kurulabilecek en basit hipotez, ‘‘Veri homojen alt gruplara bölünebilir’’ seklindedir.

21 ÖRNEK 2:Kültürel Kümeler GLOBE(Global Leadership and Organizational Behavior Effectiveness )170 araştırmacının katkıları ile liderlik, örgüt kültürü ve toplum kültürü üzerine 62 farklı toplumda, 951 örgütte, katılımcı ile yapılan çok uluslu bir araştırma projesidir.(Öz,2009) “ Culture, Leadership, and Organizations: The GLOBE Study of 62 Societies” adıyla 2004 yılında çalışmanın sonuçları yayınlanmıştır. Globe projesi ile 62 milletten kültürel değerler ve inanışlarla ilgili veri toplanmış ve 10 tane küme önerilmiştir. Daha sonra bu kümelerin teyidi amacıyla ayrışma analizi uygulanmış ve öncül(a priori) kümeler güçlü şekilde desteklenmiştir.

22 Kaynak: Gupta, V., ve Hanges, P. J Regional and climate clustering of societal clusters. R. J. House, P. J. Hanges, M. Javidan, P. W. Dorfman ve V. Gupta (Der). Culture, leadership, and organizations: the GLOBE study of 62 socities: 178 – 218. California: SAGE.

23 Hofstede (1980), Schwartz (1994), Smith (1995), Inglehart (1997) ‘ın literatüre yaptığı katkılarla şekillendirilen GLOBE projesine göre kültürel değerler dokuz boyutta incelenebilir: 1-Belirsizliklerden kaçınma, 2-Güç mesafesi, 3- Örgütsel kolektivizm 4-Grup-içi kolektivizm, 5-Cinsiyet eşitliği, 6-Mücadelecilik, 7-Gelecek yönelimlilik, 8-Başarım yönelimlilik ve 9-İnsancıllık (House vd., 2002: 3-10 Akt Öz,2009 ).

24 Geert Hofstede, yılları arasında 40 ülkeden 100,000’in üzerinde denekle değerlerle ilgili bir araştırma gerçekleştirmiş ve bu ülkelerin kültür boyutlarını belirlemeye çalışmıştır. Hofstede, kültürleri ayıran dört temel değer boyutu üzerinde karar kılmıştır. Bunlar: 1-Güç mesafesi, 2-Belirsizliklerden kaçınma, 3-Bireysellik-kolektiflik, 4-Erkeklik-dişilik (Hill, 2002: 99). Daha sonra 5. boyut olarak “uzun dönem yönelme”’yi eklemiştir.

25 KAYNAK:Gupta ve ark,2002

26

27 Teşekkür ederim…

28 Kaynaklar Gupta,V,Hanges P.J,Dorman,P.,”Culturel Clusters:Methodology and findings”,2002 Çakmak Z.,Uzgören N.,Keçek G., “Kümeleme Analizi Teknikleri İle İllerin Kültürel Yapılarına Göre Sınıflandırılması Ve Değişimlerinin İncelenmesi” Demiralay M, Çamurcu A.Y.,”Cure, Agnes ve k-means Algoritmalarındaki kümeleme Yeteneklerinin Karşılaştırılması”, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Yıl: 4 Sayı: 8 güz 2005/2 s.1-18 Doğan B.,”Bankaların Gözetiminde Bir Araç Olarak Kümeleme Analizi Türk Bankacılık Sektörü İçin Bir Uygulama”, Doktora Tezi,2008 Hair J.F, Black W.C, Babin B.J, Anderson R.E,Multivariate Data Analysis, Pearson,7.Baskı,2010 Lattin J,Carroll J.D.,Gren P.E,Analyzing Multivariate Data,Thomson Brooks Cole,2003 Malhotra N, Birks D.,Marketing Research-An Applied Approach,Prentice Hall,2006 Tetik,N.,“Çok Değişkenli İstatistik Tekniklerle Ab Pazarının Bölümlendirilmesi”,Yüksek Lisans Tezi,2007 Öz T, “Çok uluslu örgütler ve şube kültürleri etkileşimi: Uygulamalı bir araştırma” Doktora tezi,2009 bilmuh.gyte.edu.tr/~htakci/vm/kumeleme_analizi.doc


"İLERİ ARAŞTIRMA YÖNTEMLERİ Doç. Dr. ÇAĞRI BULUT KÜMELEME ANALİZİ HAZIRLAYAN ÖZLEM KOÇTAŞ." indir ppt

Benzer bir sunumlar


Google Reklamları