Prostat Kanseri Teşhisinde Veri Madenciliği Yöntemlerinin Başırım Karşılaştırması Dr. Sait Can Yücebaş Çanakkale Onsekiz Mart Üniversitesi, Bilgisayar Mühendisliği Bölümü, Çanakkale
Bu çalışma, Çanakkale Onsekiz Mart Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimince Desteklenmiştir. Proje Numarası: FBA-2014-286”
Sunum Akışı Giriş Motivasyon Materyal Yöntem Bulgular
Giriş Tıp – Sağlık alanı veri madenciliğinin odak noktalarından biri Çok sayıda veri Çok boyutlu veri Erken teşhis ve Teşhis Tedavi Planlama İlaç Etkileşimi Hatırlatıcı-Uyarıcı Sistemler [2-3]
Giriş Çok boyutlu, çok miktarda veri => Genetik İnsan Genom Projesi => Gen – Hastalık İlişkisi Kanser Türleri Zihinsel – Ruhsal Hastalıklar Diyabetik Hastalıklar Kalıtımsal Hastalıklar
Giriş Bütünsel Genom İlişkilendirme Çalışmaları (GWAS) Gen – Hastalık İlişkisi Tekli nükleotid polimorfizmleri (SNP) DNA varyasyonuna neden olan tek bir nükleotidin değişimmi Değişen nükleotidler = Aleller
Motivasyon Genotip + Fenotip Bilgileri Başarım Karşılaştırması K En Yakın Komşu (tembel öğrenme) Karar Ağacı (özyineleme) Naïve Bayes (olasılıksal model) Destek Vektör Makinası (doğrusal olmayan)
“Çok Etnikli Prostat Kanseri” Materyal NCBI dbGaP “Çok Etnikli Prostat Kanseri” 1260 kişi (628 sağlıklı, 632 hasta) Afro Amearikan =358 Japon =227 Latin = 675 Her birey için 600.000 SNP ve 20 adet fenotip
Yöntem – Veri Ön İşleme Temsili SNP alt kümesi PLINK = 22.848 Metu – SNP = 2710 Fenotip Elemesi Sadece hastalar için var olan özellikler Eksik bilgi oranı %40 ve fazla olan fenotipler =12 Fenotip
bmi_cat Beden Kitle İndeksi fh_prca pa_cat packyrs_ca ethanol_ca Aile Hikayesi pa_cat Günlük Fiziksel Aktivite packyrs_ca Günlük içilen sigara miktarı X içilen yıl ethanol_ca Günlük alınan alkol miktarı
d_lyco_cat Gümlük likopen alımı p_fat_cat Günlük alınan yağ miktarı d_calc_cat Günlük kalsiyum alımı currsmoke Şu anki sigara kullanımı eversDecisiımoke Hiç sigara içip içmediği
Başarım Karşılaştırması Uygulama Aracı = RapidMiner 5.3 Performans Kriterleri => 10 Katmanlı Çapraz Geçerlilik Testi
K-En Yakın Komşu K = [3 – 5], K =3
Naïve Bayes
Karar Ağacı Quinlan’ ın ID3 Ayrım Kriteri = Bilgi Kazancı Oranı Dallanma İçin min. Boyut= 4 Min. Yaprak Boyutu = 2
Destek Vektör Makinası Çekirdek = RBF C =10 Gamma = 0.001
Karşılaştırmalı Sonuçlar
Bulgular
ETNİK KÖKEN AFRO AMERİKAN JAPON Fenotip Dallanma Genotip Dallanma
Bulgular Beden Kitle indeksi (çok düşük veya çok büyük) BMI<22,5 => Hasta [56,57,58] Ailede prostat kanseri hikayesi [59] Gün içinde içilen sigara miktarı [60,61]
Bulgular 41 adet ilişkili SNP regulomeDB ENSEMBL 24 adet SNP (genetik varyasyon) ENSEMBL 17 adet SNP (hastalıkla ilişkili)
rs11790106 =>ATP2B2 geni => enerji üretimi ve kalsiyum taşıması Rs12644498=>ARL9 geni => ATP/GTP 6887293 =>AGBL4 => ATP/GTP Tüm bu genler IGF1=> insüline bağlı gelişim BMI ile ilişkili olabilir
Teşekkürler
Referanslar C.Yücebaş and Y. Aydın Son (March 20, 2014). “A Prostate Cancer Model build by a Novel SVM-ID3 Hybrid Feature Selection Method using both genotyping and phenotype data from dbGaP”. DOI: 10.1371/journal.pone.0091404. Coiera, E., (2003). Clinical Decision Support Systems: Guide to Health Informatics. CRC Press. Arnold, London. Sen, A., et al., (2012). Clinical Decision Support: Converging toward an Itegrated Architecture. J Biomed Inform. 45(5):1009–1017
Edward Giovannucci, et al Edward Giovannucci, et al.. (2003) Body Mass Index and Risk of Prostate Cancer in U.S. Health Professionals. JNCI J Natl Cancer Inst. 95(16):1240-1244 Cao Y, Ma J. (2011) Body Mass Index, Prostate Cancer-Specific Mortality, and Biochemical Recurrence: A Systematic Review and Meta-Analysis. Cancer Prev Res (Phila).4(4):486-501 Rodriguez C, et al.. (2001) Body Mass Index, Height, and Prostate Cancer Mortality In Two Large Cohorts of Adult Men In The United States. Cancer Epidemiol Biomarkers Prev. 10(4):345-53. Gary D, et al.. (2006) Family History and The Risk Of Prostate Cancer. The Prostate. 17(4):337–347 Lora A. Plaskon, et al.. (2003) Cigarette Smoking and Risk of Prostate Cancer in Middle-Aged Men. Cancer Epidemiol Biomarkers Prev. 12:604-609 Steven S. Coughlin, et al. (1995) Cigarette Smoking as a Predictor of Death from Prostate Cancer in 348,874 Men Screened for the Multiple Risk Factor Intervention Trial. American Journal of Epidemiology. 143(10):1002-1006