Biyomedikal Mühendisliği Biyoinformatik Sunumu

Slides:



Advertisements
Benzer bir sunumlar
Dört Bölüm 1.Tanıtım ve Mevcut Durum 2.Hedefler 4.Demo 3.Yeni Sürüm Planlaması.
Advertisements

Unsupervised Learning (Kümeleme)
Karmaşıklık Giriş.
Ayrık Yapılar Algoritma Analizi.
MIT503 Veri Yapıları ve algoritmalar
MOLEKÜLER SİSTEMATİK NEDİR ? NEREDE VE NASIL KULLANILIR?
ALPER LAÇİN SERDAR TAŞAN
IT503 Veri Yapıları ve algoritmalar
KONU :GÖRÜNTÜNÜN GEOMETRİK MODELLERİNİN KURULMASI
Filogenetik Analiz Metotları
GENETİK UZAKLIK VE UPGMA YÖNTEMİ
Veri Madenciliğinde Kümeleme Slink Algoritması
MIT503 Veri Yapıları ve algoritmalar Algoritma Oluşturma – Açgözlü algoritmalar ve buluşsallar Y. Doç. Yuriy Mishchenko.
MIT563 Yapay Zeka ve Makine Öğrenmesi
EST ANLATIM YAPAN DİZİLERİN ANALİZLERİ
GENETİK ALGORİTMALAR (1-15.slayt).
FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.
Filogenetik analizlerde kullanılan en yaygın metotlar
PARSİMONİ İLKESİ ( SİBEL MUTLU – )
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Bilgi Erişim Tasarım Modelleri
Bölüm 1: Introductions (Tanıtım,Tanım)
Bellek Tabanlı Sınıflandırma
MAKSİMUM OLASILIK (MAXİMUM LİKELİHOOD)
FIRAT ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ
Erişim Kuralları Yaşar Tonta Hacettepe Üniversitesi
EMRE SEVİNDİK KONU: ANALİZ ÖNCESİ YAPILMASI GEREKEN İŞLEMLER
Enerji Sistemlerinde Yapay Arı Kolonisi (YAK) Algoritması Kullanarak Yük Akışı Optimizasyonu Nihat Pamuk.
S OYUT M ODELLER (A BSTRACT M ODELS ) Murat Olcay ÖZCAN Trakya Üniversitesi Bilgisayar Mühendisliği Anabilim Dalı.
Nesneye Dayalı Programlama
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
Yaşam ağacı: Sınıflandırma ve Filogeni
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
M.Fatih AMASYALI Uzman Sistemler Ders Notları
AES S Kutusuna Benzer S Kutuları Üreten Simülatör
Karar Bilimi 1. Bölüm.
Saklı Markov Modelleri ve Uygulamaları
PARSİMONİ METOTLARI Hazırlayan-Sunan : Sedanur SAYILGAN.
Doç. Dr. Cemil Öz SAÜ Bilgisayar Mühendisliği Dr. Cemil Öz.
• Smith-Waterman Algoritması • BLAST
Biyoinformatik.
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
SİMPLEKS METOT Müh. Ekonomisi.
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Bulanık Mantık Kavramlar:
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Adım Adım Algoritma.
BİYOLOJİK VERİTABANLARINA GİRİŞ
Psikolojik Danışman: Hasan KARAKIŞ.  Bilgisayar kullanımı yirminci yüzyılın özellikle son on yılında büyük bir hızla artmıştır. Bu artış, hem tüm dünyaya.
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
BİL551 – YAPAY ZEKA Kümeleme
EKONOMİK DEĞERLENDİRME YÖNTEMLERİ
Mekatronik Mühendisliği
O R T L G İ M A A Ve Akış şemaları.
Algoritma ve Akış Şemaları
Araş. Gör. Dinçer göksülük
Karar Ağaçları (Decision trees)
Algoritmalar II Ders 1: Alan zaman takası yöntemi.
BİYOLOJİDE ÖZEL KONULAR
Biyoinformatik.
Kübra ÖZDEMİR A 5.BÖLÜM BİYOİNFORMATİK
Problem Çözme Yaklaşımları
BİYOİNFORMATİK.
İleri Algoritma Analizi
Algoritmalar II Ders 11 Çizgeler. Çizgelerin bilgisayarda gösterimi. BFS algoritması.
Bilgisayar Bilimi Problem Çözme Süreci-2.
NİŞANTAŞI ÜNİVERSİTESİ
M. Aykut Yiğitel, Tolga Tolgay ve Cem Ersoy
Yapay Zeka Nadir Can KAVKAS
Algoritmalar II Ders 9 Dinamik Programlama ve Açgözlü Yaklaşım Soruları.
Sunum transkripti:

Biyomedikal Mühendisliği Biyoinformatik Sunumu Hazırlayanlar Hasan Durak 1031020245 Fatih Yıldız 1031020174

Çoklu dizi hizalaması Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ilişkiyi ortaya koymak için kullanılır.

Çoklu dizi hizalaması Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir.

Örnek Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.

Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.

Çoklu dizi hizalaması Çoklu dizi hizalaması terimi ayrıca bir dizi kümesinin hizalanması süreci için kullanılır. Üç veya daha çok dizinin elle hizalanması zor olduğu ve genelde çok zaman alıcı olduğu için hizalamaların üretim ve analizi berimsel(hesaplamalı)  algoritmalar kullanılır.

Dinamik programlama ve berimsel karmaşıklık Bir ÇDH üretiminde global optimal çözümünü bulmak için dinamik programlama tekniği kullanılır. Proteinler için, bu yöntem 2 parametre grubu kullanılır: bir boşluk cezası ve bir substitusyon matrisi. Substitusyon matrisi, her bir amino asit çiftinin birbiri ile hizalanmasına karşılık gelen bir puan (skor) veya ihtimal değeri içerir, bu değerler amino asitlerin kimyasal özelliklerinin benzerliğine ve mutasyonun olmasının evrimsel olasılığına dayalıdır. Nükleotit dizileri için benzer bir boşluk ceza değeri vardır fakat substitusyon matrisi çok daha basittir, tipik olarak sadece aynı olma ya da olmamaya göre skorlar bulunur. Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sırf pozitif olabilir ya da hem pozitif hem negatif değerler içerebilirler, fakat lokal hizalama durumunda hem pozitif hem negatif değerler içermek zorundadır.

Dinamik programlama ve berimsel karmaşıklık Dizi hizalaması İki dizinin hizalanmasında bir matris kullanılmasından yola çıkarak, n adet dizinin hizalanması için, o matrisin n-boyutlu karşılığı bir matris kullanmak, çözüme ulaşmanın acemi bir yolu olur. Bu yaklaşımın kararı arama uzayı artan n ile üssel şekilde büyür ve dizi uzunluğuna da güçle bağımlıdır. Berimsel karmaşıklık Berimsel karmaşıklığı ölçmekte kullanılan büyük O notasyonu ile belirtilirse, algoritma acemi yaklaşımla elde edilmiş bir ÇDH n dizi için O(Uzunlukn) sürede tamamlanır.  Bu ÇDH algoritması hizalamadaki her pozisyon için, karakter çiftlerinin toplamlarını (çiftler toplamı skorunu) optimize eder. algoritma, çoklu dizi hizalaması yapan bir yazılım programı olarak uygulamaya sokulmuştur.

İlerleyici hizalama inşası Çoklu dizi hizalamasında en yaygın kullanılan yöntem, ilerleyici (İng. progressive) yöntem olarak bilinen (hiyerarşik ya da ağaç tekniği olarak da bilinir) bir buluşsal (höristik) aramadır. Bu metotda, ÇDH'yi inşa etmek için önce birbirine en benzer olan çiftten başlanır, sonra gittikçe daha az benzeşen çiftler eklenir. İlerleyici hizalama metotlarının hepsi 2 aşamadan oluşur: diziler arasındaki ilişkinin kılavuz ağaçdenen bir filogenetik ağaç olarak gösterilmiş olduğu birinci aşama; ve büyüyen ÇDH'ye dizilerin sıra ile eklenerek ÇDH'nin inşa edilmiş olduğu bir ikinci kademe . İlk kılavuz ağacı oluşturmak için, dinamik programlama hizalaması yapmak yerine, verimli bir kümeleme (clustering) tekniği kullanılır (komşu bir araya getirme veya UPGMA gibi). Kümelemede uzaklık değeri olarak aynı 2 harfli altdizilerin sayısı kullanılabilir

İlerleyici hizalama inşası İlerleyici hizalamalar global optimal olması imkansız . Temel sıkıntı , ÇDH oluşturulur iken yapılan hataların nihai sonuca dek taşınmasıdır. Kümedeki diziler birbirlerine uzaktan ilişkiliyse algoritmanın performansı bilhassa kötüdür. Çoğu çağdaş ilerleyici metotlar, sorgu kümesinin her bir üyesi için skor işlevlerini değiştirir. Bu değişken skor, dizilerin en yakın komşularına olangenetik uzaklığına bağlı olarak nonlineer değişen bir ağırlık fonksiyonu ile hesaplanır. Böylece, hizalama programının dizileri rastgele olmayan bir biçimde seçmesinin tesiri düzeltilmiş olur. İlerleyici hizalama metotlar, çok sayıda (yüzlerce ila binlerce arası) diziye tatbik edilebilecek derecede verimli çalışırlar. İlerleyici hizalama hizmetleri kamuya açık Web sunucularında mevcuttur, bu sebepten kullanıcılar bu programı kendi bilgisayarlarında kurmak zorunda değildirler.

Biyolojik Veri Tabanları Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. Gen bankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) DNA Japonya veri tabanıdır (DDBJ)

Clustalw En popüler ilerleyici hizalama tekniği Clustal ailesi olmuştur, bilhassa ağırlıklı versiyonu olan clustalW bunlara çeşitli Web portallerindan erişilebilir ([ GenomeNet], [ EBI], and [ EMBNet] katılmak üzere). Farklı portaller ya da uyarlamalar kullanıcı arayüzü ve kullanıcının değiştirebileceği parametreler açısından faklılık gösterebilirler. ClustalW'nun direkt filogenetik ağaç inşası için kullanılmaması gerektiğine dair programcının açık uyarılarına rağmen, programın çıktıları bu gaye için yaygın olarak kullanılır. ClustalW çıktısı, homoloji modellemesi'yle protein yapı öndeyisine girdi olarak da kullanılmamalıdır.

BLAST BLAST uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLAST, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikiliolarak da karşılaştırabilmektedir. Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar.

BLAST BLAST arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, arama sonuçlarını seçmek mümkündür. BLAST arama sonuçlarının karşılaştırılmasında kullanılan değişkenler;

BLAST Değişkenler Maksimum Skor (Maximum Score) Toplam Skor (Total Score) Sorgulama Kapsamı (Query Coverage) E‐Değeri (E‐Value) Maksimum Benzerlik (Maximum Identity)

Hizalama Hesaplamaları Global hizalama yapan Needleman‐Wunsch algoritması ile yerel hizalama yapan Smith‐Waterman algoritması gibi yöntemler iki proteinin benzerlik skorunun hesaplanmasında kullanılmaktadır. İkisi de dinamik programlama temeline dayanmaktadır. Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir.