Biyomedikal Mühendisliği Biyoinformatik Sunumu

Slides:

Advertisements

Benzer bir sunumlar

Dört Bölüm 1.Tanıtım ve Mevcut Durum 2.Hedefler 4.Demo 3.Yeni Sürüm Planlaması.

Advertisements

Unsupervised Learning (Kümeleme)

Karmaşıklık Giriş.

Ayrık Yapılar Algoritma Analizi.

MIT503 Veri Yapıları ve algoritmalar

MOLEKÜLER SİSTEMATİK NEDİR ? NEREDE VE NASIL KULLANILIR?

ALPER LAÇİN SERDAR TAŞAN

IT503 Veri Yapıları ve algoritmalar

KONU :GÖRÜNTÜNÜN GEOMETRİK MODELLERİNİN KURULMASI

Filogenetik Analiz Metotları

GENETİK UZAKLIK VE UPGMA YÖNTEMİ

Veri Madenciliğinde Kümeleme Slink Algoritması

MIT503 Veri Yapıları ve algoritmalar Algoritma Oluşturma – Açgözlü algoritmalar ve buluşsallar Y. Doç. Yuriy Mishchenko.

MIT563 Yapay Zeka ve Makine Öğrenmesi

EST ANLATIM YAPAN DİZİLERİN ANALİZLERİ

GENETİK ALGORİTMALAR (1-15.slayt).

FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.

Filogenetik analizlerde kullanılan en yaygın metotlar

PARSİMONİ İLKESİ ( SİBEL MUTLU – )

İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim

Bilgi Erişim Tasarım Modelleri

Bölüm 1: Introductions (Tanıtım,Tanım)

Bellek Tabanlı Sınıflandırma

MAKSİMUM OLASILIK (MAXİMUM LİKELİHOOD)

FIRAT ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ

Erişim Kuralları Yaşar Tonta Hacettepe Üniversitesi

EMRE SEVİNDİK KONU: ANALİZ ÖNCESİ YAPILMASI GEREKEN İŞLEMLER

Enerji Sistemlerinde Yapay Arı Kolonisi (YAK) Algoritması Kullanarak Yük Akışı Optimizasyonu Nihat Pamuk.

S OYUT M ODELLER (A BSTRACT M ODELS ) Murat Olcay ÖZCAN Trakya Üniversitesi Bilgisayar Mühendisliği Anabilim Dalı.

Nesneye Dayalı Programlama

MIT503 Veri Yapıları ve algoritmalar Veri ağaçları

Yaşam ağacı: Sınıflandırma ve Filogeni

BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ

M.Fatih AMASYALI Uzman Sistemler Ders Notları

AES S Kutusuna Benzer S Kutuları Üreten Simülatör

Karar Bilimi 1. Bölüm.

Saklı Markov Modelleri ve Uygulamaları

PARSİMONİ METOTLARI Hazırlayan-Sunan : Sedanur SAYILGAN.

Doç. Dr. Cemil Öz SAÜ Bilgisayar Mühendisliği Dr. Cemil Öz.

• Smith-Waterman Algoritması • BLAST

Biyoinformatik.

En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma

SİMPLEKS METOT Müh. Ekonomisi.

Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar

Bulanık Mantık Kavramlar:

Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )

Adım Adım Algoritma.

BİYOLOJİK VERİTABANLARINA GİRİŞ

Psikolojik Danışman: Hasan KARAKIŞ.  Bilgisayar kullanımı yirminci yüzyılın özellikle son on yılında büyük bir hızla artmıştır. Bu artış, hem tüm dünyaya.

ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.

BİL551 – YAPAY ZEKA Kümeleme

EKONOMİK DEĞERLENDİRME YÖNTEMLERİ

Mekatronik Mühendisliği

O R T L G İ M A A Ve Akış şemaları.

Algoritma ve Akış Şemaları

Araş. Gör. Dinçer göksülük

Karar Ağaçları (Decision trees)

Algoritmalar II Ders 1: Alan zaman takası yöntemi.

BİYOLOJİDE ÖZEL KONULAR

Biyoinformatik.

Kübra ÖZDEMİR A 5.BÖLÜM BİYOİNFORMATİK

Problem Çözme Yaklaşımları

BİYOİNFORMATİK.

İleri Algoritma Analizi

Algoritmalar II Ders 11 Çizgeler. Çizgelerin bilgisayarda gösterimi. BFS algoritması.

Bilgisayar Bilimi Problem Çözme Süreci-2.

NİŞANTAŞI ÜNİVERSİTESİ

M. Aykut Yiğitel, Tolga Tolgay ve Cem Ersoy

Yapay Zeka Nadir Can KAVKAS

Algoritmalar II Ders 9 Dinamik Programlama ve Açgözlü Yaklaşım Soruları.

Sunum transkripti:

Biyomedikal Mühendisliği Biyoinformatik Sunumu Hazırlayanlar Hasan Durak 1031020245 Fatih Yıldız 1031020174

Çoklu dizi hizalaması Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ilişkiyi ortaya koymak için kullanılır.

Çoklu dizi hizalaması Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir.

Örnek Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.

Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.

Çoklu dizi hizalaması Çoklu dizi hizalaması terimi ayrıca bir dizi kümesinin hizalanması süreci için kullanılır. Üç veya daha çok dizinin elle hizalanması zor olduğu ve genelde çok zaman alıcı olduğu için hizalamaların üretim ve analizi berimsel(hesaplamalı) algoritmalar kullanılır.

Dinamik programlama ve berimsel karmaşıklık Bir ÇDH üretiminde global optimal çözümünü bulmak için dinamik programlama tekniği kullanılır. Proteinler için, bu yöntem 2 parametre grubu kullanılır: bir boşluk cezası ve bir substitusyon matrisi. Substitusyon matrisi, her bir amino asit çiftinin birbiri ile hizalanmasına karşılık gelen bir puan (skor) veya ihtimal değeri içerir, bu değerler amino asitlerin kimyasal özelliklerinin benzerliğine ve mutasyonun olmasının evrimsel olasılığına dayalıdır. Nükleotit dizileri için benzer bir boşluk ceza değeri vardır fakat substitusyon matrisi çok daha basittir, tipik olarak sadece aynı olma ya da olmamaya göre skorlar bulunur. Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sırf pozitif olabilir ya da hem pozitif hem negatif değerler içerebilirler, fakat lokal hizalama durumunda hem pozitif hem negatif değerler içermek zorundadır.

Dinamik programlama ve berimsel karmaşıklık Dizi hizalaması İki dizinin hizalanmasında bir matris kullanılmasından yola çıkarak, n adet dizinin hizalanması için, o matrisin n-boyutlu karşılığı bir matris kullanmak, çözüme ulaşmanın acemi bir yolu olur. Bu yaklaşımın kararı arama uzayı artan n ile üssel şekilde büyür ve dizi uzunluğuna da güçle bağımlıdır. Berimsel karmaşıklık Berimsel karmaşıklığı ölçmekte kullanılan büyük O notasyonu ile belirtilirse, algoritma acemi yaklaşımla elde edilmiş bir ÇDH n dizi için O(Uzunlukn) sürede tamamlanır. Bu ÇDH algoritması hizalamadaki her pozisyon için, karakter çiftlerinin toplamlarını (çiftler toplamı skorunu) optimize eder. algoritma, çoklu dizi hizalaması yapan bir yazılım programı olarak uygulamaya sokulmuştur.

İlerleyici hizalama inşası Çoklu dizi hizalamasında en yaygın kullanılan yöntem, ilerleyici (İng. progressive) yöntem olarak bilinen (hiyerarşik ya da ağaç tekniği olarak da bilinir) bir buluşsal (höristik) aramadır. Bu metotda, ÇDH'yi inşa etmek için önce birbirine en benzer olan çiftten başlanır, sonra gittikçe daha az benzeşen çiftler eklenir. İlerleyici hizalama metotlarının hepsi 2 aşamadan oluşur: diziler arasındaki ilişkinin kılavuz ağaçdenen bir filogenetik ağaç olarak gösterilmiş olduğu birinci aşama; ve büyüyen ÇDH'ye dizilerin sıra ile eklenerek ÇDH'nin inşa edilmiş olduğu bir ikinci kademe . İlk kılavuz ağacı oluşturmak için, dinamik programlama hizalaması yapmak yerine, verimli bir kümeleme (clustering) tekniği kullanılır (komşu bir araya getirme veya UPGMA gibi). Kümelemede uzaklık değeri olarak aynı 2 harfli altdizilerin sayısı kullanılabilir

İlerleyici hizalama inşası İlerleyici hizalamalar global optimal olması imkansız . Temel sıkıntı , ÇDH oluşturulur iken yapılan hataların nihai sonuca dek taşınmasıdır. Kümedeki diziler birbirlerine uzaktan ilişkiliyse algoritmanın performansı bilhassa kötüdür. Çoğu çağdaş ilerleyici metotlar, sorgu kümesinin her bir üyesi için skor işlevlerini değiştirir. Bu değişken skor, dizilerin en yakın komşularına olangenetik uzaklığına bağlı olarak nonlineer değişen bir ağırlık fonksiyonu ile hesaplanır. Böylece, hizalama programının dizileri rastgele olmayan bir biçimde seçmesinin tesiri düzeltilmiş olur. İlerleyici hizalama metotlar, çok sayıda (yüzlerce ila binlerce arası) diziye tatbik edilebilecek derecede verimli çalışırlar. İlerleyici hizalama hizmetleri kamuya açık Web sunucularında mevcuttur, bu sebepten kullanıcılar bu programı kendi bilgisayarlarında kurmak zorunda değildirler.

Biyolojik Veri Tabanları Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. Gen bankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) DNA Japonya veri tabanıdır (DDBJ)

Clustalw En popüler ilerleyici hizalama tekniği Clustal ailesi olmuştur, bilhassa ağırlıklı versiyonu olan clustalW bunlara çeşitli Web portallerindan erişilebilir ([ GenomeNet], [ EBI], and [ EMBNet] katılmak üzere). Farklı portaller ya da uyarlamalar kullanıcı arayüzü ve kullanıcının değiştirebileceği parametreler açısından faklılık gösterebilirler. ClustalW'nun direkt filogenetik ağaç inşası için kullanılmaması gerektiğine dair programcının açık uyarılarına rağmen, programın çıktıları bu gaye için yaygın olarak kullanılır. ClustalW çıktısı, homoloji modellemesi'yle protein yapı öndeyisine girdi olarak da kullanılmamalıdır.

BLAST BLAST uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLAST, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikiliolarak da karşılaştırabilmektedir. Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar.

BLAST BLAST arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, arama sonuçlarını seçmek mümkündür. BLAST arama sonuçlarının karşılaştırılmasında kullanılan değişkenler;

BLAST Değişkenler Maksimum Skor (Maximum Score) Toplam Skor (Total Score) Sorgulama Kapsamı (Query Coverage) E‐Değeri (E‐Value) Maksimum Benzerlik (Maximum Identity)

Hizalama Hesaplamaları Global hizalama yapan Needleman‐Wunsch algoritması ile yerel hizalama yapan Smith‐Waterman algoritması gibi yöntemler iki proteinin benzerlik skorunun hesaplanmasında kullanılmaktadır. İkisi de dinamik programlama temeline dayanmaktadır. Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir.