Biyomedikal Mühendisliği Biyoinformatik Sunumu Hazırlayanlar Hasan Durak 1031020245 Fatih Yıldız 1031020174
Çoklu dizi hizalaması Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ilişkiyi ortaya koymak için kullanılır.
Çoklu dizi hizalaması Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir.
Örnek Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.
Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf olarak, ensersiyon ve delesyonlar ise hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır.
Çoklu dizi hizalaması Çoklu dizi hizalaması terimi ayrıca bir dizi kümesinin hizalanması süreci için kullanılır. Üç veya daha çok dizinin elle hizalanması zor olduğu ve genelde çok zaman alıcı olduğu için hizalamaların üretim ve analizi berimsel(hesaplamalı) algoritmalar kullanılır.
Dinamik programlama ve berimsel karmaşıklık Bir ÇDH üretiminde global optimal çözümünü bulmak için dinamik programlama tekniği kullanılır. Proteinler için, bu yöntem 2 parametre grubu kullanılır: bir boşluk cezası ve bir substitusyon matrisi. Substitusyon matrisi, her bir amino asit çiftinin birbiri ile hizalanmasına karşılık gelen bir puan (skor) veya ihtimal değeri içerir, bu değerler amino asitlerin kimyasal özelliklerinin benzerliğine ve mutasyonun olmasının evrimsel olasılığına dayalıdır. Nükleotit dizileri için benzer bir boşluk ceza değeri vardır fakat substitusyon matrisi çok daha basittir, tipik olarak sadece aynı olma ya da olmamaya göre skorlar bulunur. Substitusyon matrisindeki skorlar global hizalamalar durumunda ya sırf pozitif olabilir ya da hem pozitif hem negatif değerler içerebilirler, fakat lokal hizalama durumunda hem pozitif hem negatif değerler içermek zorundadır.
Dinamik programlama ve berimsel karmaşıklık Dizi hizalaması İki dizinin hizalanmasında bir matris kullanılmasından yola çıkarak, n adet dizinin hizalanması için, o matrisin n-boyutlu karşılığı bir matris kullanmak, çözüme ulaşmanın acemi bir yolu olur. Bu yaklaşımın kararı arama uzayı artan n ile üssel şekilde büyür ve dizi uzunluğuna da güçle bağımlıdır. Berimsel karmaşıklık Berimsel karmaşıklığı ölçmekte kullanılan büyük O notasyonu ile belirtilirse, algoritma acemi yaklaşımla elde edilmiş bir ÇDH n dizi için O(Uzunlukn) sürede tamamlanır. Bu ÇDH algoritması hizalamadaki her pozisyon için, karakter çiftlerinin toplamlarını (çiftler toplamı skorunu) optimize eder. algoritma, çoklu dizi hizalaması yapan bir yazılım programı olarak uygulamaya sokulmuştur.
İlerleyici hizalama inşası Çoklu dizi hizalamasında en yaygın kullanılan yöntem, ilerleyici (İng. progressive) yöntem olarak bilinen (hiyerarşik ya da ağaç tekniği olarak da bilinir) bir buluşsal (höristik) aramadır. Bu metotda, ÇDH'yi inşa etmek için önce birbirine en benzer olan çiftten başlanır, sonra gittikçe daha az benzeşen çiftler eklenir. İlerleyici hizalama metotlarının hepsi 2 aşamadan oluşur: diziler arasındaki ilişkinin kılavuz ağaçdenen bir filogenetik ağaç olarak gösterilmiş olduğu birinci aşama; ve büyüyen ÇDH'ye dizilerin sıra ile eklenerek ÇDH'nin inşa edilmiş olduğu bir ikinci kademe . İlk kılavuz ağacı oluşturmak için, dinamik programlama hizalaması yapmak yerine, verimli bir kümeleme (clustering) tekniği kullanılır (komşu bir araya getirme veya UPGMA gibi). Kümelemede uzaklık değeri olarak aynı 2 harfli altdizilerin sayısı kullanılabilir
İlerleyici hizalama inşası İlerleyici hizalamalar global optimal olması imkansız . Temel sıkıntı , ÇDH oluşturulur iken yapılan hataların nihai sonuca dek taşınmasıdır. Kümedeki diziler birbirlerine uzaktan ilişkiliyse algoritmanın performansı bilhassa kötüdür. Çoğu çağdaş ilerleyici metotlar, sorgu kümesinin her bir üyesi için skor işlevlerini değiştirir. Bu değişken skor, dizilerin en yakın komşularına olangenetik uzaklığına bağlı olarak nonlineer değişen bir ağırlık fonksiyonu ile hesaplanır. Böylece, hizalama programının dizileri rastgele olmayan bir biçimde seçmesinin tesiri düzeltilmiş olur. İlerleyici hizalama metotlar, çok sayıda (yüzlerce ila binlerce arası) diziye tatbik edilebilecek derecede verimli çalışırlar. İlerleyici hizalama hizmetleri kamuya açık Web sunucularında mevcuttur, bu sebepten kullanıcılar bu programı kendi bilgisayarlarında kurmak zorunda değildirler.
Biyolojik Veri Tabanları Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. Gen bankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) DNA Japonya veri tabanıdır (DDBJ)
Clustalw En popüler ilerleyici hizalama tekniği Clustal ailesi olmuştur, bilhassa ağırlıklı versiyonu olan clustalW bunlara çeşitli Web portallerindan erişilebilir ([ GenomeNet], [ EBI], and [ EMBNet] katılmak üzere). Farklı portaller ya da uyarlamalar kullanıcı arayüzü ve kullanıcının değiştirebileceği parametreler açısından faklılık gösterebilirler. ClustalW'nun direkt filogenetik ağaç inşası için kullanılmaması gerektiğine dair programcının açık uyarılarına rağmen, programın çıktıları bu gaye için yaygın olarak kullanılır. ClustalW çıktısı, homoloji modellemesi'yle protein yapı öndeyisine girdi olarak da kullanılmamalıdır.
BLAST BLAST uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLAST, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikiliolarak da karşılaştırabilmektedir. Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar.
BLAST BLAST arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, arama sonuçlarını seçmek mümkündür. BLAST arama sonuçlarının karşılaştırılmasında kullanılan değişkenler;
BLAST Değişkenler Maksimum Skor (Maximum Score) Toplam Skor (Total Score) Sorgulama Kapsamı (Query Coverage) E‐Değeri (E‐Value) Maksimum Benzerlik (Maximum Identity)
Hizalama Hesaplamaları Global hizalama yapan Needleman‐Wunsch algoritması ile yerel hizalama yapan Smith‐Waterman algoritması gibi yöntemler iki proteinin benzerlik skorunun hesaplanmasında kullanılmaktadır. İkisi de dinamik programlama temeline dayanmaktadır. Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir.