• Smith-Waterman Algoritması • BLAST
Smith-Waterman Hizalama Algoritması Algoritma Temel Özellikleri: Kullanılan dinamik programlama Hesaplanan puanlama matrisi Boşluklar için Penaltılar: Daha fazla boşluklar ile bir hizalama daha az boşluk ile hizalanmış bir sekanstan daha iyidir. Gap Penaltılar: * Bu iki hizalamaların aynı puanı var, fakat ilk hizalama önemlidir. (yani daha az boşluklar vardır) ATCG AT-CG ATTG ATT-G * Giriş Boşluklarını aza indirmek için cezalar (penaltılar) ekle * İki çeşit Gap Cezaları (Penaltıları) vardır. Gap açıklığı (GO): Başlangıçta boşluk açıldığında değerlendirilen Gap uzama (GE): Bir boşluk birbirini izleyen uzantısı ile değerlendirildiğinde GO ve GE hizada boşlukları sokulması için istenilen duyarlılığı bağlı olarak seçilebilir ya da 3 boyutlu yapısal hatları tahmin edilebilir.
Gap Cezaları (Penaltıları): Örnek Boşluk açıklığı (GO) ceza = -2 ve boşluk uzatma (GE) penaltı varsayalım = -1 C-T ikame cezası varsayalım = -1 Eşleşme için Puan = 1 Bu gruplaşmada __ bir yüksek puan var hangisi “daha iyi“ ? AT-C-TA ATC--TA AT-C--TA ATTTTTA ATTTTTA ATT-TTTA 4 uyumlu, 1 uyumsuz, 4 uyumlu, 1 uyumsuz, 4 uyumlu 2 gap açıklığı (GO) 1 GO, 1 GE, 3 GO, 1 GE Sonuç = +4-1-2-2 Sonuç = +4-1-2-1 Sonuç = +4-2-2-2-1 Sonuç = -1 Sonuç = 0 Sonuç = -3
Uyum Anlamı ve Terminoloji Bir hizalama puanı göz önüne alındığında, ne zaman önemlidir? Bazı durumlarda, bu homolog olduğu bilinen sekanslar deneysel testler ile belirlenebilir Yüksek hizalama puanı" dizileri ortak bir atadan evrimleştiği düşünülmektedir. "Düşük hizalama puanı", sadece bir bilginin eksikliği karşıt anlamına gelmez.
Terminoloji: . Dizi Kimliği: Toplam dizi uzunluğuna bölünmesiyle kesin eşleşmelerin sayısı (% ID) . Benzerlik: "benzer" amino asitler (% benzerlik) için verilen kısmi skor - kullanılan puanlama matrisine bağlıdır. . Homoloji : İki dizileri ortak bir ata dizisi ya da ortak bir atadan yok (Yok% homoloji)
BLAST Amacı Nedir? Bir proteini yada DNA dizilerinin, bir protein yada DNA veri tabanlarında karşılaştırılmasını sağlar. BLAST veritabanındaki tüm homolog dizileri alır
Neden BLAST Gereklidir? Teorik olarak, bir veri tabanında bulunan, bir sorgulama dizisi ve her bir proteini ya da DNA dizisi arasında küresel bir hizalama gerçekleştirebilir Bu tür yaklaşımların hesaplamaları son derece yoğun olacağından çoğu amaçlar için pratik değildir. BLAST buluşsal bu yöntemlere yakındır. BLAST siparişleri ise daha hızlı diğer sezgisel yöntemlere göre daha büyüklükte. BLAST diğer sezgisel yöntemlere göre ayrıca daha hassas ve seçicidir. BLAST dezavantajları: Bir miktar homoloji ilişkileri kaçırır Optimal uyum garanti etmez
BLAST Nasıl Çalışır? Sezgisel Üç Adım: Yüksek puanlama kelimelerin bir listesini derlemek Hit olarak adlandırılan bu kelimelerin örnekleri için veritabanı tarama Rastgele anlamlı hitleri ayırt etmek ve uzatmak
BLAST: Terminoloji Kompozisyon Kompozisyon Karmaşıklık Belirli bir sıra ile Alfabe kullanım ölçüsü Kompozisyon Karmaşıklık Bir dizinin bilgi içeriği bir ölçüsüdür Düşük Karmaşıklık Yüksek Karmaşıklık AGAAGAGGGAA TGHIGAVRLAC
Boşluksuz vs Boşluklu Hizalama: Boşluksuz: VHREMAARTSPLRPLVATAGPALSPVPP ASRDPVARTSPLQTPAAPGAAAGPALSP Boşluklu: VATAGPALSPVPPCVHLTLRRAGDDFSR VIPMAA--------------------VKQALREAGDE
E-Değerleri Skorlar her yüksek puanlama sırası çifti için BLAST tarafından bildirilen (HSP) e-değerleri olarak Tesadüfen beklenen skor S ile e-değerleri HSP sayısına yaklaştığı kabul edilir. (yani ilgili değildir) Düşük karmaşıklık dizilerinin filtrelemesi devre dışıysa, E-değerleri anormal yüksek olacak.
E(S) = Kmne¯ʎS E-değerleri aşağıdaki formül kullanılarak hesaplanır: K = Sabit (Uyumlu başlama noktaları için mümkün olmayan bağımsızlık için düzeltme ) m = Veri tabanında bulunan dizilerin toplam uzunluğu n = Soru sekansının uzunluğu ʎ = Sabit ölçekleme S = Yüksek skorlu dizi çiftinin skoru (HSP)
BLAST Çalıştırma Seçenekler: Düşük karmaşıklık filtresi Beklemek Bu dizileri hizalamak X adı ile olmaz -- uzantıları yerini alır düşük karmaşıklık dizisi ile uzanır. Limite göre sorgu girme Veritabanı dize sorgu sonuçlarına karşı sorgu BLAST olacak Beklemek E-değeri kesilen HSP'leri bildirdiği için Kelime boyutunu Kullanıcı look-up tablosu için kelime boyutunu tanımlamak için izin verir Proteinler için, varsayılan 3'tür. 2 düşürücü duyarlılığını artırmak , aynı zamanda çalışma süresini artıracak Matrix İkame matrisi seçin puanlama için kullanılacak Boşluk maliyetleri Boşluk açma ve genişletme cezaları seçin
Blast Arama İpuçları Başlangıçta BLOSUM62 ve varsayılan boşluk cezaları kullanmak Anlamlı sonuçlar, BLOSUM30 ve alt boşluk cezaları kullanırsanız Tipik 0.0001 BLAST E-değer sınır değeri kullanın Uzun dizilerinin isabetine dikkat edin veya sıradışı dizisi bileşim ile isabet edin. (AQQQQQQQQQRQQG, etc) DNA için, 1000 baz bölümler halinde BLAST bireysel dizisini bölmek Proteinler için, 300 amino asit dizisini parça halinde, ayrıca segmenti çapında bilinen motiflere bölmek Sınırlı sorgu bölgesini kullanarak sınırda öneme sonuçlarını yeniden değerlendirmek