İkili Ve Çoklu Hizalama (BLAST)
Bir gen ya da protein ile ilgili en temel sorulardan biri başka bir gen ya da protein ile ilişkili olup olmadığıdır. Birbirleri ile ilişkili olan proteinler aynı zamanda aynı fonksiyona da sahip olabiliriler. İlişkilendirme analizleri sekansları hizalayarak gerçekleştirilir.
Protein sekans hizalamaları DNA sekans hizalamalarına kıyasla daha bilgilendiricidir. Protein sekans kıyaslamaları 1 milyar yıl önce ortak soy paylaşmış homolog sekansları belirleyebilirken DNA sekansları 600 milyon yıl öncesine uzanabilmektedir. DNA sekans hizalamaları polimorfizm ve cDNA klonu araraken ya da primer spesifisitelerini kontrol etmek için kullanılır.
Homoloji, Benzerlik (similarity) ve Aynılık (Identity) Eğer sekanslar ortak evrimsel bir soydan geliyorlarsa bu sekanslar homologdur. Ortolog’lar türlerin evrimi sırasında ortaya çıkan ortak soydan gelen genlerdir. Farklı türlerdeki homolog sekanslardır (insan myoglobin geni ve fare myoglobin geni ya da insan ve farede bulunan alpha hemoglobin geni) ortho=exact Paralog’lar gen duplikasyonu gibi bir mekanizma ile ortaya çıkan homolog sekanslardır (insan alpha-1 globin ve alpha-2 globin, alpha ve beta hemoglobin). para=in parallel
Protein sekanslarının %25’i benzer ise homolog olarak adlandırılırlar. DNA için %70 benzerlik gereklidir %25’in altı “alacakaranlık kuşağı” olarak adlandırılır”
Homoloji, Benzerlik (similarity) ve Aynılık (Identity) Identity is the extent to which two amino acid or nucleotide sequences are invariant. EVGGYLSEDKLH * * * EVGGHLAEDKIH Similarity is being related structurally or functionally.
İkili Hizalama: Temel noktalar İkili hizalama iki sekans arasındaki benzerlik ya da aynılık yüzdesini belirlemeye yardım eder. İkili hizalama %100 benzerlikler için pozitif değerler ile skorlanırken, eşleşmeme ve boşluklar farklı skorlanırlar. PAM and BLOSUM matrices provide a set of rules for assigning scores. PAM10 and BLOSUM80 are examples of matrices appropriate for the comparison of closely related sequences. PAM250 and BLOSUM30 are examples of matrices used to score distantly related proteins.
BLAST BLAST (Basic Local Alignment Search Tool) Bir sekans sorgusunun bir veritabanı ile kıyaslanmasını sağlar. BLAST algoritması hızlı, güvenli ve web üzerinden ulaşılabilirdir. page 87
Why use BLAST? BLAST searching is fundamental to understanding the relatedness of any favorite query sequence to other known proteins or DNA sequences. Applications include identifying orthologs and paralogs discovering new genes or proteins discovering variants of genes or proteins investigating expressed sequence tags (ESTs) exploring protein structure and function page 88
BLAST Taramasının 4 Bileşeni (1) Sekans seçimi (sorgu) (2) BLAST programının seçimi (3) Veritabanı seçimi (4) Opsiyonel parametrelerin belirlenmesi “BLAST” page 88
Step 1: Sekans seçimi Sekanslar FASTA formatında ya da accession numarası olarak girilebilirler page 89
Example of the FASTA format for a BLAST query
Step 2: BLAST programının seçimi
Step 2: BLAST programının seçimi blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST) page 90
DNA potentially encodes six proteins 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
Choose the BLAST program Program Input Database 1 blastn DNA DNA blastp protein protein 6 blastx DNA protein tblastn protein DNA 36 tblastx DNA DNA
BLASTing DNA Sequences
Different BLAST Programs Available for DNA Sequences Query Database Usage blastn DNA Very similar DNA sequences tbalstx TDNA Protein discovery and ESTs blastx Protein Analysis of the query DNA sequene
Choosing the Right Flavor of BLAST for DNA Question Answer Am I interested in non-coding DNA? Use blastn. Never forget that blastn is only for closely related DNA sequences (>70% identical) Do I want to discover new proteins? Use tblastx Do I want to discover proteins encoded in my query DNA sequence? Use blastx Am I unsure of the quality of my DNA? Use blastx if you suspect your DNA sequence is the coding for a protein but that it may contain sequencing errors.
5’CCTGCAGATCATCAGAGGAA3’ 5’CCATCGACATGTTGCTGAGA3’
Comparing Two Sequences “Pairwise Alignment”
BLAST Servers around the World Country Program URL USA BLAST/PSI-BLAST www.ncbi.nlm.nih.org/BLAST Europe BLAST www.expasy.ch/tools/blast/ www.ch.embnet.org/software/ bBLAST.html www.ebi.ac.uk/blast Japan www.ddbj.nig.ac.jp/search/ blast-e.html
Multiple Sequence Alignment
Multiple Sequence Alignment Predicting protein structures Central for predicting the function of proteins Indispensible for phylogenetic analysis
ClustalW: everybody uses it MUSCLE: it is very fast Tcoffee: it is very accurate, let you combine sequences and structures http://pir.georgetown.edu/pirwww/search/multialn.shtml
(*) indicates an entirely conserved column (:) indicates all residues have rougly the same size and the same hydropathy (.) indicates columns where the size or the hydrophaty hasbeen preserved in the course of evolution
Multiple Sequence Alignment Resources over the Internet Method Description Address Tcoffee Accurate combination of sequence and structures www.tcoffee.org Probcons A Bayesian version of Tcoffee probcons.stanford.edu/ MUSCLE A fast and acurate sequence cruncher www.drive5.com/muscle/ Kalign A fast sequence aligner msa.cgb.ki.se MAFFT timpani.genome.ad.jp/~mafft/server Dialign Ideal for sequence with local homology Bibiserv.techfak.uni-bielefeld.de/dialign/