• Smith-Waterman Algoritması • BLAST

Slides:

Advertisements

Benzer bir sunumlar

BENZETİM Prof.Dr.Berna Dengiz 10. Ders.

Advertisements

FEN BİLİMLERİ ENSTİTÜSÜ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Ayrık Yapılar Algoritma Analizi.

MIT503 Veri Yapıları ve algoritmalar

Uzaktan eğitim için çalışma rehberleri hazırlanması

IT503 Veri Yapıları ve algoritmalar

GENETİK UZAKLIK VE UPGMA YÖNTEMİ

Bilgisayar Programlama Güz 2011

AES (Advanced Encryption Standart)

MIT503 Veri Yapıları ve algoritmalar Algoritma Oluşturma – Açgözlü algoritmalar ve buluşsallar Y. Doç. Yuriy Mishchenko.

SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)

Öğr.Gör. Dr. Şirin KARADENİZ

(Data Encryption Standard) Şifreleme Algoritması

SİMETRİK ŞİFRELEME SİSTEMLERİ VE ÖZELLİKLERİ

EST ANLATIM YAPAN DİZİLERİN ANALİZLERİ

Filogenetik analizlerde kullanılan en yaygın metotlar

Grup ilkesinin yerel düzenleyicisi Microsoft Windows XP' de, kullanıcı ve bilgisayar grupları için kullanıcı ve bilgisayar yapılandırmaları tanımlamak.

ÖLÇME ARACINDA BULUNMASI GEREKEN NİTELİKLER

Bellek Yönetimi.

Bölüm 8: EĞRİ UYDURMA Fizikte laboratuarda yapılan deneysel ölçümlerin ne kadar hata payı içerdiğini, veya belli teorik modellere ne kadar uyduğunu bilmek.

MAKSİMUM OLASILIK (MAXİMUM LİKELİHOOD)

Diziler(Arrays).

NESNELER ARASINDAKİ UZAYSAL İLİŞKİLER ÜZERİNE BİR UYGULAMA

OPENCV İLE STEREO GÖRÜNTÜLERDEN DERİNLİK KESTİRİMİ

VERİ TABANI VE YÖNETİM SİSTEMLERİ  Birincil Anahtar Türleri  Access Veri Tabanında Bulunan İlişkiler  İlişkileri Tanımlama Bir – Çok İlişkisi Çok –

Prof. Dr. Turgay ONARGAN Prof. Dr. C. Okay AKSOY MTS 3022 TÜNEL AÇMA

Nesneye Yönelik Programlama

Bilimsel Bir Makale Nasıl Yazılır ve Yayımlanır Robert A

Prof. Dr. Turgay ONARGAN Prof. Dr. C. Okay AKSOY

Bilimsel Araştırma Yöntemleri

BM-103 Programlamaya Giriş Güz 2014 (9. Sunu)

Lineer Cebir Prof.Dr.Şaban EREN

Test : 2 Konu: Rasyonel Sayılar

PROGRAMLAMA DİLLERİNE GİRİŞ Ders 4: Diziler

AES S Kutusuna Benzer S Kutuları Üreten Simülatör

Meta Analizinde Son Gelişmeler

Saklı Markov Modelleri ve Uygulamaları

ARAŞTIRMA TÜRLERİ.

ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.

Bölümün Amacı Bu bölüm, yöneticilerin uluslararası çevre için örgütleri nasıl tasarladığını keşfediyor. Bölüme, öncelikle, küresel büyümeyi harekete.

1 / 19 © TEMEL BİLGİSAYAR BİLİMLERİ – ELEKTRONİK TABLO- I Ünite 4 Elektronik Tablo – I (Microsoft Excel) Konya, 2012 Temel Bilgisayar Bilimleri Dersi.

UNV13107 TEMEL BİLGİ TEKNOLOJİSİ KULLANIMI. Veri tabanı Bilgisayar ortamında saklanan düzenli verilerdir. Bilgisayar ve ağ ortamındaki bilginin temel.

BİYOLOJİK VERİTABANLARINA GİRİŞ

Biyomedikal Mühendisliği Biyoinformatik Sunumu

FAT VE NTFS DOSYA YAPISI

Soru bankası yazılımı:

İNSAN BİLGİSAYAR ETKİLEŞİMİ: BİLİŞSEL BOYUT IV. İnsan beyninde kısa süreli ve uzun süreli olmak üzere iki tane bellek merkezi vardır. Kullanıcılar, internet.

BİLGİSAYAR PROGRAMLAMA Araş. Gör. Ahmet ARDAHANLI Kafkas Üniversitesi Mühendislik Fakültesi.

Konu : WİNDOWSTA VERİ DEPOLAMA YÖNTEMLERİ Hazırlayan : Güray Mantar

BİLGİSAYAR PROGRAMLAMA DERSİ 6. DERS NOTU Konu: Matlab’ de Diziler ve Matrisler.

Fonksiyonlar ve Diziler

BİLGİSAYAR PROGRAMLAMA Ders 6: Diziler

Akademik Kütüphaneler için Basit Arama Kullanım Kılavuzu

Bellek Yönetimi(Memory management)

Karar Ağaçları (Decision trees)

Algoritmalar II Ders 13 Çizgelerde tüm ikililer arasında en kısa yollar.

Algoritmalar II Ders 1: Alan zaman takası yöntemi.

9. Ders Tüm ikililer arasında en kısa yollar

Mustafa Teke, Alptekin Temizel Enformatik Enstitüsü , ODTÜ

Test Oluşturma.

Biyoinformatik.

Kübra ÖZDEMİR A 5.BÖLÜM BİYOİNFORMATİK

Yazılım Mühendisliği Temel Süreçler – PLANLAMA II

Veri Tabanı Temel Kavramlar.

GÖRÜŞME İLKE VE TEKNİKLERİ Sağlık Bilimleri Fakültesi

Algoritmalar II Ders 3 Dinamik Programlama Yöntemi.

Sunum transkripti:

• Smith-Waterman Algoritması • BLAST

Smith-Waterman Hizalama Algoritması Algoritma Temel Özellikleri: Kullanılan dinamik programlama Hesaplanan puanlama matrisi Boşluklar için Penaltılar: Daha fazla boşluklar ile bir hizalama daha az boşluk ile hizalanmış bir sekanstan daha iyidir. Gap Penaltılar: * Bu iki hizalamaların aynı puanı var, fakat ilk hizalama önemlidir. (yani daha az boşluklar vardır) ATCG AT-CG ATTG ATT-G * Giriş Boşluklarını aza indirmek için cezalar (penaltılar) ekle * İki çeşit Gap Cezaları (Penaltıları) vardır. Gap açıklığı (GO): Başlangıçta boşluk açıldığında değerlendirilen Gap uzama (GE): Bir boşluk birbirini izleyen uzantısı ile değerlendirildiğinde GO ve GE hizada boşlukları sokulması için istenilen duyarlılığı bağlı olarak seçilebilir ya da 3 boyutlu yapısal hatları tahmin edilebilir.

Gap Cezaları (Penaltıları): Örnek Boşluk açıklığı (GO) ceza = -2 ve boşluk uzatma (GE) penaltı varsayalım = -1 C-T ikame cezası varsayalım = -1 Eşleşme için Puan = 1 Bu gruplaşmada __ bir yüksek puan var hangisi “daha iyi“ ? AT-C-TA ATC--TA AT-C--TA ATTTTTA ATTTTTA ATT-TTTA 4 uyumlu, 1 uyumsuz, 4 uyumlu, 1 uyumsuz, 4 uyumlu 2 gap açıklığı (GO) 1 GO, 1 GE, 3 GO, 1 GE Sonuç = +4-1-2-2 Sonuç = +4-1-2-1 Sonuç = +4-2-2-2-1 Sonuç = -1 Sonuç = 0 Sonuç = -3

Uyum Anlamı ve Terminoloji Bir hizalama puanı göz önüne alındığında, ne zaman önemlidir? Bazı durumlarda, bu homolog olduğu bilinen sekanslar deneysel testler ile belirlenebilir Yüksek hizalama puanı" dizileri ortak bir atadan evrimleştiği düşünülmektedir. "Düşük hizalama puanı", sadece bir bilginin eksikliği karşıt anlamına gelmez.

Terminoloji: . Dizi Kimliği: Toplam dizi uzunluğuna bölünmesiyle kesin eşleşmelerin sayısı (% ID) . Benzerlik: "benzer" amino asitler (% benzerlik) için verilen kısmi skor - kullanılan puanlama matrisine bağlıdır. . Homoloji : İki dizileri ortak bir ata dizisi ya da ortak bir atadan yok (Yok% homoloji)

BLAST Amacı Nedir? Bir proteini yada DNA dizilerinin, bir protein yada DNA veri tabanlarında karşılaştırılmasını sağlar. BLAST veritabanındaki tüm homolog dizileri alır

Neden BLAST Gereklidir? Teorik olarak, bir veri tabanında bulunan, bir sorgulama dizisi ve her bir proteini ya da DNA dizisi arasında küresel bir hizalama gerçekleştirebilir Bu tür yaklaşımların hesaplamaları son derece yoğun olacağından çoğu amaçlar için pratik değildir. BLAST buluşsal bu yöntemlere yakındır. BLAST siparişleri ise daha hızlı diğer sezgisel yöntemlere göre daha büyüklükte. BLAST diğer sezgisel yöntemlere göre ayrıca daha hassas ve seçicidir. BLAST dezavantajları: Bir miktar homoloji ilişkileri kaçırır Optimal uyum garanti etmez

BLAST Nasıl Çalışır? Sezgisel Üç Adım: Yüksek puanlama kelimelerin bir listesini derlemek Hit olarak adlandırılan bu kelimelerin örnekleri için veritabanı tarama Rastgele anlamlı hitleri ayırt etmek ve uzatmak

BLAST: Terminoloji Kompozisyon Kompozisyon Karmaşıklık Belirli bir sıra ile Alfabe kullanım ölçüsü Kompozisyon Karmaşıklık Bir dizinin bilgi içeriği bir ölçüsüdür Düşük Karmaşıklık Yüksek Karmaşıklık AGAAGAGGGAA TGHIGAVRLAC

Boşluksuz vs Boşluklu Hizalama: Boşluksuz: VHREMAARTSPLRPLVATAGPALSPVPP ASRDPVARTSPLQTPAAPGAAAGPALSP Boşluklu: VATAGPALSPVPPCVHLTLRRAGDDFSR VIPMAA--------------------VKQALREAGDE

E-Değerleri Skorlar her yüksek puanlama sırası çifti için BLAST tarafından bildirilen (HSP) e-değerleri olarak Tesadüfen beklenen skor S ile e-değerleri HSP sayısına yaklaştığı kabul edilir. (yani ilgili değildir) Düşük karmaşıklık dizilerinin filtrelemesi devre dışıysa, E-değerleri anormal yüksek olacak.

E(S) = Kmne¯ʎS E-değerleri aşağıdaki formül kullanılarak hesaplanır: K = Sabit (Uyumlu başlama noktaları için mümkün olmayan bağımsızlık için düzeltme ) m = Veri tabanında bulunan dizilerin toplam uzunluğu n = Soru sekansının uzunluğu ʎ = Sabit ölçekleme S = Yüksek skorlu dizi çiftinin skoru (HSP)

BLAST Çalıştırma Seçenekler: Düşük karmaşıklık filtresi Beklemek Bu dizileri hizalamak X adı ile olmaz -- uzantıları yerini alır düşük karmaşıklık dizisi ile uzanır. Limite göre sorgu girme Veritabanı dize sorgu sonuçlarına karşı sorgu BLAST olacak Beklemek E-değeri kesilen HSP'leri bildirdiği için Kelime boyutunu Kullanıcı look-up tablosu için kelime boyutunu tanımlamak için izin verir Proteinler için, varsayılan 3'tür. 2 düşürücü duyarlılığını artırmak , aynı zamanda çalışma süresini artıracak Matrix İkame matrisi seçin puanlama için kullanılacak Boşluk maliyetleri Boşluk açma ve genişletme cezaları seçin

Blast Arama İpuçları Başlangıçta BLOSUM62 ve varsayılan boşluk cezaları kullanmak Anlamlı sonuçlar, BLOSUM30 ve alt boşluk cezaları kullanırsanız Tipik 0.0001 BLAST E-değer sınır değeri kullanın Uzun dizilerinin isabetine dikkat edin veya sıradışı dizisi bileşim ile isabet edin. (AQQQQQQQQQRQQG, etc) DNA için, 1000 baz bölümler halinde BLAST bireysel dizisini bölmek Proteinler için, 300 amino asit dizisini parça halinde, ayrıca segmenti çapında bilinen motiflere bölmek Sınırlı sorgu bölgesini kullanarak sınırda öneme sonuçlarını yeniden değerlendirmek