Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

MOLEKÜLER VERİLERİN FORMATLANMASI (NEXUS,MEGA,FASTA)

Benzer bir sunumlar


... konulu sunumlar: "MOLEKÜLER VERİLERİN FORMATLANMASI (NEXUS,MEGA,FASTA)"— Sunum transkripti:

1 MOLEKÜLER VERİLERİN FORMATLANMASI (NEXUS,MEGA,FASTA)

2 Biyoinformatik, biyolojik bilgilerin yaratılması ve saklanması için veritabanlarının oluşturulmasıdır. Bu konudaki çalışmaların çoğu biyolojik verilerin analizi ile ilgilidir. Artan sayıdaki projelerde biyolojik bilgilerin organizasyonu gerekmektedir. Bu alanda oluşturulan veritabanlarının büyük bir kısmını nükleik asitler oluşturmaktadır

3 Milyonlarca nükleotidin depolanması ve organizasyonu için veritabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. Biyoinformatik'te nükleotid dizi bilgilerinin organizasyonu ve depolanması görevini üstlenmiş üç kuruluş vardır: Genbankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) DNA Japonya veritabanıdır (DDBJ)

4 Dizi bilgileri veritabanlarında iki formda bulunur;
Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb bilgiyi içeren bir tablodan oluşan tam bilgi İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FASTA formatıdır. Accession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir  ve dizi veritabanına ilk kez girildiğinde verilir.

5 BİYOİNFORMATİKTE KULLANILAN ÖNEMLİ TERİMLER
Accession number (GenBank): Bir dizi GenBank’a kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur. Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456). * NT_ birleştirilmiş kontigler * NM_ mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar) * NP_ proteinler * NC_ kromozomlar

6 BLAST: (Basic Local Alignment Search Tool): Aynı yada farklı organizmalar arasında nukleotid yada protein dizisi karşılaştırılması ve benzer bölgelerin araştırılması için kullanılan yüksek hızda bir bilgisayar programı. CDS: Bir nukleotid dizisinin kodonları oluşturan bölgesi yada kodlayan dizi. Conserved Sequence: Bir DNA molekülünde (bir proteindeki Aa dizisinde) evrim süresince değişmeden kalmış olan baz dizisi.

7 Contig: Bir kromozomun üst üste çakışma gösteren, klonlanmış farklı DNA parçaları grubu.
Domain: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası. EST (Expressed Sequence Tag): Bir Cdna molekülünün, bir genin kimliği olarak kullanılabilecek kısa bir parçası. Genlerin konumlanmasından ve haritalanmasında kullanılır. Motif: Protein dizisi içinde kısa, korunmuş bir bölge. Motifler genellikle domainlerin yüksek derecede korunmuş bölgeleridir.

8 DİZİ FORMATLARI 1. GenBank DNA Dizi Formatı
2. Avrupa Moleküler Biyoloji Laboratuvarı (EMBL ) Veri Kütüphanesi Formatı 3. FASTA Sekans Formatı 4. National Biomedical Research Foundation / Protein Information Resource Sekans Formatı 5. Stanford Üniversitesi / Intelligenetics Sekans Formatı 6. Genetik Bilgisayar Grubu ( GCG ) Sekans Formatı 7. National Biomedical Research Vakfı / Protein Information Resource’dan Elde edilen Sekans Dosyasının Formatı 8. Genetik Veri Çevresi ( GDE ) Sekans Formatı

9 Gen Bank DNA Dizi Formatı: Girilen her dizinin tanımlayıcı bilgileri verilir. Bu bilgiler her satırda ilk bilgi olarak, her biri bir belirleyici ile birlikte gruplara ayrılmış şekilde yazılır. Örneğin; referans için RF gibi, LOCUS lokusun ismi DEFINITION girişin tanımı ACCESSION orijinal kaynağın accession numarası KEYWORDS bu girişin karşı referanslarının yapılabilmesi için anahtar kelimeler SOURCE DNA’nın elde edildiği organizma

10 Avrupa Moleküler Biyoloji Laboratuvarı Veri Kütüphanesi Formatı (EMBL)
ID veritabanındaki dizi için kimlik numarası AC dizinin başlangıcını gösteren accession number DT girişin ve modifikasyonların tarihi KW anahtar kelimeler OS, OC kaynak organizma

11 FASTA >AJ867261_Ovis_orientalis
CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTA CTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTAACACTCCCCCTCACATCAAA CCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGA GGAGTCCTCGCCCTAATCCTCTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACA TCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA GCCGACCTATTAACACTCACATGAATTGGAGGCCA >DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTA CTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTAACACTCCCCCTCACATCAAA CCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGA TCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA GCTGACCTATTAACACTCACATGAATTGGAGGCCA >DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTA

12 MEGA #Mega Title: Cytb_Konya sheep.txt #AJ867261_Ovis_orientalis
CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTA CTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTAACACTCCCCCTCACATCAAA CCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGA GGAGTCCTCGCCCTAATCCTCTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACA TCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA GCCGACCTATTAACACTCACATGAATTGGAGGCCA #DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTA CTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTAACACTCCCCCTCACATCAAA CCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGA TCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA GCTGACCTATTAACACTCACATGAATTGGAGGCCA #DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTA

13 NEXUS (1) #NEXUS [TITLE: Cytb_Konya sheep.txt] begin data;
dimensions ntax=3 nchar=335; format datatype=DNA missing=N gap=-; matrix AJ867261_Ovis_orientalis CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA ACACTCCCCCTCACATCAAACCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA GCCGACCTATTAACACTCACATGAATTGGAGGCCA DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTACTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTA ACACTCCCCCTCACATCAAACCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA GCTGACCTATTAACACTCACATGAATTGGAGGCCA DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA ; endblock; begin assumptions; options deftype=unord;

14 NEXUS (2) #NEXUS [TITLE: Cytb_Konya sheep.txt] begin data;
dimensions ntax=3 nchar=335; format interleave datatype=DNA missing=N gap=-; matrix AJ Ovis orientalis CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTACTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTA DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA AJ867261_Ovis_orientalis ACACTCCCCCTCACATCAAACCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT ACACTCCCCCTCACATCAAACCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA AJ867261_Ovis_orientalis GCCGACCTATTAACACTCACATGAATTGGAGGCCA DQ097429|OA_MOR12_C GCTGACCTATTAACACTCACATGAATTGGAGGCCA DQ097430_OA_KAR15_C* GCCGACCTATTAACACTCACATGAATTGGAGGCCA ; endblock; begin assumptions; options deftype=unord; endblock

15 MORFOLOJİ/AFLP/RFLP/RAPD/ISSR/SSR FORMATI
Roehl 64233 DNA FORMATI H_1 GATCTCAAGGC 1 H_2 AGCTCTGGAAT 1 H_3 AACCTCGGAAC 1 MORFOLOJİ/AFLP/RFLP/RAPD/ISSR/SSR FORMATI

16 BİR DİZİ FORMATINI DİĞERİNE DÖNÜŞTÜRMEK
Dizi hizalamaları çeşitli metin-tabanlı dosya formatlarında saklanabilir, bunların çoğu ilk olarak belli bir hizalama programı veya uygulaması ile birlikte geliştirilmiştir. Çoğu Web-temelli araçlar sınırlı sayıda girdi ve çıktı format seçeneği verirler. Örneğin FASTA formatı ve GenBank formatı gibi ve program çıktısı genelde kolayca değiştirilemez. Çeşitli format dönüştürme programları mevcuttur, bunlardan READSEQ ve EMBOSS gibi bazılarının grafik arayüzü veya komut satır arayüzü vardır. Buna karşın BioPerl , BioRuby gibi program paketlerinin buna olanak veren kendi fonksiyonları vardır

17

18

19

20

21 Yaygın Olarak Kullanılan Bilgisayar Programları:
Programlar hakkında genel bilgiye geçmeden evvel bir konunun altını çizmekte fayda vardır. Genellikle filogenetik alanında çalışan akademisyenler ile bu alanda program geliştirenler ezici çoğunluk ile MAC kullanmaktadırlar. Her ne kadar programların  PC versiyonları mevcut ise de MAC versiyonları her zaman daha ileri ve üst sürümdürler.  Filogenetik ağaçların eldesinde en yaygın kullanılan sadece 3 program hakkında bilgi vereceğiz. Ne var ki bu programların önerdikleri ağaçları bilgisayarınızda görüntülemenizi sağlayan baska bir program daha vardır. Bu da Treeview  programıdır.

22 1. PAUP (Phylogenetic Analysis Using Parsimony): Florida Eyelet Üniversitesi’nden bir Akademisyen tarafından geliştirilen programın en son 4.0 beta versiyonu piyasaya sürlümüştür. Program ücretsiz değildir. Online olarak ulaşılabilecek oldukça kapsamlı bir elkitabı vardır.  2. PHYLIP: İnternet üzerinden kullanımı ücretsizdir. Parsimony, farklılık matrisleri , maximum likelihood, ve bir çok farklı metodla ağaç eldesine olanak tanımakla klamayıp aynı zamanda değişik bir çok veri tipini kullanabilmektedir(DNA, RNA, Protein, restriksüyon bölgeleri, gen frekansları vs.) . 3. MrBayes: Adından da anlaşılacağı üzere Bayes istatistiği kullanılarak filogenetik ağaç elde etmede kullanılan bilgisayar programıdır. Bu program ücretsiz olarak internetten indirilip kullanılabilmektedir.

23 PAUP (Phylogenetic Analysis Using Parsimony)
Paup bir bilgisayar programı olup parsimoni kriteri altında filogenetik hipotez oluşturmakta kullanılır. Parsimoni metodu bir veri matrisinden çıkarılması muhtemel ağaçları değerlendirerek, minimum uzunluktaki ağaçları bulmaya yarayan bir algoritma ile çalışır. Belli karakter tiplerini kullanarak ağaç oluşturmaya yarayan çeşitli algoritmalar geliştirilmiştir. PAUP programı, bütün bu algoritmaları kapsayan genel bir algoritma ile çalışır. Kullanıcı istediği herhangi bir karakter tipini ya da tiplerini harmanlayarak aynı anda analiz etme seçeneğine sahiptir.

24 Paup programı kullanılarak elde edilmiş bir filogenetik ağacın Treeview  programındaki görüntüsü

25 Bir genin DNA dizisi nasıl bulunur?

26

27

28

29

30

31

32 NEXUS MATRİX Number nexus Takson bloğu
Karakter bloğu takson etiketleri vardır. Nexus bir format çeşididir. Nexus’ un formatının özelliği noktalı virgülleri herbirini gösterir ve iki noktalı virgül arasında END yazısı yazılmışsa o bloğun bittiğini gösterir. Nexus formatı kulanılaraak Paup programında filogenetik analiz yapılır ve filogenetik ağaçlar elde edilir. MATRİX Veri matriksinin bittiğinide noktalı virgül sonuna END yazılır.

33 YARDIMLARINDAN DOLAYI FATİH ÇOŞKUN HOCAMA TEŞEKKÜR EDERİM…
 Kaynaklar  DNA dizilerinin analiz icin nexus formatina cevrimi YARDIMLARINDAN DOLAYI FATİH ÇOŞKUN HOCAMA TEŞEKKÜR EDERİM…

34 Beni dinlediğiniz için teşekkür ederim 
Hazırlayan :AYŞEGÜL ÇAMDERELİ ÖĞRETİM B-GRUBU


"MOLEKÜLER VERİLERİN FORMATLANMASI (NEXUS,MEGA,FASTA)" indir ppt

Benzer bir sunumlar


Google Reklamları