MOLEKÜLER VERİLERİN FORMATLANMASI (NEXUS,MEGA,FASTA)

Slides:



Advertisements
Benzer bir sunumlar
Microsoft Access Bu program Microsoft program paketinin içerisinde yer alan; çok büyük miktarlardaki verilerin depolanabileceği veritabanı oluşturmamıza.
Advertisements

MS OFFICE Access 2013.
MOLEKÜLER SİSTEMATİK NEDİR ? NEREDE VE NASIL KULLANILIR?
GENETİK UZAKLIK VE UPGMA YÖNTEMİ
BTEP 203 – İnternet ProgramcIlIğI - I
Temel Bilgisayar Bilimleri Dersi
EST ANLATIM YAPAN DİZİLERİN ANALİZLERİ
Bölüm 2 C Dilinin Temelleri
FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.
Filogenetik analizlerde kullanılan en yaygın metotlar
PARSİMONİ İLKESİ ( SİBEL MUTLU – )
AFLP (Çoğaltılmış Parça Uzunluk Polimorfizimi)
E-SINAV Sistemi Halil Özmen
DNA ve Genetİk Kod Sağlık Slaytları
FİLOGENİYİ BİRLEŞTİREN BİLİM
MAKSİMUM OLASILIK (MAXİMUM LİKELİHOOD)
EMRE SEVİNDİK KONU: ANALİZ ÖNCESİ YAPILMASI GEREKEN İŞLEMLER
Bölüm 2 C Dilinin Temelleri Genel Kavramlar
SUBTRAKTİF MELEZLEME.
İŞLETİM SİSTEMLERİ EYLÜL 2012.
DNA Kadriye Kestigül Rauf Kutalp
Computational Biochemistry
MART 2013 İŞLETİM SİSTEMLERİ.
İnternet Teknolojisi Temel Kavramlar
ADRES DEFTERİMDE NELER VAR?. Arkadaşlarınızın, akrabalarınızın ve tanıdığınız diğer kişilerin adresleri, telefon numaraları, e-posta adresleri vb. bilgilerini.
NÜKLEİK ASİTLER NELERDİR? SEDANUR KARAKAYA 9/E 3004.
ADRES DEFTERİM.
AFLP (Amplified Fragment Lenght Polymorphism)
STiL ŞABLONU (CSS) TEMELLERİ
Gen Klonlama.
Yaşam ağacı: Sınıflandırma ve Filogeni
Microsoft Office Access
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
EYLÜL 2014 İŞLETİM SİSTEMLERİ Bilgisayar Uygulamaları.
Meryem FISTIKÇI. Kendi arşivini oluşturarak kendi “bilgi veritabanına” kolayca erişebilme, tarayabilme, ve erişilen yeni sonuçları kaydedebilme, İşbirliğini.
Amir Esmaeilzadeh Ali Khanjarkhani End Note Web.
İnternet Teknolojisi Temel Kavramlar
Zehra TAŞKIN BBY408 Tıbbi Bilgiye Erişim
BİYOİNFORMATİK.
Microsoft Office Access
Günümüz genomik çağında modern tıp
Saklı Markov Modelleri ve Uygulamaları
KALITIM.
PARSİMONİ METOTLARI Hazırlayan-Sunan : Sedanur SAYILGAN.
• Smith-Waterman Algoritması • BLAST
Biyoinformatik.
Proje Lideri Mehmet Emin VURAL Araştırmacılar : Ahmet KARATAŞ (GAPUTAEM) Necdet AKAY (BDUTAEM) Yrd. Doç. Dr. Selahattin KİRAZ (H.Ü.Z.F.) Doç. Dr. Seyrani.
Temel Bilgi Teknolojilerinin Kullanımı Öğr.Gör. Abdullah ŞENER.
KIRKLARELİ ÜNİVERSİTESİ
UNV13107 TEMEL BİLGİ TEKNOLOJİSİ KULLANIMI. Veri tabanı Bilgisayar ortamında saklanan düzenli verilerdir. Bilgisayar ve ağ ortamındaki bilginin temel.
Bulanık Mantık Tabanlı Uçak Modeli Tespiti
BİYOLOJİK VERİTABANLARINA GİRİŞ
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
Biyomedikal Mühendisliği Biyoinformatik Sunumu
Hesaplama Tabloları (MS For Mac Excel -1) Öğr.Gör. Mehmet Akif Barış.
Bölüm 2 C Dilinin Temelleri Genel Kavramlar Yazım ve Noktalama Kuralları C Kütüphaneleri C Dilindeki Sözcükler Değer Sabitleri Veri Tipleri Değişkenler.
NÜKLEİK ASİTLER RNA
Bölüm 2 C Dilinin Temelleri
BİYOLOJİDE ÖZEL KONULAR
Biyoinformatik.
Kübra ÖZDEMİR A 5.BÖLÜM BİYOİNFORMATİK
BİYOİNFORMATİK.
BİYOİNFORMATİK.
GENETİK MATERYAL DNA ve RNA’dır. DNA nedir? RNA nedir?
Mehmet Fatih KARACA Yrd. Doç. Dr. Salih GÖRGÜNOĞLU
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
Veri Tabanı Temel Kavramlar.
Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel
Bölüm 2 C Dilinin Temelleri
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

MOLEKÜLER VERİLERİN FORMATLANMASI (NEXUS,MEGA,FASTA)

Biyoinformatik, biyolojik bilgilerin yaratılması ve saklanması için veritabanlarının oluşturulmasıdır. Bu konudaki çalışmaların çoğu biyolojik verilerin analizi ile ilgilidir. Artan sayıdaki projelerde biyolojik bilgilerin organizasyonu gerekmektedir. Bu alanda oluşturulan veritabanlarının büyük bir kısmını nükleik asitler oluşturmaktadır

Milyonlarca nükleotidin depolanması ve organizasyonu için veritabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. Biyoinformatik'te nükleotid dizi bilgilerinin organizasyonu ve depolanması görevini üstlenmiş üç kuruluş vardır: Genbankası (GenBank), Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) DNA Japonya veritabanıdır (DDBJ)

Dizi bilgileri veritabanlarında iki formda bulunur; Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb bilgiyi içeren bir tablodan oluşan tam bilgi İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FASTA formatıdır. Accession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir  ve dizi veritabanına ilk kez girildiğinde verilir.

BİYOİNFORMATİKTE KULLANILAN ÖNEMLİ TERİMLER Accession number (GenBank): Bir dizi GenBank’a kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur. Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456). * NT_123456 birleştirilmiş kontigler * NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar) * NP_123456 proteinler * NC_123456 kromozomlar

BLAST: (Basic Local Alignment Search Tool): Aynı yada farklı organizmalar arasında nukleotid yada protein dizisi karşılaştırılması ve benzer bölgelerin araştırılması için kullanılan yüksek hızda bir bilgisayar programı. CDS: Bir nukleotid dizisinin kodonları oluşturan bölgesi yada kodlayan dizi. Conserved Sequence: Bir DNA molekülünde (bir proteindeki Aa dizisinde) evrim süresince değişmeden kalmış olan baz dizisi.

Contig: Bir kromozomun üst üste çakışma gösteren, klonlanmış farklı DNA parçaları grubu. Domain: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası. EST (Expressed Sequence Tag): Bir Cdna molekülünün, bir genin kimliği olarak kullanılabilecek kısa bir parçası. Genlerin konumlanmasından ve haritalanmasında kullanılır. Motif: Protein dizisi içinde kısa, korunmuş bir bölge. Motifler genellikle domainlerin yüksek derecede korunmuş bölgeleridir.

DİZİ FORMATLARI 1. GenBank DNA Dizi Formatı 2. Avrupa Moleküler Biyoloji Laboratuvarı (EMBL ) Veri Kütüphanesi Formatı 3. FASTA Sekans Formatı 4. National Biomedical Research Foundation / Protein Information Resource Sekans Formatı 5. Stanford Üniversitesi / Intelligenetics Sekans Formatı 6. Genetik Bilgisayar Grubu ( GCG ) Sekans Formatı 7. National Biomedical Research Vakfı / Protein Information Resource’dan Elde edilen Sekans Dosyasının Formatı 8. Genetik Veri Çevresi ( GDE ) Sekans Formatı

Gen Bank DNA Dizi Formatı: Girilen her dizinin tanımlayıcı bilgileri verilir. Bu bilgiler her satırda ilk bilgi olarak, her biri bir belirleyici ile birlikte gruplara ayrılmış şekilde yazılır. Örneğin; referans için RF gibi, LOCUS lokusun ismi DEFINITION girişin tanımı ACCESSION orijinal kaynağın accession numarası KEYWORDS bu girişin karşı referanslarının yapılabilmesi için anahtar kelimeler SOURCE DNA’nın elde edildiği organizma

Avrupa Moleküler Biyoloji Laboratuvarı Veri Kütüphanesi Formatı (EMBL) ID veritabanındaki dizi için kimlik numarası AC dizinin başlangıcını gösteren accession number DT girişin ve modifikasyonların tarihi KW anahtar kelimeler OS, OC kaynak organizma

FASTA >AJ867261_Ovis_orientalis CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTA CTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTAACACTCCCCCTCACATCAAA CCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGA GGAGTCCTCGCCCTAATCCTCTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACA TCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA GCCGACCTATTAACACTCACATGAATTGGAGGCCA >DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTA CTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTAACACTCCCCCTCACATCAAA CCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGA TCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA GCTGACCTATTAACACTCACATGAATTGGAGGCCA >DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTA

MEGA #Mega Title: Cytb_Konya sheep.txt #AJ867261_Ovis_orientalis CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTA CTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTAACACTCCCCCTCACATCAAA CCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGA GGAGTCCTCGCCCTAATCCTCTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACA TCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA GCCGACCTATTAACACTCACATGAATTGGAGGCCA #DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTA CTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTAACACTCCCCCTCACATCAAA CCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGA TCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA GCTGACCTATTAACACTCACATGAATTGGAGGCCA #DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTA

NEXUS (1) #NEXUS [TITLE: Cytb_Konya sheep.txt] begin data; dimensions ntax=3 nchar=335; format datatype=DNA missing=N gap=-; matrix AJ867261_Ovis_orientalis CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA ACACTCCCCCTCACATCAAACCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA GCCGACCTATTAACACTCACATGAATTGGAGGCCA DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTACTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTA ACACTCCCCCTCACATCAAACCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA GCTGACCTATTAACACTCACATGAATTGGAGGCCA DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA ; endblock; begin assumptions; options deftype=unord;

NEXUS (2) #NEXUS [TITLE: Cytb_Konya sheep.txt] begin data; dimensions ntax=3 nchar=335; format interleave datatype=DNA missing=N gap=-; matrix AJ867261 Ovis orientalis CTGGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTATTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA DQ097429|OA_MOR12_C CTAGGTGCCATCCTACTGATCCTCATCCTCATGCTACTAGTACTATTTACGCCTGACCTACTCGGAGACCCAGACAACTACACCCCAGCAAATCCACTTA DQ097430_OA_KAR15_C* CTAGGTGCCATCCTACTAATCCTCATCCTCATGCTACTAGTACTATTCACGCCTGACTTACTCGGAGACCCAGACAACTACACCCCAGCAAACCCACTTA AJ867261_Ovis_orientalis ACACTCCCCCTCACATCAAACCTGAATGATACTTCCTATTTGCATACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT ACACTCCCCCTCACATCAAACCTGAGTGATACTTCCTATTTGCGTACGCAATCTTACGATCAATCCCTAATAAACTAGGAGGAGTCCTCGCCCTAATCCT CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGGAGCATAATATTCCGACCAATCAGTCAATGTGTATTCTGAATCCTAGTA CTCAATCCTAGTCCTAGTAATTATACCCCTCCTCCATACATCAAAGCAACGAAGCATAATATTCCGACCAATCAGTCAATGTATATTCTGAATCCTAGTA AJ867261_Ovis_orientalis GCCGACCTATTAACACTCACATGAATTGGAGGCCA DQ097429|OA_MOR12_C GCTGACCTATTAACACTCACATGAATTGGAGGCCA DQ097430_OA_KAR15_C* GCCGACCTATTAACACTCACATGAATTGGAGGCCA ; endblock; begin assumptions; options deftype=unord; endblock

MORFOLOJİ/AFLP/RFLP/RAPD/ISSR/SSR FORMATI Roehl 31445911223 8388324580 64233 DNA FORMATI H_1 GATCTCAAGGC 1 H_2 AGCTCTGGAAT 1 H_3 AACCTCGGAAC 1 MORFOLOJİ/AFLP/RFLP/RAPD/ISSR/SSR FORMATI 1010101010101010101010

BİR DİZİ FORMATINI DİĞERİNE DÖNÜŞTÜRMEK Dizi hizalamaları çeşitli metin-tabanlı dosya formatlarında saklanabilir, bunların çoğu ilk olarak belli bir hizalama programı veya uygulaması ile birlikte geliştirilmiştir. Çoğu Web-temelli araçlar sınırlı sayıda girdi ve çıktı format seçeneği verirler. Örneğin FASTA formatı ve GenBank formatı gibi ve program çıktısı genelde kolayca değiştirilemez. Çeşitli format dönüştürme programları mevcuttur, bunlardan READSEQ ve EMBOSS gibi bazılarının grafik arayüzü veya komut satır arayüzü vardır. Buna karşın BioPerl , BioRuby gibi program paketlerinin buna olanak veren kendi fonksiyonları vardır

Yaygın Olarak Kullanılan Bilgisayar Programları: Programlar hakkında genel bilgiye geçmeden evvel bir konunun altını çizmekte fayda vardır. Genellikle filogenetik alanında çalışan akademisyenler ile bu alanda program geliştirenler ezici çoğunluk ile MAC kullanmaktadırlar. Her ne kadar programların  PC versiyonları mevcut ise de MAC versiyonları her zaman daha ileri ve üst sürümdürler.  Filogenetik ağaçların eldesinde en yaygın kullanılan sadece 3 program hakkında bilgi vereceğiz. Ne var ki bu programların önerdikleri ağaçları bilgisayarınızda görüntülemenizi sağlayan baska bir program daha vardır. Bu da Treeview  programıdır.

1. PAUP (Phylogenetic Analysis Using Parsimony): Florida Eyelet Üniversitesi’nden bir Akademisyen tarafından geliştirilen programın en son 4.0 beta versiyonu piyasaya sürlümüştür. Program ücretsiz değildir. Online olarak ulaşılabilecek oldukça kapsamlı bir elkitabı vardır.  2. PHYLIP: İnternet üzerinden kullanımı ücretsizdir. Parsimony, farklılık matrisleri , maximum likelihood, ve bir çok farklı metodla ağaç eldesine olanak tanımakla klamayıp aynı zamanda değişik bir çok veri tipini kullanabilmektedir(DNA, RNA, Protein, restriksüyon bölgeleri, gen frekansları vs.) . 3. MrBayes: Adından da anlaşılacağı üzere Bayes istatistiği kullanılarak filogenetik ağaç elde etmede kullanılan bilgisayar programıdır. Bu program ücretsiz olarak internetten indirilip kullanılabilmektedir.

PAUP (Phylogenetic Analysis Using Parsimony) Paup bir bilgisayar programı olup parsimoni kriteri altında filogenetik hipotez oluşturmakta kullanılır. Parsimoni metodu bir veri matrisinden çıkarılması muhtemel ağaçları değerlendirerek, minimum uzunluktaki ağaçları bulmaya yarayan bir algoritma ile çalışır. Belli karakter tiplerini kullanarak ağaç oluşturmaya yarayan çeşitli algoritmalar geliştirilmiştir. PAUP programı, bütün bu algoritmaları kapsayan genel bir algoritma ile çalışır. Kullanıcı istediği herhangi bir karakter tipini ya da tiplerini harmanlayarak aynı anda analiz etme seçeneğine sahiptir.

Paup programı kullanılarak elde edilmiş bir filogenetik ağacın Treeview  programındaki görüntüsü

Bir genin DNA dizisi nasıl bulunur?

NEXUS MATRİX Number nexus Takson bloğu Karakter bloğu takson etiketleri vardır. Nexus bir format çeşididir. Nexus’ un formatının özelliği noktalı virgülleri herbirini gösterir ve iki noktalı virgül arasında END yazısı yazılmışsa o bloğun bittiğini gösterir. Nexus formatı kulanılaraak Paup programında filogenetik analiz yapılır ve filogenetik ağaçlar elde edilir. MATRİX Veri matriksinin bittiğinide noktalı virgül sonuna END yazılır.

YARDIMLARINDAN DOLAYI FATİH ÇOŞKUN HOCAMA TEŞEKKÜR EDERİM…  Kaynaklar  www.phlogeny.fr/version2_cgi/data_converter.cgi http://www.ncbi.nlm.nih.gov/ DNA dizilerinin analiz icin nexus formatina cevrimi YARDIMLARINDAN DOLAYI FATİH ÇOŞKUN HOCAMA TEŞEKKÜR EDERİM…

Beni dinlediğiniz için teşekkür ederim  Hazırlayan :AYŞEGÜL ÇAMDERELİ 200920102070 2.ÖĞRETİM B-GRUBU