연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재는 Genome Annotation의 마지막 내용으로 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다.


2-4-3. Professional Curation


 A. 상동성 기반의 Annotation 수정


 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 따라서 이러한 부분은 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거쳐 최종적인 유전체 분석을 수행하게 된다. 분석 가능한 소프트웨어로는 Apollo[2] 와  Pedant-Pro가 있다. Apollo는 오픈 소스로 제공되며, Berkeley Drosophila Project 수행을 위해 Sanger Institute에서 개발하였다.

유전자의 구조 정보를 편집하기 위한 프로그램으로 evidence 데이터의 alignment 정보와 structural annotation 결과 형성된 Consensus Gene Model 정보를 같이 보며 수정 작업을 수행 한다(그림 12).

사용자 삽입 이미지
그림 12. Apollo. Consensus gene model의 정확성을 manually curation 한다. 유전자의 길이, 위치를 직접 편집하면서 가능한 AS form과 유전자 모델을 만들며, 이를 다시 xml혹은 GFF 형태로 저장하여 genome browser에 이용할 수 있도록 하였다.

입력 포맷으로 GFF3, Ensemble, XML 형식이 가능하며 Chado 데이터베이스로부터 직접 데이터를 읽어 들일수도 있다.  또한  삽입(Insertion), 삭제(Deletion), 확장(Extension), 분리(Split), 결합(Merge), 이동 그리고 변환(Replacement) 등 가능한 모든 유연한 편집 모드를 이용하여 유전자의 구조 정보를 편집할 수 있다. 또한 편집 시 필요한 주석 태그를 덧붙일 수 있는 것 또한 장점이라 할 수 있다.

 B. 기능 분석 결과의 수정(functional annotation)


 열 상동성 및 도메인 정보를 통해 분석되어진 유전자의 기능 정보에서 전문가의 분석에 의존하여 알고리즘에 의한 오류를 수정하거나 분석 정보를 편집, 수정할 수 있다. 이전 페이지에서 언급한 Pedant-Pro에서는 이와 같은 전문가의 수정 기능과 수정된 정보의 업데이트 기능을 지원하고 있어서 최종적으로 가장 정확한 유전체 분석 정보를 얻을 수 있다(그림 13). 수치상 상동성이 높은 단백질로 유전자 매핑이 이루어져야 하므로 발현 정보, 도메인 정보 등을 종합하여 단백질의 기능을 수정해야 할 때 이용하게 된다. 이러한 작업은 대부분 생물학적 지식을 갖춘 다수의 전문가들에 의해 진행되게 된다. 따라서 전문가에 의한 기능 분석 수정에 대한 이력 정보를 관리하는 것 또한 중요하다고 할 수 있다.

사용자 삽입 이미지
그림 13. Pedant-pro annotaton edition



다음주 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하는 Bioinformatics Knowledge Management에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/26 09:59 2010/03/26 09:59
, , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/63


연재 순서

   1. Assembly
   2. Variation study
  3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다.

B-3. 유전체 모델의 결합(Gene model merging)


 서 설명한 유전자 예측 프로그램을 통해서 얻어진 Predicted Gene Model(PGM)과 mRNA, EST, 단백질 서열을 유전체에 매핑하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정하여 동일한 위치에서 중복적으로 지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM으로 채택이 된다[3].

 일반적으로 EGM이 PGM 보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA > protein> mRNA > EST 순으로 우선 순위를 배정한다. PGM도 evaluation을 통해 프로그램별 우선순위를 정해주기도 한다. CGM을 만드는 과정은 full-length mRNA를 가장 우선 순위로 채택하되, full-length mRNA가 없을 경우 단백질과 EST, PGM이 제공하는 정보를 통해 complete CGM을 형성한다(그림 5).

사용자 삽입 이미지
그림 5. Consensus Gene Model making


 몇 가지 예시를 통해 대표 되는 유전자 모델 형성 과정을 알아보도록 하자.
첫 번째 full-length mRNA를 통해 얻어진 EGM이 partial 단백질과 ESTs에 의해 공통적으로 exon/intron 정보를 제공 받아 complete CGM을 형성하였다(그림 6의 case1). 다음은 mRNA EGM이 없고 단백질 EGM이 가장 높은 가중치를 갖는 유전자 모델이 되어 EST 가 제공하는 3’ 정보를 통해 complete CGM을 형성한 경우 이다. 이때 EST EGM은 단백질 EGM의 partial 형태로 동일한 exon/intron 구조를 보이고 있다. 세 번째는 mRNA, 단백질 모두 존재하지 않고 partial ESTs EGM 만 존재할 때 EST EGM 하나 하나는 모두 낮은 가중치이나 동일한 위치에서 동일한 exon/intron 구조로 여러 ESTs EGM이 지지하고 있으므로 CGM을 형성할 수 있다. 또한 일정부분 동일한 유전자 구조를 갖는 PGM으로부터 3’ 정보를 제공 받아 complete CGM을 형성하였다. 마지막 네 번째 경우 세 번째 경우와 동일하게 PGM과 EST EGM이 존재하는 가운데 두 gene model이 서로 상이한 exon/intron구조를 보이고 있어 어떠한 CGM도 만들 수 없는 상황을 보여주고 있다. 만약 PGM 만이 존재할 경우라도 여러 프로그램을 통해 얻어진 PGM이 모두 동일한 exon/intron 구조를 갖는다면 CGM을 형성 할 수 있다. 대부분의 genome annotation에서 evidence 데이터를 충분히 갖추고 진행되기란 쉽지 않다. 따라서 종종 Evidenced Gene Model(EGM) 없이 Predicted Gene Model(PGM) 만으로 Consensus Gene Model(CGM)을 만드는 경우가 존재한다.

사용자 삽입 이미지
그림 6. Consensus gene model 만들기

이러한 유전자 모델을 형성하는 프로그램으로는 Tigr에서 공개 소스로 제공하는 EVModeler[9]가 있다. Perl 스크립트로 구성된 프로그램은 GFF3 포맷의 gene model 정보를 입력받아 정해진 gene model별 가중치를 토대로 Consensus Gene Model을 제시한다.
 

C. Alternative splicing analysis


다양한 유전자 모델을 통해 Consensus Gene Model을 형성하고 나면 이후 alternative splicing 분석을 위해 transcripts를 분석한다[12]. mRNA, ESTs, 단백질, NGS reads 서열이 제공하는 다양한 transcripts를 consensus gene model (CGM)에 비교하여 alternative transcript model을 제시 한다. 이후 조직 특이적인 alternative transcripts나 cancer specific alternative transcripts 분석으로 biological meaning에 초점을 두고 분석을 진행하게 된다[3].

사용자 삽입 이미지
그림 7. Alternative splicing 분석



다음 연재에서는 유전자의 기능을 분석하는 방법 중에 먼저 상동성 기반의 Annotation에  대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/19 10:24 2010/03/19 10:24

연재 순서

   1. Assembly
   2. Variation study
  3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 모델을 얻는 과정으로 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다.


B-2. 유전체 정렬(Genome alignment)


 전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것이 mRNA를 비롯한 실제 서열정보이다. 유전체 프로젝트를 수행하면서 Full-length mRNA 시퀀싱을 함께 진행하는 이유라고 할 수 있다. 그 외 단백질과 ESTs 서열도 유전자 구조 정보를 제공하는 좋은 재료이다[11]. 최대한 많은 양의 실제 데이터(evidence data)를 확보하여 유전체 서열과의 유사성(similarity)을 조사하고 그 위치를 파악한다. DNA 서열의 경우 BLAT[13], Sim4[14], GMAP[16], AAT[15]가 주로 이용되고, 단백질 서열의 경우 BLAST와 wise2 package에 존재하는 Genewise[17]를 이용한다. 유전체 서열이 매우 크므로 일차적으로 빠르게 매핑할 수 있는 BLAT이나 BLAST 등으로 대략의 위치를 설정하고 그 외 다른 프로그램을 이용하여 좀 더 정교한 2차 매핑을 수행하는 경우도 있다.

 이때, 서열상의 유사성에 의해 유전자 모델(Evidenced Gene Model)이 결정되므로 HSP length, coverage, identity와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을 만드는 것이 일반적이다. 또한 언급한 대부분의 프로그램은 모두 exon/intron 신호를 인지하며 local alignment을 수행하고 있어 intron이 존재하는 유전체 서열에 매핑 하기에 모두 적절한 프로그램이다.

 특히 genewise의 경우 매핑과 동시에 가능한 유전자 모델을 제시한다. 따라서 유전체 서열과 유연  관계가 가까운 이종의 단백질 서열을 매핑 하여도 좋은 결과를 얻을 수 있다. 다만, 이후 진행되는 consensus gene model을 만들 때 score를 적절히 조절 해야만 한다. 다양한 프로그램을 통해 얻어진 유전자 모델 정보는 모두 동일한 형태의 파일 포맷을 유지하는 것이 좋다. 대부분의 프로그램이 공통적으로 지원하는 파일 형태는 GFF3 포맷이다(그림 4).

사용자 삽입 이미지
그림. 4 GFF3 파일 포맷.
seqld/source(tool name)/type/start/end/score/strand/phase/attributes



다음 연재에서는 앞서 설명한 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다. 많은 관심 부탁드립니다.




참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.


Posted by 人Co

2010/03/17 09:31 2010/03/17 09:31
, , , , , , , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/59