BKL TRANSFAC

 Biobase의 대표적인 제품군인 TRANSFAC은 eukaryotic gene regulation을 분석하기 위한 최적의 기초 데이터를 제공하고 있다. Transcription factors, miRNAs, 그리고 이들과 관련된 유전자의 프로모터 정보를 비롯하여 ChIP-Seq 데이터로부터 1,000,000건 이상의 binding sites 정보, 57,000건 이상의 human RNA polymeraseII의 위치정보를 포함하고  있다. 이들 정보는 모두 실험적으로 증명 되었거나 논문에 게재된 정보를 전문가의 리뷰를 통해 정확하면서도 통합적인 이해를 할 수 있도록 하였다.

 2010년 현재 TRANSFAC®의 데이터베이스는 DNA binding, expression 그리고 regulation에 관련한 전문가의 manual curation을 다음과 같이 수행하였다.

사용자 삽입 이미지

이들 데이터는 실험적으로

  • transcription factor binding site나 혹은 composite elements를 증명하고자       할 때,
  • promoter sequence를 찾고자 할 때
  • miRNA targets을 찾고자 할 때
  • 관심 있는 영역에 binding 가능한 transcription factor를  찾고자 할 때
  • transcription factor들 간의 조절을 알고자 할 때
 실험에 앞서 가능한 factor들의 기초 정보를 제공하게 된다. 따라서 microarray를 통한 유전자 발현 패턴을 분석했다면 동일한 발현 패턴을 보이는 유전자들의 상관관계를 분석하는데 많이 이용되며, 약리 반응이나 신물질의 target을 밝히는 데에도 기초 자료로 인용되고 있다.


TRANSFAC®의 데이터 구성


 TRANSFAC® Professional은 공개된 데이터에 비해 약 4년 정도의 데이터가 업데이트되어 있는 상태로 그 데이터양은 promoter서열이 약 280,000건, 700,000건의 ChIP-chip/-Seq 데이터를 더 포함하고 있다(figure 1).

사용자 삽입 이미지
Figure 1. Public database와 Professional version의 데이터양의 차이


이들의 자세한 내용은 figure 2에서 보여 지는 것과 같이 transcription factor의 서열 정보를 비롯한 binding 가능한 site정보, 도메인정보, regulation 정보를 총체적으로 담고 있다.

사용자 삽입 이미지
Figure 2. Transcription factor feature. Transcription factor의 서열 정보, 종 정보, 조직 정보, 도메인 정보, binding site 정보, interaction protein 정보, regulation정보를 총체적으로 서비스하고 있다.

 GO category정보 및 pathway정보도 가능한 모두 서비스가 되고 있어 세포내 생물학적 기능을 종합적으로 분석하고자 할 때 기초자료로 많은 정보를 주고 있다(figure3).

사용자 삽입 이미지
Figure 3. Transcription factor의 function 정보. Factor간의 interaction정보, pathway 정보, inhibitor 및 activator와 같은 regulation 정보 등을 문헌자료를 통해 데이터베이스화하고 서비스한다.



미지의 서열에 binding 가능한 transcription factor search.


 특정한 발현 패턴을 보이는 유전자의 발현 조절 메커니즘을 분석 하고자 할 때 기본적으로 유전자의 upstream 영역에서 작용하는 transcription factor(TF)를 알아보게 된다. TRNASFAC®은 기본적인 transcription factor 및 binding site에 대한 정보를 제공함과 동시에 미지 서열에 binding 가능한 transcription factor를 예측할 수 있는 MatchTM, PatchTM, 그리고 Catch® 프로그램도 제공하고 있다(Figure 4).

사용자 삽입 이미지
Figure 4. TRANSFAC Professional의 TF search를 위한 PATCH. Pattern match를 통한 미지의 서열에 binding 가능한 TF를 search한다. 이때 false positive를 최소화하기 위해 찾고자 하는 TF의 종 정보를 제한하여 식물 유전자의 경우 식물 데이터베이스를 사용하고 mamalian 유전자의 경우 mamalian 데이터베이스를 사용한다. 또한 특정 찾고자 하는 TF만을 대상으로 할 경우 분석자에 의해 선택된 TF만으로 구성된 프로파일을 제작하여 분석할 수도 있다.


 MatchTM는 TF의 binding site를 matrix로 구성하여 찾는 방법이며, PatchTM는 서열의 pattern match 방법을 이용하여 찾는 방법이다. Catch®는 composite elements를 찾고자 할 때 사용하게 되는데 보통 이들 프로그램을 모두 사용하여 가능한 모든 TF를 찾고 실험에 이용한다. 또한 실험적으로 하나하나 규명할 수도 있으나 유전체 전체 유전자를 대상으로 분석하고자 할 때, 웹으로 운영되는 다음 프로그램에 서열을 하나씩 분석하기는 매우 어려우므로 local 서버나 PC에 설치하여 batch로 서열을 분석할 수도 있다. 이후 얻어진 유전자의 upstream 영역에서 작용하는 TF의 profile정보는 통계적 기법을 통해 유의한 TF를 선별하기도 하고, 데이터베이스화하기도 한다.

또한 얼마 전 덴마크의 CLCBio사와의 협력을 통해 CLCMainWorkbench 혹은 CLCGenomicsWorkbench의 plug-in 기능을 통해 TF정보를 visualization 할 수도  있게 되었다. 따라서 NGS에 의한 RNA-seq 정보 및 유전자 발현정보와 함께 전사조절 ,    메커니즘까지 확대하여 함께 분석할 수 있는 최적의 데이터를 제공하고 있는 것이다.

사용자 삽입 이미지




Posted by Quipu

2010/04/27 14:55 2010/04/27 14:55

[Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application인 Epigenomics 중에 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.

2-3-2. ChIP-seq


 CHIP(chromatin-immunoprecipitation)은 특정 유전체 영역에 binding 하는 히스톤이나 전사 인자(Transcription Factors, TFs)와 같이 특정 DNA서열에 binding 하는 단백질과 genomic fragments를 분리하기 위해 많이 응용 되어 왔다. 이 기술은 빠르게 발전하여 large-scale의 TF-DNA interactions 혹은 chromatin packaging (histone modification을 통한 genomic DNA와의 packaging) 연구에 중심 기술로 자리 잡았다. CHIP-Seq은 기존의 CHIP-chip에서 보여 지던 해상도의 한계와 chip에 올려 진 프로브에 대한 한계를 극복하는 방법으로 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법으로 발전하였다(그림 3). 그 결과 genome wide epigenetic study가 가능하게 되었다.

사용자 삽입 이미지
그림 3. CHIP-Seq을 이용한 단백질 binding site 규명.
Genomic DNA와 특정 단백질의 binding 후 단백질 specific antibody를 이용하여 
분리한다. 이후 단백질을 제거하고 NGS 기술을 이용하여 시퀀싱 한다[5].

 CHIP-seq은 실험적으로 짧은 DNA 절편에 binding하는 특성 때문에 non-specific binding complex의 background 처리가 반드시 필요하다. 이를 해결하기 위해 실험적으로는 antibody 만을 사용한 대조군을 설정하여 비교하는 방법과, 통계학적으로는 주어진 단백질이 주어진 위치에 정확하게 binding 할 확률을 계산하도록 하는 것이다. 이때 genome 전체 서열(g)에 주어진 서열(t)이 정확하게 mapping될 확률은 t/g로 포아송 분포 (poisson distribution) 혹은 negative binomial distribution을 이용하여 추정하게 된다[3].
 이후 consensus binding sequence를 도출하게 되면 이를 데이터베이스로 하여 다른 종의 분석에 이용할 수 있게 된다. 이렇게 TF와 그에 관련된 정보로 전문화 하여 구축된 데이터베이스 중 거의 유일한 곳이 BIOBASETRANSFAC이다(그림4)[6].

사용자 삽입 이미지
그림 4. TRANSFAC.
Transcription factor와 binding site 및 관련
pathway정보를 담고 있는 유일한 TF database.

 TRANSFAC은 genome내의 유전자 upstream 분석에 기초 자료를 제공하여 유전자 조절 메카니즘 분석에 필수적으로 이용되고 있다. 실험적으로 검증된 TF의 정보를 manual curation을 통해 고품질의 데이터를 쌓아가고 있으며, 그간 CHIP-chip 방식의 데이터로 밝혀지던 정보들이 CHIP-seq 방식의 데이터로 전환 되면서 더욱 빠르게 진행되고 있어 이를 이용한 BIOBASE의 데이터베이스 또한 더욱 빠르게 쌓여갈 것으로 예상된다. 뿐만 아니라 이미 human의 경우 모든 유전자의 upstream을 분석하여 binding 가능한 TF를 제공하고 있으며, 이를 이용한 pathway 분석에도 많은 데이터와 분석 프로그램을 제공하고 있다. 그중 TRANSPATH는 affymatrix data를 이용한 발현 분석 시 DEGs의 pathway를 분석하는데 해당 유전자의 upstream에 존재하는 TFs와 관련 pathway를 분석하여 세포내 전체적인 유전자의 기능을 살펴볼 수 있도록 하였다[6].

 이러한 CHIP-Seq은 다양한 플랫폼에서 분석이 가능한 가운데, CLC NGS Cell을 이용하여 assembly를 진행하게 되면 genbank 형식의 ‘.gbk' 파일을 reference로 사용하여 GUI 형태로 유전체 전체의 분포를 확인할 수 있어 데이터 해석의 용이함을 얻을 수 있다(1-2. Assemble 참조). 또한 비슷하게 Illumina의 Genome Analyzer의 경우 ChIP-seq 분석을 통해 얻어진 작은 서열들을 ELAND를 이용하여 유전체에 정렬하게 되고 그 결과는 UCSC genome browser를 통해 유전체 내의 위치와 분포를 확인할 수 있다(그림 5).

사용자 삽입 이미지
그림 5. UCSC genome browser를 통한 TF binding site의 유전체 내 위치 확인.
붉은색으로 정렬된 바는 NGS로 시퀀싱 되어진 reads로
유전체와의 reference assemble를 통해 위치를 확인한다.[4]





다음 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 genome annotation에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13



Posted by Quipu

2010/03/12 08:18 2010/03/12 08:18

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application으로 유전자의 염기서열에는 변화를 주지 않으면서 유전자의 발현 등에 영향을 주어 개체의 차이를 나타내게 하는 현상에 대해 연구하는 Epigenomics의 분석 방법에 대해 알아보겠습니다.

2-3. Epigenomics


 2003년 인간 유전체에 대한 서열해독 이후로, 유전체에 대한 기능적 분석에 연구가 증가하면서, 이른바 post genomics시대가 도래하고 유전체 연구와 함께 이들의 발현과 작용에 대한 연구들이 활발해 지고 있다.  Epigenetics라는 분야는 이러한 흐름을 주도하는 분야로서, 유전되는 DNA서열로만 설명이 불가능한 부분의 해석을 돕고, 보다 발전적인 유전체 연구를 목적으로 진행되고 있다. Epigenetics에서 가장 주요하게 여겨지는 부분은 유전자의 발현으로서, 유전자가 유전체에 존재하지만, 발현여부에 따라 세포내 역할이 달리지고, 달라진 발현양상은 유전물질처럼 후대에게도 영향을 주는 것이다. 이는 기존의 유전체가 답하지 못했던 물음에 실마리를 제공하면서, 유전체를 좀 더 잘 이해하기 위한 수단으로 이용되고 있다[1].

사용자 삽입 이미지
그림 1. DNA methylation에 의한 유전자 발현 및 억제

 Epigenomic study의 연구대상으로 가장 대표되는 것이 DNA-methylation이다. DNA strand에서 CpG island가 있고 이중 cytosine이 5-methyl cytosine으로 modification 되는 현상이다. 이러한 methylation 현상은 유전체 전반에 걸쳐 일어나는 것으로 유전자의 단백질 코딩 영역이나 전사 조절 부위에서 관찰이 되며 이는 곧 유전자의 발현에 관여하게 된다[2]. 대표적인 예로 X-염색체 inactivation을 통한 유전자 dosage 조절이나 발달과정에서 필요한 유전자들의 발현을 성장 시기에 맞춰 선택적으로  조절 하는 것이 이에 해당 한다. 뿐만 아니라 외부의 retro virus나 transposon의 발현 억제와 cancer에 의한 repressor 유전자의 inactivation 기작 역시 DNA methylation을 통해서 이루어지고 있어 질병과 관련하여 유전체 연구에서 중요하게 다뤄지고 있다. 

2-3-1. Methylation Analysis


 Genome methylation을 알아보기 위한 기존의 방법은 Methylation Sensitive Restriction Enzyme (MSRE)을 이용하거나,  살펴보고자 하는 특정 영역에 해당하는 프라이머를 작성하여 PCR을 수행 하는 방법 등이 이용되었다. 그러나 NGS 기술의 발달로 epigenetics 분야의 연구 또한 대량의 functional gene study가 일반화 되어가고 있다. 가장 대중적인 방법은 genomic DNA를 추출하여 bisulfate를 처리한 후에 NGS를 통한 대량 sequencing을 수행하는 것이다(그림 2).

사용자 삽입 이미지
그림 2. Genomic DNA의 bisulfate처리로 methylation 여부를 확인.
Methylation 되어 있지 않은 cytosines은 bisulfite 처리로 uracil로 바뀌게 되고 반면,
methylation 되어 있는 cytosines에는 변화가 없어 genome상의 서열변화로 methylation 여부를 확인한다[3].

시퀀싱 된 NGS reads는 reference assembly를 통해 유전체 내의 전체적인 5-methyl cytosine의 분포를 확인 하는데 이용하게 된다. 이러한 분석은 ABI-SOLiD, Illumina의 Solexa 그리고 Roche 454 모두 가능한 플랫폼이긴 하나 long reads 시퀀싱을 수행하는 Roche 454가 조금 더 유용하게 이용되고 있다[3].

다음 연재에서는  단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.
많은 관심 부탁드립니다.



참고문헌


 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13


Posted by Quipu

2010/03/08 11:26 2010/03/08 11:26


블로그 이미지

Archives

Authors

  1. Quipu

Calendar

«   2010/08   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

Site Stats

Total hits:
15835
Today:
9
Yesterday:
14