BKL TRANSFAC

 Biobase의 대표적인 제품군인 TRANSFAC은 eukaryotic gene regulation을 분석하기 위한 최적의 기초 데이터를 제공하고 있다. Transcription factors, miRNAs, 그리고 이들과 관련된 유전자의 프로모터 정보를 비롯하여 ChIP-Seq 데이터로부터 1,000,000건 이상의 binding sites 정보, 57,000건 이상의 human RNA polymeraseII의 위치정보를 포함하고  있다. 이들 정보는 모두 실험적으로 증명 되었거나 논문에 게재된 정보를 전문가의 리뷰를 통해 정확하면서도 통합적인 이해를 할 수 있도록 하였다.

 2010년 현재 TRANSFAC®의 데이터베이스는 DNA binding, expression 그리고 regulation에 관련한 전문가의 manual curation을 다음과 같이 수행하였다.

사용자 삽입 이미지

이들 데이터는 실험적으로

  • transcription factor binding site나 혹은 composite elements를 증명하고자       할 때,
  • promoter sequence를 찾고자 할 때
  • miRNA targets을 찾고자 할 때
  • 관심 있는 영역에 binding 가능한 transcription factor를  찾고자 할 때
  • transcription factor들 간의 조절을 알고자 할 때
 실험에 앞서 가능한 factor들의 기초 정보를 제공하게 된다. 따라서 microarray를 통한 유전자 발현 패턴을 분석했다면 동일한 발현 패턴을 보이는 유전자들의 상관관계를 분석하는데 많이 이용되며, 약리 반응이나 신물질의 target을 밝히는 데에도 기초 자료로 인용되고 있다.


TRANSFAC®의 데이터 구성


 TRANSFAC® Professional은 공개된 데이터에 비해 약 4년 정도의 데이터가 업데이트되어 있는 상태로 그 데이터양은 promoter서열이 약 280,000건, 700,000건의 ChIP-chip/-Seq 데이터를 더 포함하고 있다(figure 1).

사용자 삽입 이미지
Figure 1. Public database와 Professional version의 데이터양의 차이


이들의 자세한 내용은 figure 2에서 보여 지는 것과 같이 transcription factor의 서열 정보를 비롯한 binding 가능한 site정보, 도메인정보, regulation 정보를 총체적으로 담고 있다.

사용자 삽입 이미지
Figure 2. Transcription factor feature. Transcription factor의 서열 정보, 종 정보, 조직 정보, 도메인 정보, binding site 정보, interaction protein 정보, regulation정보를 총체적으로 서비스하고 있다.

 GO category정보 및 pathway정보도 가능한 모두 서비스가 되고 있어 세포내 생물학적 기능을 종합적으로 분석하고자 할 때 기초자료로 많은 정보를 주고 있다(figure3).

사용자 삽입 이미지
Figure 3. Transcription factor의 function 정보. Factor간의 interaction정보, pathway 정보, inhibitor 및 activator와 같은 regulation 정보 등을 문헌자료를 통해 데이터베이스화하고 서비스한다.



미지의 서열에 binding 가능한 transcription factor search.


 특정한 발현 패턴을 보이는 유전자의 발현 조절 메커니즘을 분석 하고자 할 때 기본적으로 유전자의 upstream 영역에서 작용하는 transcription factor(TF)를 알아보게 된다. TRNASFAC®은 기본적인 transcription factor 및 binding site에 대한 정보를 제공함과 동시에 미지 서열에 binding 가능한 transcription factor를 예측할 수 있는 MatchTM, PatchTM, 그리고 Catch® 프로그램도 제공하고 있다(Figure 4).

사용자 삽입 이미지
Figure 4. TRANSFAC Professional의 TF search를 위한 PATCH. Pattern match를 통한 미지의 서열에 binding 가능한 TF를 search한다. 이때 false positive를 최소화하기 위해 찾고자 하는 TF의 종 정보를 제한하여 식물 유전자의 경우 식물 데이터베이스를 사용하고 mamalian 유전자의 경우 mamalian 데이터베이스를 사용한다. 또한 특정 찾고자 하는 TF만을 대상으로 할 경우 분석자에 의해 선택된 TF만으로 구성된 프로파일을 제작하여 분석할 수도 있다.


 MatchTM는 TF의 binding site를 matrix로 구성하여 찾는 방법이며, PatchTM는 서열의 pattern match 방법을 이용하여 찾는 방법이다. Catch®는 composite elements를 찾고자 할 때 사용하게 되는데 보통 이들 프로그램을 모두 사용하여 가능한 모든 TF를 찾고 실험에 이용한다. 또한 실험적으로 하나하나 규명할 수도 있으나 유전체 전체 유전자를 대상으로 분석하고자 할 때, 웹으로 운영되는 다음 프로그램에 서열을 하나씩 분석하기는 매우 어려우므로 local 서버나 PC에 설치하여 batch로 서열을 분석할 수도 있다. 이후 얻어진 유전자의 upstream 영역에서 작용하는 TF의 profile정보는 통계적 기법을 통해 유의한 TF를 선별하기도 하고, 데이터베이스화하기도 한다.

또한 얼마 전 덴마크의 CLCBio사와의 협력을 통해 CLCMainWorkbench 혹은 CLCGenomicsWorkbench의 plug-in 기능을 통해 TF정보를 visualization 할 수도  있게 되었다. 따라서 NGS에 의한 RNA-seq 정보 및 유전자 발현정보와 함께 전사조절 ,    메커니즘까지 확대하여 함께 분석할 수 있는 최적의 데이터를 제공하고 있는 것이다.

사용자 삽입 이미지




Posted by 人Co

2010/04/27 14:55 2010/04/27 14:55

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by 人Co

2010/04/19 15:07 2010/04/19 15:07