BKL TRANSFAC

 Biobase의 대표적인 제품군인 TRANSFAC은 eukaryotic gene regulation을 분석하기 위한 최적의 기초 데이터를 제공하고 있다. Transcription factors, miRNAs, 그리고 이들과 관련된 유전자의 프로모터 정보를 비롯하여 ChIP-Seq 데이터로부터 1,000,000건 이상의 binding sites 정보, 57,000건 이상의 human RNA polymeraseII의 위치정보를 포함하고  있다. 이들 정보는 모두 실험적으로 증명 되었거나 논문에 게재된 정보를 전문가의 리뷰를 통해 정확하면서도 통합적인 이해를 할 수 있도록 하였다.

 2010년 현재 TRANSFAC®의 데이터베이스는 DNA binding, expression 그리고 regulation에 관련한 전문가의 manual curation을 다음과 같이 수행하였다.

사용자 삽입 이미지

이들 데이터는 실험적으로

  • transcription factor binding site나 혹은 composite elements를 증명하고자       할 때,
  • promoter sequence를 찾고자 할 때
  • miRNA targets을 찾고자 할 때
  • 관심 있는 영역에 binding 가능한 transcription factor를  찾고자 할 때
  • transcription factor들 간의 조절을 알고자 할 때
 실험에 앞서 가능한 factor들의 기초 정보를 제공하게 된다. 따라서 microarray를 통한 유전자 발현 패턴을 분석했다면 동일한 발현 패턴을 보이는 유전자들의 상관관계를 분석하는데 많이 이용되며, 약리 반응이나 신물질의 target을 밝히는 데에도 기초 자료로 인용되고 있다.


TRANSFAC®의 데이터 구성


 TRANSFAC® Professional은 공개된 데이터에 비해 약 4년 정도의 데이터가 업데이트되어 있는 상태로 그 데이터양은 promoter서열이 약 280,000건, 700,000건의 ChIP-chip/-Seq 데이터를 더 포함하고 있다(figure 1).

사용자 삽입 이미지
Figure 1. Public database와 Professional version의 데이터양의 차이


이들의 자세한 내용은 figure 2에서 보여 지는 것과 같이 transcription factor의 서열 정보를 비롯한 binding 가능한 site정보, 도메인정보, regulation 정보를 총체적으로 담고 있다.

사용자 삽입 이미지
Figure 2. Transcription factor feature. Transcription factor의 서열 정보, 종 정보, 조직 정보, 도메인 정보, binding site 정보, interaction protein 정보, regulation정보를 총체적으로 서비스하고 있다.

 GO category정보 및 pathway정보도 가능한 모두 서비스가 되고 있어 세포내 생물학적 기능을 종합적으로 분석하고자 할 때 기초자료로 많은 정보를 주고 있다(figure3).

사용자 삽입 이미지
Figure 3. Transcription factor의 function 정보. Factor간의 interaction정보, pathway 정보, inhibitor 및 activator와 같은 regulation 정보 등을 문헌자료를 통해 데이터베이스화하고 서비스한다.



미지의 서열에 binding 가능한 transcription factor search.


 특정한 발현 패턴을 보이는 유전자의 발현 조절 메커니즘을 분석 하고자 할 때 기본적으로 유전자의 upstream 영역에서 작용하는 transcription factor(TF)를 알아보게 된다. TRNASFAC®은 기본적인 transcription factor 및 binding site에 대한 정보를 제공함과 동시에 미지 서열에 binding 가능한 transcription factor를 예측할 수 있는 MatchTM, PatchTM, 그리고 Catch® 프로그램도 제공하고 있다(Figure 4).

사용자 삽입 이미지
Figure 4. TRANSFAC Professional의 TF search를 위한 PATCH. Pattern match를 통한 미지의 서열에 binding 가능한 TF를 search한다. 이때 false positive를 최소화하기 위해 찾고자 하는 TF의 종 정보를 제한하여 식물 유전자의 경우 식물 데이터베이스를 사용하고 mamalian 유전자의 경우 mamalian 데이터베이스를 사용한다. 또한 특정 찾고자 하는 TF만을 대상으로 할 경우 분석자에 의해 선택된 TF만으로 구성된 프로파일을 제작하여 분석할 수도 있다.


 MatchTM는 TF의 binding site를 matrix로 구성하여 찾는 방법이며, PatchTM는 서열의 pattern match 방법을 이용하여 찾는 방법이다. Catch®는 composite elements를 찾고자 할 때 사용하게 되는데 보통 이들 프로그램을 모두 사용하여 가능한 모든 TF를 찾고 실험에 이용한다. 또한 실험적으로 하나하나 규명할 수도 있으나 유전체 전체 유전자를 대상으로 분석하고자 할 때, 웹으로 운영되는 다음 프로그램에 서열을 하나씩 분석하기는 매우 어려우므로 local 서버나 PC에 설치하여 batch로 서열을 분석할 수도 있다. 이후 얻어진 유전자의 upstream 영역에서 작용하는 TF의 profile정보는 통계적 기법을 통해 유의한 TF를 선별하기도 하고, 데이터베이스화하기도 한다.

또한 얼마 전 덴마크의 CLCBio사와의 협력을 통해 CLCMainWorkbench 혹은 CLCGenomicsWorkbench의 plug-in 기능을 통해 TF정보를 visualization 할 수도  있게 되었다. 따라서 NGS에 의한 RNA-seq 정보 및 유전자 발현정보와 함께 전사조절 ,    메커니즘까지 확대하여 함께 분석할 수 있는 최적의 데이터를 제공하고 있는 것이다.

사용자 삽입 이미지




Posted by Quipu

2010/04/27 14:55 2010/04/27 14:55

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by Quipu

2010/04/19 15:07 2010/04/19 15:07

지난 3월 11일, (주)인실리코젠CLC bio사, 그리고 서울대학교 식물유전체육종연구소와의 NGS 데이터 분석을 위한 기술적인 정보 교환과 공동 연구 개발 및 컨설팅을 위한 프로모션 등의 내용에 대하여 MOU를 체결하였습니다.

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 서울대학교 식물유전체육종연구소의 소장님이신 고희종 교수님, CLC bio사의 아시아 마케 총괄 담당을 맡은 Wayne Hsu가 CEO인 Thomas Knudsen를 대신하여 참석하였으며, Next Generation Sequencing 기술을 바탕으로 한 식물의 게놈 분석을 위하여 그 동안 수행했던 프로젝트의 다양한 경험들과 기술적인 능력들을 공유하기로 동의하였습니다.

사용자 삽입 이미지
왼쪽부터 CLC bio사의 Wayne Hsu, 서울대학교 고희종 교수님, (주)인실리코젠의 최남우 대표이사님


서울대학교 식물유전체육종연구소는 막대한 양의 NGS genome 데이터 분석에 중요한 기술적인 문제를 해결할 수 있는 강력한 파트너들을 갖게 됨으로서, CLC bio사의 NGS 데이터 분석을 위한 생물적보학 솔루션과 (주)인실리코젠의 고품질의 컨설팅 서비스를 모두 지원 받을 수 있게 되었고 또한 국내에서 뿐만 아니라 국제적으로 생물정보학과 식물 과학 분야에서 중요한 경쟁력을 갖게 될 것으로 생각됩니다.


사용자 삽입 이미지
이번 MOU 행사는 한국과 아시아의 NGS를 이용한 유전체 연구에 새로운 장을 마련한 것으로, (주)인실리코젠CLC bio사서울대학교의 NGS 분석 관련한 프로젝트를 성공시키는데 최선의 지원을 해줄 것을 약속하였습니다.



Posted by Quipu

2010/04/12 17:52 2010/04/12 17:52

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
  5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis



이번 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

3-5. Centralization for High-throughput Data Analysis


 최근 들어 분석하고자 하는 데이터의 용량이 기하급수적으로 늘어남에 따라 데스크탑 컴퓨터 사양으로 분석하기가 어려워지고 있다. 따라서 생물정보 전문가들의 도움이 많이 요구되지만, 한 두 명의 생물정보 전문가들이 처리하기에는 분석하고자 하는 데이터가 급격하게 증가되고 이를 활용한 연구 분야가 다양하여 대규모의 생물정보 전문가를 가용하고 있는 센터가 아닌 곳에서 모든 분석을 지원하는 것은 쉽지가 않다. 또한 유전체 분석과 같은 대규모 프로젝트가 컨소시엄 형식으로 수행되고 있는 상황에서는 다른 연구팀과의 상호 협조를 통한 공동 연구가 중요하며, 이를 위한 데이터의 공유와 관리도 중요시되고 있다. 따라서 연구자들이 공동으로 데이터를 업데이트하거나 다운로드할 수 있는 데이터베이스와 대규모의 용량을 분석할 수 있는 서버, 그리고 서버에서 분석한 결과를 개별 컴퓨터에서 확인할 수 있는 시스템의 유기적인 관계가 요구된다. 하지만 생물데이터의 형식과 이를 분석하는 프로그램의 종류가 다양하므로 데이터의 공유와 관리, 그리고 분석 프로그램의 연계가 상당히 복잡하다.

 대다수의 생물학자들이 윈도우 운영체제의 컴퓨터를 사용하고 있으며 Vector NTI, DNA Star와 같은 생물데이터를 분석하는 상용화 프로그램을 많이 이용하고 있다. 하지만 이런 상용화 소프트웨어는 윈도우에서만 사용가능하며, 분석하는 데이터의 용량 및 길이에 제한을 두고있으므로, 대규모의 데이터를 분석하는 것은 적절하지 않다.

 CLC bio사에서는 대규모의 NGS 데이터 및 대규모의 데이터를 서버에서 분석할 수 있는 CLC Genomics Server(그림 11)와 데스크탑 컴퓨터에서 결과를 확인하고 Vector NTI, DNA Star와 같은 다양한 분석 프로그램에서 나온 결과 데이터를 사용할 수 있는 CLC Genomics Workbench를 개발하였다.

사용자 삽입 이미지
그림 11. Genomics Server 시스템 아키텍처

 CLC Genomics Workbench에서 CLC Genomics Server에 NGS 데이터 및 대규모 분석 데이터를 업데이트하고 분석을 수행한 뒤 CLC Genomic Server에서 분석되어진 결과를 CLC Genomics Workbench에서 확인할 수 있는 플러그인이 있다. 이를 활용하면 대규모 리소스를 필요로 하는 데이터의 분석과 데스크탑 컴퓨터에서 가능한 데이터 분석을 구분하여 연구 업무의 효율성을 증대시킬 수 있다. 또한 윈도우, 리눅스, 매킨토시 등 운영체제에 관계없이 설치가 가능하기 때문에 다양한 운영체제에서 데이터를 분석하는 연구자들이 분석결과를 공유할 수 있다. 대부분의 상용화 프로그램은 연구자들이 원하는 분석 알고리즘이 없을 경우 이후 버전의 업그레이드 내용을 기다리거나, 다른 프로그램을 이용하여 분석할 수밖에 없으므로 분석의 일관성을 유지하기 어렵고, 번거로움이 가증되었다.

 하지만, CLC Genomics Server에서는 External Application 플러그인을 적용하여 CLC Genomics Workbench에 설치되어 있지 않는 알고리즘 및 분석법을 커맨드라인 방식으로 설치한 후 간단한 설정을 통해 별도의 인터페이스를 만들지 않더라도 CLC Genomics Workbench에서 데이터의 입력과 출력을 수행할 수 있으며, 분석 결과를 다른 분석에 응용할 수 있다.

 그림 12는 CLC Genomics Server에서 external application 모듈을 설정하는 것을 보이고 있으며, 그림 13은 external application을 통해서 구축한 새로운 모듈을 이용하여 분석하는 화면을 보이고 있다. 이와 같이 서버급에서 분석할 수 있는 시스템과 데스크탑 컴퓨터에서 분석할 수 있는 프로그램의 연계를 통해서 생물학자들이 복잡하고 다양한 데이터를 분석하는데 많은 도움을 줄 수 있을 것이다.

사용자 삽입 이미지
그림 12. External Application of CLC Genomics Server. 자주 사용되는 커맨드라인 방식의 프로그램은 CLC Genomics Server의 External Application 설정을 통해 별도의 인터페이스를 만들지 않고 CLC Genomics Workbench에서 수행할 수 있다. 이를 이용하여 사용자에 맞춰진 workbench로 재구성할 수 있다.

사용자 삽입 이미지
그림 13. CLC Genomics Workbench 플러그인 적용. External application 플러그인으로 구축된 새로운 모듈은 CLC Genomics Workbench에서 분석이 가능하다.






저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 이 소식지를 통하여 빠르게 발전하는 NGS 시대에 다양한 변화를 습득하고 하시는 연구에 조금이나마 도움이 되길 바라면서 지난 2월부터 약 2개월에 걸쳐 저희 회사 블로그 Quipu(http://www.insilicogen.com/blog/)를 통해 연재를 진행하였습니다. 지난 2개월 동안 최신 생물정보학관련 연구 동향에 대한 기술 소식지 블로그 연재에 많은 관심 가져주셔서 진심으로 감사드리며 저희 (주)인실리코젠은 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.


(주)인실리코젠 Codes팀 배상
Tel: 031-278-0061 / E-mail: codes@insilicogen.com



Posted by Quipu

2010/04/09 09:42 2010/04/09 09:42

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.


3-4. Gene Network Discovery by Text-mining


 최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수  십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.
 
보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

사용자 삽입 이미지
그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

사용자 삽입 이미지
그림 8. Pathway Studio workflow diagram


그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내  프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

사용자 삽입 이미지
그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인


그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.


사용자 삽입 이미지
그림 10. MedScan을 통한 문헌정보의 네트워크 구성


다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


Posted by Quipu

2010/04/05 15:44 2010/04/05 15:44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.



3-3. Semantic Network for Integrated Biology Data

 
 여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

사용자 삽입 이미지
그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

사용자 삽입 이미지
그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

사용자 삽입 이미지
그림 4. Object와 Relation에 대한 개략적인 데이터 모델


그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

사용자 삽입 이미지
그림 5. BioXM 데이터 모델링 구현


BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

사용자 삽입 이미지
암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

사용자 삽입 이미지
사용자 삽입 이미지
그림 6. BioXM 시스템을 이용한 지식 네비게이션


다음 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.



Posted by Quipu

2010/04/01 15:00 2010/04/01 15:00


블로그 이미지

Archives

Authors

  1. Quipu

Calendar

«   2010/04   »
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

Site Stats

Total hits:
15835
Today:
9
Yesterday:
14