대한환경위해성보건과학회 워크샵과 함께한 단합대회


 지난 7월 2일~3일, (주)인실리코젠 임직원 모두는 대전 신협 중앙연수원에서 열린 차세대환경보건 및 첨단 위해성 교육프로그램 - 과학자의 열정과 미래 2010에 다녀왔습니다. 본사가 있는 수원에서 대전까지 폭우가 내리는 궂은 날씨 속에 짧지 않은 거리를 이동하여 대전에 도착하였습니다. 학회 일정은 대전 현충원에 잠들어 있는 천안함(天安艦) 용사와 故 한 주호 준위 묘소 참배로 시작되었습니다.

사용자 삽입 이미지
오전에는 성원간 단합을 다지고 협동심을 기르기 위한 체육활동이 있었습니다. 비가 많이 내리는 날씨에도 불구하고 (주)인실리코젠 임직원 모두는 함께 뛰고 함께 즐기고 서로 격려하면서 축구 경기를 하였습니다. 점심식사 후에는 Summer Brain Storm : 과학자의 열정과 미래 - 2010라는 주제로 세미나가 진행되었습니다. 연사들의 말 한 마디 한 마디가 깊은 감동으로 다가왔고 과학자의 열정과 미래라는 주제는 앞으로의 인실리코젠의 미래에 대해 생각해 볼 수 있는 뜻깊은 시간이었습니다.

사용자 삽입 이미지
학회 일정을 마치고 숙소로 돌아온 우리는 잠깐의 휴식을 취하고 각 조별로 준비한 독서경영토론 페차쿠차 발표를 진행하였습니다. 폐차쿠차 발표는 작년 워크샵 이후 두번째 갖는 시간으로 8장의 슬라이드를 20초씩 발표하는 발표 형식입니다. 이번 발표의 주제는 경영의 마음가짐이었습니다. 그동안 경영의 마음가짐이라는 책을 읽고 책의 내용을 모두 이해한 뒤 각자 자기 조만의 경영 모토를 생각해보고 발표하는 시간이었습니다.

사용자 삽입 이미지

파워포인트만을 이용해서 발표자료를 만들었던 작년 워크샵 때와는 달리 파워포인트를 비롯하여 Keynotes Prezi와 같은 다양한 프로그램을 사용해서 만들어 발표자료가 한 층 업그레이드 되었습니다. 이번 독서경영 페차쿠차 발표를 통해서는 한 사람의 꿈은 꿈으로 남지만 만인의 꿈은 현실이 된다는 우리 회사의 경영이념을 공유하고 사람 중심의 기업이라는 비전을 되새기며 꿈에 한 발 다가서는 2010년이 되기를 기원하는 소중한 시간을 가졌습니다.

각 조별 발표와 시상 후에는 성원 간 친교의 시간을 가졌습니다. 2일 간의 짧은 일정이었지만 반복적인 일상에서 벗어나 우리 모두가 한 마음 한 뜻이 되는 시간이었고, 다시 한 번 사람이 좋은 회사, 문화가 아름다운 회사라 는 것을 느낄 수 있는 시간이었습니다.

사용자 삽입 이미지
이번 워크샵은 한 해의 절반이 지나간 지금, 처음에 세웠던 목표와 다짐들을 기억하며 내년을 준비하는 계기가 되었습니다. 열정을 가진 유능한 인재들과 탄탄하게 다져진 팀워크로 공유와 소통을 통한 새로운 가치사슬을 창조하는 (주)인실리코젠이 되겠습니다.






Posted by 人Co

2010/07/09 09:50 2010/07/09 09:50


연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


약물 작용과 효과의 profiling을 위한 ChemEffect Database


 현재 지구상에는 약 800만 종의 화학물질이 존재하고 그 중에서 8만여 종이 상업적으로 생산, 판매되고 있다고 한다. 우리나라에서 사용되는 화학물질의 종류는 약 1만여종으로 매년 증가하고 있다. 이러한 화학물질 가운데 사람의 유전자에 영향을 미치는지 파악하기 위해서는 DNA chip실험을 통한 분석 및 다른 다양한 실험을 통해서 판별이 가능하다.

 약제로 개발되는 화학물질의 경우 인체에 부작용을 일으키는지 여부는 실험을 거치지 않고서는 판별할 수 없다. 최근 들어, 독성유전학이라는 분야가 새로운 연구로 각광을 받고 있으며, 산업 현장 및 일상생활속에서 접하고 있는 중금속이 인체의 유전자에 미치는 영향을 파악하고자 하고 있다.

 AriadneGenomics사 에서는 이러한 화학물질의 특성 및 유전자에 영향을 미치는 지 여부 등을 기존의 논문 정보와 실험 정보등을 통해서 “ChemEffect” 라는 데이터베이스를 구축하여 서비스를 제공하고 있다.

 ChemEffect 데이터베이스는 화학물질인 small molecular가 gene과의 연관관계 및 cellular processes에서의 역할들에 대한 다양한 정보를 담고 있다. 이 정보는 약물의 화학물질에 대해서 독성과 compound 타입에 의한 부작용을 프로파일링 하거나 효소정보를 찾을 때, 독성과 약물 메커니즘 사이의 관계를 결정 지을 때 그리고 대체 물질을 찾을 때 많은 도움이 된다.

사용자 삽입 이미지
그림 1. ChemEffect 데이터베이스의 Small molecule과 protein의 다양한 관계 정보.

ChemEffect 데이터베이스를 이용하면 아래와 같은 문제들을 빠르게 해결할 수 있다.

  • 후보 약물과 관련된 pathway와 연결되어있는 질병을 확인할 때,
  • Target pathway 또는 Target protein에 영향을 미치는 compound를 발견하고자 할 때,
  • Compound에 의해 영향을 받는 Target protein을 찾을 때,
  • Compound와 관련 있는 부작용에 대한 연구를 할 때,
  • 약효, 독성, drug-drug 작용과 같은 잠재적인 결과와 compound 사이의 관계를 설계 할 때,

ChemEffect 데이터베이스의 구성


 ChemEffect는 NLP(Natural Language Processing) 기술을 응용하여 과학문헌 정보에서생물학적인 정보를 추출하는 MedScan과 추출된 정보를 이용하여 다양한 정보들 간의 네트워크를 그래픽적으로 표현할 수 있는 PathwayStudio로 구성되어 있다.

사용자 삽입 이미지
그림 2. ChemEffect 데이터베이스 Component 구성. MedScan을 이용하여 Text 정보를 추출하고 추출된 데이터는 ChemEffect 데이터베이스에 저장된다. 이후 데이터베이스의 데이터들을 활용하여 PathwayStudio에서 는 데이터들 사이의 관계를 그래픽으로 표현하여 하나의 메커니즘으로 생성된다.


ChemEffect 데이터의 구성


 ChemEffect의 데이터는 앞서 말한 것과 같이 MedScan의 텍스트-마이닝 기법을 이용하여 추출된다. Pathway Studio의 기본 데이터베이스인 ResNet Mammalian 데이터베이스와 결합된 ChemEffect에는 NCBI PubMed에 투고된 논문 정보로부터 추출된 Entity, Relations 정보 이외에도 기존에 알려져 있는 Pathway, Ontologies, Annotation 정보들도 함께 포함하고 있어 보다 다양한 정보를 얻을 수 있다.

사용자 삽입 이미지
Table 1. ChemEffect 데이터 구성 표(2.0 version).



ChemEffect 데이터베이스를 활용한 Workflow


 ChemEffect 데이터베이스를 활용해서 1차적으로 보고자 하는 drug 또는 small molecule에 대해 지식 기반의 프로파일링을 수행 할 수 있다. 예를 들어 Sorafenib라는 Small molecule의 1차 검색을 통해서 이 small molecule과 관련 있는(Metabolized by, Directly Inhibits, DownRegulates, UpRegulates) 단백질 정보와 Sorafenib에 의해 Inhibit되고 Activate하는 cell processes에는 어떤 것들이 있는지 프로파일링 정보를 얻을 수 있다. 모든 정보에 대해서는 이를 뒷받침하는 문헌 정보와 링크가 되어 있어 바로 확인이 가능하므로 분석된 데이터에 대한 신뢰성이 상당히 높다고 할 수 있다.

사용자 삽입 이미지
그림 3. Small molecule(Sorafenib)에 대한 knowledge profile 정보.


 더 나아가서는 Drug Discovery를 할 때 다양한 Application에서 ChemEffect 데이터베이스를 사용할 수 있다. In silico 단계에서 Target을 validation 할 때, In vitro 단계의 Lead Optimization, In vivo 단계에서의 Candidate Nomination/Preclinical 이 세 가지 모든 과정을 통합하고 해석하고 마지막으로 최종 결정에 이르기까지 유용하게 응용 될 수 있다.

사용자 삽입 이미지
그림 4. Drug discovery의 세 단계 Application. 각 단계를 통합, 해석, 결정하는 데 있어서 다양한 Application에 ChemEffect 데이터베이스를 사용하여 Drug discovery를 할 수 있다.

Posted by 人Co

2010/06/28 17:39 2010/06/28 17:39


연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


Chip 실험 데이터에서의 유전자 네트워크 분석


 DNA Chip 분석 실험을 통해 유전자의 발현 양상을 분석하는 연구가 이전부터 많이 진행되어 왔다. 특정한 조건하에서 발현을 보이는 유전자가 무엇인지 검토하고 이들 유전자에 대한 다양한 정보를 검토하는 것이 이전의 연구방향이었다. 그러나 Eukaryote유전체에서는 하나의 유전자가 다양한 역할을 수행하기도 하며, 반대로 여러 개의 유전자들이 서로 상호 연관관계를 맺어서 하나의 기능을 수행하기도 한다. 따라서, 이러한 유전자들의 상호 연관관계를 도출하고자 하는 연구가 최근들어서는 중요시되고 있다. 즉 차등발현을 보이는 여러 개의 유전자들을 upstream 단계에서 조절하고 있는 요소가 무엇인지, 또한 여러 개의 유전자들이 공통적으로 타겟을 정하고 있는 질병이나, 유전자들이 무엇인지를 밝히고자 한다. 이번 블로그에서는 PathwayStudio를 이용하여 Chip 실험 데이터에 대한 유전자 네트워크 분석 방법에 대해서 알아보고자 한다.

Data importer

 
 실험 데이터를 분석하기 위해 먼저 실험데이터를 Import 해야 한다. Pathway Studio는 실험 데이터를 매우 쉽게 입력 할 수 있도록 인터페이스가 구성되어 있다. 입력 할 수 있는 형식으로는 Gene expression, Metabolomics, Proteomics가 있다. 입력 할 수 있는 데이터의 포맷도 아래와 같이 다양하게 제공된다.

  • Tab-delemited text(Generic)
  • Microsoft Excel
  • GEO Datasets (GDS in SOFT format)
  • Affymetrix Raw (CEL)
  • Affymetrix CHP
  • Agilent
  • Illumina

 입력할 데이터의 포맷은 DNA Chip 실험 분석을 통해서 얻어진 정보들을 탭 분리형식으로 구성되어진 파일과 엑셀 형식으로 되어 있는 파일을 불러들일 수 있다. 또한 Affymetrix, Agilent, Illumina 사와 같은 기존에 가장 많이 분석에 이용되고 있는 상용화 DNA Chip 정보 포맷도 쉽게 불러들여 분석을 진행 할 수 있다. 탭 분리형식으로 데이터가 저장된 파일을 불러들여 분석을 할 경우 아래와 같이 모두 10가지 단계를 거치게 된다.

 실험 데이터의 형식, 파일 포맷, 그리고 입력할 파일과 최종 저장할 디렉토리를 선택하면 모두 10가지 단계의 입력과정을 거치게 된다. 첫 번째 단계에서 부터 순서대로 실험 데이터의 헤더 설정, 데이터가 시작되는 행의 지정, Probe identity를 표현하는 컬럼 지정, 샘플의 layout 설정, 데이터의 마지막 컬럼 지정, 부가적으로 사용될 annotation으로 컬럼 설정, 샘플 타입, 부가적으로 Probe를 식별하는데 사용하는 Identifier, expression 분석에 사용되는 annotation 컬럼을 선택한다. 마지막 열 번째 단계에서는 반복실험을 수행한 샘플들간의 상호 연관성을 볼 수 있는 sample correlation 단계로 샘플 간에 가까운 상관관계가 있는 것끼리 그룹으로 설정하여 Tree 형태로 보여준다. 여기에서 correlation이 잘못된 경우 분석에서 제외할 샘플을 선별 할 수 있다.

사용자 삽입 이미지
그림 1. Chip 실험 데이터 import step


Result and displays


 모든 입력 단계가 완료되면 아래와 같이 Pathway Studio에 실험데이터가 입력 된 것을 확인할 수 있다. 실험 데이터 뷰어는 크게 5가지 부분으로 나뉜다.

  1. 데이터를 분석하거나 편집할 때 많이 사용하는 기능을 모아 놓은 Toolbar
  2. Probe를 빠르게 검색하여 찾을 수 있는 검색창
  3. Probe ID 컬럼
  4. 발현 차이를 보기 위해 t-test 통계 수치가 계산된 컬럼
  5. 샘플 데이터
사용자 삽입 이미지
그림 2. 실험 데이터 Viewer 인터페이스


Data analysis algorithms


Pathway Studio에서 실험데이터를 분석하는 알고리즘은 크게 세 가지가 있다.

  • Fisher's Exact Test
  • Gene Set Enrichment Analysis
  • Sub-Network Enrichment

 Fisher's Exact Test와 Gene Set Enrichment Analysis는 Enrichment를 분석하는 서로 다른 알고리즘이고 Sub-Network Enrichment는 ResNet에서 사용자가 직접 Gene Set을 설정해 주는 것으로 알려진 Gene Set을 사용하는 앞의 두 알고리즘과는 다르다.

 먼저 Fisher's Exact Test를 수행하기 전에 통계적으로 유의한 유전자 리스트를 확인하기 위해 필터링 과정을 거친다. Toolbar에서 Filter Probes by value를 클릭하면 대화창이 나타난다. 필터링을 적용하고자 하는 샘플을 선택하고 Probe 범위와 P-value cutoff 값을 입력하여 필터링을 수행 한다. 이제 Filter를 통해 나온 데이터들을 이용해서 Fisher's Exact Test를 수행한다. 분석하고자 하는 데이터 컬럼에서 마우스 오른쪽을 눌러 Find Pathway/Groups Enriched with Selected Entities를 선택한다. 대화창이 나타나는데 여기에서 실험 데이터를 대상으로 Fisher's Exact Test를 수행 할 Ontology나 Pathway를 선택한다.

사용자 삽입 이미지

그림 3. Fisher's Exact Test 분석 1) Filter Probes by value 2) Find Pathway/Groups Enriched with Selected Entities

 분석이 완료되면 하단에 P-value를 기준으로 정렬된 분석 결과가 테이블 형태로 나타난다. 결과 테이블에서는 분석할 때 선택한 샘플 유전자들이 어떤 Pathway나 Group에 가장 가깝게 해당되는지 알 수 있다. 아래의 결과 테이블을 예로 들어보면 Fisher's Exact Test를 할 때 선택해준 샘플 데이터가 결과 테이블 첫 번째 행에 있는 ECM degradation 즉, ECM 단백질의 분해에 관여하는 Group에 속한다는 것을 알 수 있다. ECM degradation group에는 14개의 Entity가 있는데 그 중에서 선택한 샘플 데이터와 중복이 되는 것은 3개이고 구체적으로 어떤 유전자가 중복이 되는지 리스트도 함께 보여준다.

사용자 삽입 이미지
그림 4. Fisher's Exact Test 분석 결과 테이블

결과 테이블에서 보고자 하는 Pathway를 오픈하면 Graph view에서 볼 수 있다. 이 Pathway에 있는 Entity들이 입력한 실험 데이터에 있는 유전자들 중에서도 발현이 되고 있는지 보고자 한다면 실험 데이터 viewer의 Toolbar에서 Link 버튼을 이용한다. 발현이 되고 있다면 Entity의 색이 변하는 것을 볼 수 있다.

사용자 삽입 이미지
그림 5. Fisher's Exact Test 분석 결과 Pathway 보기 Link 메뉴를 통해 분석결과 나온 Pathway와 실험 데이터의 유전자들이 서로 link 되어 있는지 확인할 수 있다.

 두 번째 알고리즘인 Gene Set enrichment 분석은 Fisher's Exact Test와 비슷한 분석이지만 실험 데이터에 서열화 방법을 적용하였다는 차이점이 있다. Gene Set enrichment 분석을 할 때에는 Filter를 적용하지 않고 분석을 시작한다. Enrichment 분석 할 알고리즘으로 2가지가 제공되는데 Mann-Whitley Utest와 Kolmogorov-Smirnov가 그것이다. 두 가지 모두 순위척도 자료를 위한 비모수 통계방법으로 두 모집단 사이에 유의한 차이가 있는지를 검정할 때 사용한다.

 Gene Set enrichment 분석도 마찬가지로 분석이 완료되면 그림 3과 같은 결과 테이블을 제공한다. 결과 테이블에서 Fisher's Exact Test와 다른점이 있다면 Median fold change 값을 제공한다는 것이다. 이 값을 통해 측정된 Entity 그룹에 대한 fold change 값의 분포를 알 수 있고, 결과 set에서 더 up regulated 되거나 더 down regulated 되는 그룹을 빠르게 확인 할 수 있도록 정보를 제공해 주고 있다.

 이렇게 분석 결과 나온 pathway는 여러 가지 pathway를 합쳐서 보거나, 공통된 것 또는 공통된 것을 제외한 나머지 부분만을 볼 수도 있다. 또한 실험데이터가 Time-course로 진행된 실험이라면 특정 Entity가 시간에 따라 어떻게 발현이 달라지는지 볼 수 있다. 보고자 하는 Entity를 하나 선택하고 마우스 오른쪽을 클릭하면 Show diagram이 있다. 이것을 클릭하면 그림에서 보는 것과 같이 Line plot 형태로 그려진 diagram이 생성된다. 다시 이 다이어그램을 클릭하고 마우스 오른쪽을 노르면 Show as Heat Map 메뉴가 있는데 이것은 Line plot 형태의 다이어그램을 Heat Map 형태로 바꾸어 볼 수 있는 역할을 한다.

사용자 삽입 이미지
그림 6. Visualizing time-course data on pathway

 Pathway Studio를 통해서 실험데이터 차등발현유전자를 선별하고 여러가지 통계분석을 통해 이 유전자들을 조절하는 상위조절인자를 분석하거나 차등발현유전자들이 공통적으로 작용하고 있는 질병, 세포내 프로세스 등을 알아볼 수 있었다. 앞선 연재에서 설명한 Pathway Studio의 ResNet DB 또는 문헌정보를 활용한 유전자 네트워크 정보와도 비교 분석하면서 데이터를 해석하면 좀 더 의미있는 결과가 도출될 것이다.

Posted by 人Co

2010/06/16 09:23 2010/06/16 09:23

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38

PathwayStudio 소개

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


카레 성분의 커큐민(cucumin)이 전립선암을 억제한다고?


 미국에는 해마다 전립선암 환자가 증가하고 있는데 반해 인도인들은 전립선암 환자가 거의 발생하지 않고 있다. 유전적인 요인도 있겠지만, 식습관의 차이가 전립선 암환자의 발생을 유도하거나 억제하지 않을까라는 단순한 궁금증을 가지고 카레와 전립선암과의 연관관계에 대한 연구를 시작하고자 한다. 이때 우리는 “인도인들이 즐겨먹는 카레의 주성분에서 전립선암을 억제하는 상호기작이 있을 것이다”라고 가정할 수 있다. 그럼 카레의 주성분은 무엇일까? 카레의 색깔이 노란색인 것은 커큐민이라는 성분때문인데, 이 커큐민이 카레의 주성분이다. 전립선암과 우리가 즐겨 먹는 카레의 주성분인 커큐민은 상호 어떤 관계가 있을까? 실험을 통해서 일일이 검증을 해야 확인할 수 있겠지만, PubMed와 같이 과학 문헌 데이터베이스에서 커큐민 성분에 영향을 미치는 유전자에 관련된 논문과 전립선암에 관여하는 유전자에 대한 논문을 찾은 후 ‘커큐민-유전자-전립선암’과의 관계를 유추할 수 있다.

이와 같이 신약을 발굴하기 위해서 바이오마커를 찾거나, 특정 질병에 관여하는 유전자들이 무엇인지 알고자 할 경우, 또는 DNA Chip 분석을 통해서 얻어지는 차등 발현 유전자들이 공통적으로 관여하는 질병을 찾거나, 유전자들의 상호 연관관계를 알고자 할 경우에 사용되는 유용한 프로그램 가운데 PathwayStudio라 는 프로그램을 소개하고자 한다.

Pathway Studio 시스템 구성


Pathway Studio는 세 가지 시스템으로 구성되어 있다.

  • MedScan: 자연어처리기술(NaturalLanguageProcessing) 을 이용한 과학 문헌의 전문화된 텍스트 마이닝프로그램, 단백질 중심의 생물학적 연관관계 추출
  • ResNet Database: MedScan을 이용하여 PubMed와 Interaction 관련 저널에서 추출한 Mammalian, Plant의 생물학적 네트워크 정보를 생물학 전문가에 의해 재검증한 데이터베이스
  • PathwayStudio: MedScan과ResNet Database를 통해 추출된 데이터를 이용하여 Pathway를 편집 할 수 있도록 제공되는 사용자-친숙한 인터페이스
사용자 삽입 이미지
그림 1. 시스템의 구성. 1) 자연어 처리 기술을 응용하여 문헌에서 생물학적인 데이터를 추출하는 MedScan Reader 2) 추출된 데이터를 데이터베이스화 한 ResNetResNet Database는 Mammalian과 Plant 두 가지로 구분되어진다. 3) 데이터베이스의 정보를 그래픽 형태로 pathway를 생성하고 편집할 수 있는 인터페이스를 제공하는 PathwayStudio Database.


Pathway Studio 응용분야


Pathway Studio는

  • 유전자 발현 데이터 또는 high throughput 데이터를 해석할 때,
  • pathway를 설계, 확장하고 분석 할 때,
  • 유전자, 단백질, cell processes, 질병 사이의 관계를 찾을 때,
  • publication-quality pathway 다이어그램을 그릴 때,
  • 문헌 정보에서 바이오마커와 drug 후보군을 찾을 때,
와 같은 다양한 연구 분야에서 사용되고 있으며, 수많은 연구자들이 Pathway Studio를 이용하여 분석한 결과 및 방법들을 논문으로 투고하고 있다. ARIADNE사의 홈페이지((http://www.ariadnegenomics.com/technology-research/publications/)) 에는 아래와 같은 카테고리 별로 PathwayStudio를 이용하여 투고된 논문 정보를 바로 확인할 수 있다.

  • Epigenetic studies
  • Pathway Analysis
  • Analysis of gene expression microarray data
  • Anayisis of proteomics data
  • Drug discovery
  • Human genetics
  • Toxicogenomics
  • Biomarkers
  • Neuroscience
  • Text mining
  • Model organisms
  • Plants

Pathway Build 방법


 과연, 그렇다면 Pathway Studio에서는 어떤 방법으로 pathway를 그릴 수 있을까? pathway를 그릴 수 있는 방법은 아래 그림과 같이 크게 3가지 정도로 나누어 볼 수 있다. 첫 번째로 내가 알고 있는 유전자 하나 혹은 여러 개의 유전자 목록을 검색하여 엔티티들 사이에 어떤 관계가 있는지 pathway를 직접 그려가면서 확인하는 검색을 통한 방법이 다. 두 번째로는 어떠한 주제로 연구를 할 때 기존에 밝혀져 있는 문헌에 대해 리뷰하는 과정을 거치게 되는데 이 때 관련 문헌을 모두 검색하고 거기에서 보고자 하는 정보들을 추출 할 수 있다. 이렇게 추출된 정보들은 문헌을 통한 검색으 로 추출되었기 때문에 신뢰도가 높은 정보를 제공할 뿐만 아니라 Pathway Studio를 통해서 그들 간의 pathway도 그려 볼 수 있고, 그것을 더 확장해 나가면서 새로운 의미를 도출 할 수도 있다. 마지막으로 실제 실험을 통해 나온 데이터를 입력하고 통계 분석을 한 뒤 통계적으로 유의한 유전자들 사이의 관계를 pathway로 그려보고 발현양상을 살펴보는 방법이 있다.

사용자 삽입 이미지
그림 2. pathway build 방법 1) 유전자 검색을 통한 방법 2) MedScan 문헌 검색을 통한 방법 3) Import한 실험 데이터를 이용하는 방법

Pathway 편집


 위의 세 가지 방법을 통해 pathway를 그릴 때에는 pathway를 보기 쉽게 편집하는 것 또한 중요하다. Pathway Studio에서는 pathway를 그릴 때 편집하기 쉬운 인터페이스를 제공하고 있을 뿐 아니라 서로 다른 Entity와 Relation을 한 눈에 구별 할 수 있도록 그것을 다양한 모양과 색으로 표현하고 있다. 완성된 pathway를 이미지로 저장할 때에는 아래 그림과 같이 Entity와 Relation 정보를 범례로 포함하여 저장 할 수 있어 pathway를 처음 보는 사람이더라도 쉽게 그 관계를 이해 할 수 있다. 또한 그려진 pathway에서 Relation을 나타내는 화살표에 마우스를 가져가면 Entity들 간에 어떤 관계에 있는지 그리고 그 관계를 뒷받침 할 수 있는 관련 문장이 어떤 문헌에서 추출 되었는지와 같은 정보를 제공해 준다.

사용자 삽입 이미지
그림 3. Entity, Relation, component group의 종류

Pathway layout


 완성된 pathway는 layout을 바꾸어 가면서 볼 수 있다. Pathway Studio에서는 DirectForce layout, Symmetric layout, Cell Localization layout, Hierachical layout과 같이 다양한 layout을 제공하고 있다. layout을 변경을 통해서 보다 새로운 의미를 찾을 수 있을 것이다.

  • DirectForce layout : Entity를 중심으로 관련 정보를 축 방향으로 나타내주는 layout
  • Symmetric layout : Entity를 중심으로 관련 정보를 대칭 형태로 나타내주는 layout
  • Cell Localization layout : pathway의 Entity들이 Cell 안에서 어떤 곳에 위치하는지 보여주는 layout
  • Hierachical layout : Entity를 중심으로 유전자를 조절하는 up-regulation 또는 공통적으로 작용하는 down-regulation 정보를 계층적인 구조로 보여주는 layout
layout을 통해 그랙픽 형식으로 검토하는 방법 이외에도 Entity table, Relation table 보기 기능도 지원하고 있다. Table 보기에서는 Entity와 Relation 정보 이외에도 다양한 annotation 정보도 함께 제공하고, 테이블의 컬럼도 사용자의 편의에 맞게 선택적으로 customizing 하여 볼 수 있도록 되어 있다.

사용자 삽입 이미지
그림 4. pathway view 방식 1) pathway 그래프 보기의 다양한 layout 형태 2) Entity, Relation 테이블 형태의 보기 방식

Pathway data export


 pathway는 다양한 형태로도 저장이 가능하다. 그래프 형태의 pathway는 .gif, .jpg, .png, .tif, .bmp 5가지 확장자의 이미지 파일로 저장 할 수 있다. 이미지로 저장을 할 때에는 범례를 포함하여 저장 할 수 있는데 pathway를 문헌에 효율적으로 이용할 수 있도록 이미지의 넓이, 높이의 크기와 DPI 해상도까지 지정할 수 있다. Entity와 Relation 정보의 table 보기는 엑셀의 형태로 저장 할 수 있어 차후에 2차 분석을 할 때 유용하게 사용할 수 있다. 이 밖에도 웹 문서인 HTML 형태로 저장을 하면 Pathway Studio가 설치되어 있지 않은 곳에서도 웹을 통해 데이터들을 모두 볼 수 있으며 Pathway Studio의 고유 파일 형식인 .gpp 파일 포맷으로 저장을 할 경우에는 Pathway Studio가 설치되어 있는 사용자 간의 혹은 pathway 데이터를 백업 할 때 사용할 수 있다.

사용자 삽입 이미지
그림 5. Pathway 데이터 export 방식.


 2010년 5월 24일 현재 Pathway Studio는 7.1 버전까지 업데이트 되었으며 꾸준한 기능 향상과 데이터베이스 업데이트를 통해 항상 최신의 데이터를 제공하고 있다. Pathway Studio는 다양한 연구 분야를 비롯하여 제약회사를 포함한 전세계의 고객에 의해 사용되고 있다. Ariadne사에서는 고객들이 Pathway Studio를 효과적으로 사용할 수 있도록 case study를 다양한 형태로 제공하기도 하며 국내에도 매 년 몇차례 방문하여 세미나를 개최한 바 있다. 앞으로도 지속적인 기능 향상과 최신의 데이터베이스를 유지함으로써 국내의 많은 연구자들에게 도움이 될 것으로 생각된다.



Posted by 人Co

2010/05/31 08:40 2010/05/31 08:40



« Previous : 1 : ... 57 : 58 : 59 : 60 : 61 : 62 : 63 : 64 : 65 : ... 75 : Next »