« Previous : 1 : 2 : 3 : 4 : Next »

CLC Genomics Workbench 12버전, 베일을 벗다!


지난 10년간 연구자들에게 많은 사랑을 받으며, NGS 분석을 위한 기초 툴로써 자리를 잡은 CLC Genomics Workbench가 2018년 11월 28일에 12버전으로 정식 릴리즈 되었습니다. 사용자 편의성을 도모하기 위해 많은 부분이 변경되었는데요, 주요한 변화들에 대해서 함께 알아보도록 하겠습니다.

CLC Genomics Workbench 11버전 interface로 변경된 지 4년 정도가 지났습니다. 그리고 이번 메이저 업그레이드에서 CLC Genomics Workbench가 새로운 옷을 입었습니다.

메인화면 

전체적인 구성이나 아이콘에는 큰 변화가 없지만, 프로그램을 실행하고 나면 뷰어 화면에 시작하는 방법, 데이터 import를 도와주는 화면이 있으며 예제 데이터도 간단히 다운로드하여 사용하실 수 있습니다. 또한, 자주 사용할법한 도움말들을 뷰어 화면에 배치하여 처음 CLC Genomics Workbench를 사용하는 입문자들도 기존에 비해 접근이 용이하도록 구성했습니다.


[그림 1] 메인화면의 변화(위-11버전, 아래-12버전)

Import 메뉴의 변경

Import 화면을 보시면 기존의 11버전보다 두 가지 항목이 추가되었습니다. QIAGEN에서 나온 NGS sequencing platform인 GeneReader를 읽을 수 있게 되어 있으며 기존의 Biomedical Genomics Workbench에만 있던 'Import Primer Pairs'가 추가되어 QIAGEN gene panel primer 파일을 바로 가져올 수 있습니다.


[그림 2] Import 메뉴화면

Navigation Area의 변화

기존 Navigation Area 내에서 파일 혹은 폴더의 순서를 변경할 때, 파일이 생성되거나 옮겨진 순서대로 정렬되어 원하는 대로 정렬하기가 쉽지 않았습니다. 이번 업그레이드 통해 파일이나 폴더를 쉽게 드래그 앤드 드롭으로 순서를 변경할 수 있게 되었습니다. 또한, 상단의 Navigation Area에서 데이터에 마우스를 가져다 대면 뜨던 정보안내 말풍선 창의 정보가 추가되었습니다. 기존 버전에서는 이름만 표시됐던 반면에 12버전에서는 용량과 파일의 포맷을 함께 나타내줍니다.


[그림 3] 데이터 타입과 용량 정보 보여주기

자동파일압축

이번 업그레이드에서 놀라운 기능은 기본적으로 압축 기능이 추가되었다는 점입니다. 같은 파일을 동일한 조건으로 분석했을 때, 11버전에서는 149MB였던 결과 파일이 12버전에서는 92MB로 30% 정도 용량을 아낄 수 있게 되었습니다. 기존의 100TB 용량을 이제 130TB처럼 사용하실 수 있습니다.


[그림 4] 자동 파일 압축 및 약 30% 저장용량 절약

레퍼런스 데이터 다운로드 방법 변경

기존에는 우측 상단의 Download 아이콘에서 Reference를 선택하여 열리는 창에서 'Download Reference Genome Data'를 다운로드할 수 있었습니다. 새롭게 변경된 UI에서는 Biomedical Genomics Workbench처럼 우측 상단의 'References'라는 아이콘을 이용하여 레퍼런스 데이터를 다운로드할 수 있습니다. Reference 아이콘을 누르면 하단의 그림 중 아래 화면 같은 창이 뜨게 되며 여기서 원하는 종 혹은 원하는 데이터를 골라 다운로드합니다.


[그림 5] 레퍼런스 데이터 다운로드 인터페이스 변경

Toolbox의 구성 변경 1

 plug-in로 제공됐던 'Bisulfite Sequencing'툴이 별다른 설치 없이 기본적으로 탑재 되었습니다.


[그림 6] Bisulfite Sequencing 분석폴더 디폴트로 추가

Toolbox의 구성 변경 2

툴박스의 폴더 구성을 보시면 'NGS Core Tools'가 사라지고, 'Prepare Sequencing Data'라는 폴더에 trimming이나 demultiplex 관련한 툴들이 배치되어 있으며, 'Installed Workflow'로 기존의 'Workflow' 폴더의 이름이 변경되었으며, 'Utility Tools'라는 폴더가 추가되었습니다.


[그림 7] 분석폴더의 재구성

Toolbox의 구성 변경 3

새롭게 추가된 툴에 대해서 소개해 드리면 copy number variant를 분석할 수 있는 툴, variant에서의 정보를 제거하는 부분, RNA-seq을 진행할 때 두 그룹일 때에는 별다른 metadata 없이 진행할 수 있도록 'Different Expression in Two Groups'가 추가되었으며 plug-in으로 사용하던 'Batch Rename'이 추가되었습니다.


[그림 8] 추가된 새로운 툴

몇 개의 툴들은 이름이 변경되었습니다. [그림 9] 이미지를 참고해주십시오.


[그림 9] 이름이 변경된 툴

QIAseq panel reference 다운로드

Reference Data를 다운로드하는 곳으로 가보면 두 번째 아이콘에 QIAGEN Sets라는 아이콘이 있습니다. 이 아이콘을 선택하면, QIAseq Panel에 관련된 reference만 선택적으로 다운로드할 수 있습니다. QIAGEN의 panel을 가지고 나온 데이터를 보다 더 쉽게 분석할 수 있도록 CLC Genomics Workbench에 적용하였습니다.

[그림 10] QIAseq 분석에 찰떡인 QIAGEN Sets 다운로드

손쉬운 서버 프로그램과의 연동

Workbench desktop 버전과 server의 연동에 관련된 부분입니다. 창의 아래쪽 표시줄에 보면 S라고 되어있는 사각형 아이콘이 생성되어 있습니다. 이 버튼을 누르면 Server Connection 창이 뜨게 되고 쉽게 server와 연결할 수 있고 연결 상태를 하단에서 바로 확인할 수 있습니다.


[그림 11] 메인화면에서 연결되는 CLC Server Connection

Track 뷰어의 변화

아래 화면([그림 12])은 read mapping의 track 화면입니다. Track에서 position을 보여주던 숫자가 위치하고 있던 맨 윗부분 위로 크로모좀 뷰어가 추가되었습니다. read 색깔은 unpair/pair 그리고 mismatch까지 색상 지정을 자유롭게 하실 수 있으며 aligned read의 하단에 있던 overflow graph가 read 상단으로 올라와 새로운 coverage graph를 보여줍니다. 그와 동시에 read를 검토할 때 불편했던 위아래 이동에 스크롤바가 추가되어 편하게 read의 alignment를 살펴볼 수 있습니다.


[그림 12] Intuitive 하게 변경된 Track 뷰어 인터페이스

Differential Expression for RNA-seq툴의 개선

기존 버전에서 불가능했던 RNA-seq에서 normalization 방법도 설정할 수 있습니다. 기본적인 whole transcriptome RNA-Seq과 targeted RNA-seq, Small RNA 분석을 따로 설정할 수 있으며 normalization도 TMM과 Housekeeping gene으로 가능합니다.


[그림 13] 세분화된 차등발현 유전자 분석 툴

Differential Expression in Two Group 추가

두 그룹 간의 RNA-seq 비교일 경우 별도의 metadata 없이 control과 study 그룹을 wizard에서 설정하여 분석할 수 있도록 구성되어 있습니다.


[그림 14] 두 그룹간의 비교 화면

Export 기능의 개선

Annotation을 export할 때 생기던 에러가 해결되었습니다. 기존에 엑셀 포맷으로 export 할 경우에는 모든 칼럼을 전부 export 하던지 혹은 필요한 칼럼만 체크해서 export를 할 수 있었습니다. 현재 내가 보고 있는 화면대로 원하는 칼럼만 export 하려면 다시 체크해야 되는 번거로움이 있었습니다. CLC Genomics Workbench 12버전 업그레이드를 통해 현재 보고 있는 칼럼만 그대로 export 하는 기능이 추가되어 다시 골라야 하는 번거로움을 없앴습니다.


[그림 15] 화면 그대로 간편하게 export 하기

이번 업그레이드로 많은 부분이 바뀌게 되었습니다. 기대하셨던 부분이 반영되었을 수도 있고, 아직 부족한 부분도 있을 거라고 생각이 됩니다. CLC Genomics Workbench는 사용자의 많은 의견을 반영하여 10년 넘도록 꾸준히 업그레이드 되고 있습니다. 업그레이드된 12버전을 통해 새로운 기능들을 확인해보시기 바랍니다.

구버전의 CLC Genomics Workbench를 이용하시는 분 중 12버전으로 업그레이드가 필요하신 분들은 12월 한 달 동안 진행되는 연말 프로모션을 적극 활용하시기 바랍니다.



Posted by 人Co

2018/12/03 17:24 2018/12/03 17:24
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/298



NGS (Next-Generation Sequencing) 관련 기술의 발전과 비용 절감으로 인해 NGS는 일반적인 유전체 연구뿐만 아니라 정밀 의학에서도 중요한 연구 수단으로 자리 잡고 있습니다. 국외는 물론이고 국내에서도 여러 의료기관과 연구기관에서 NGS를 이용한 임상 유전체 연구가 활발하게 이루어지고 있습니다. 하지만 한 번의 NGS로부터 많은 수의 변이 (variant)가 발견되고 그것들의 임상적 의미 (Clinical significance)를 해석하는데 어려운 경우가 많습니다.

(주)인실리코젠에서는 이러한 NGS 변이들에 대해 임상적 유의성과 action-ability를 평가하는 임상 의사 결정 지원 솔루션인 QIAGEN Clinical Insight Interpret (QCI-I)에 대해서 소개하고자 합니다.

그림 1. < QIAGEN Clinical Insight Interpret (QCI-I) >

QIAGEN Clinical Insight Interpret (QCI-I)는 웹 기반의 소프트웨어로, NGS로부터 도출된 변이들에 대해서 QIAGEN Knowledge Base를 이용한 주석 (annotation), 분류 및 해석 (classification / Interpretation), 보고서 생성 (reporting)을 지원합니다. 또한, Somatic 과 Germline/Hereditary 로 파이프라인이 나누어져 있어 분석 샘플에 맞는 파이프라인을 선택하여 진행할 수 있습니다. VCF 파일과 metadata 업로드를 통해 누구나 쉽게 진행할 수 있으며, Fusion, CNV 데이터를 추가할 수 있습니다.

QCI-I의 특징은 다음과 같습니다.

  • 웹 기반 인터페이스로 편리한 접근성과 사용법이 간단하고, 임상적 유의성과 actionability를 평가하는데 드는 시간과 비용을 단축할 수 있습니다.

  • Manually 큐레이션된 방대하고 신뢰성 높은 QIAGEN Knowledge Base를 사용합니다.

  • ACMG/AMP (hereditary)와 AMP/ASCO/CAP (somatic) 가이드라인에 따라 변이를 분류합니다.

  • 분석 샘플의 변이에 관련된 치료 (treatment), 임상 시험 (clinical trials) 정보를 제공합니다.

  • 최종 보고서의 커스터마이징이 가능합니다.

  • VCF (Variant Call Format) 파일을 사용하여 분석함으로써, NGS 플랫폼에 관계없이 사용할 수 있습니다.

  • 이전 데이터 결과들을 재사용하여 Lab-specific variant database 구축이 가능합니다.


QIAGEN Knowledge Base

QCI-I는 오랜 기간을 거쳐 manually curation된 QIAGEN Knowledge Base를 기반으로 변이를 해석 및 평가합니다. Knowledge Base에는 천만여 개 이상의 biomedical 정보들이 들어있고 16년 이상 지속되어 온 방대하고 신뢰성 높은 Database입니다. 데이터 대부분이 주 단위 (weekly)로 업데이트 되며 사용자는 항상 최신의 정보를 제공 받습니다.

그림 2. < QIAGEN의 전문적인 데이터 큐레이션 >
200명 이상의 전문적인 MD, PhD가 참여하고 3천여 개 이상의 QC 테스트를 진행합니다. 또한, 방대한 수의 논문 결과가 지속해서 추가되고 있습니다.

QIAGEN Knowledge Base는 공개된 생물학적 데이터뿐만 아니라 상용 데이터까지 통합되어 있고, 이 데이터들에 대하여 임상적인 관련성까지 정리되어 있습니다. 연구자, 임상의, 제약회사 등 여러 분야에서 지속해서 사용되고 있으며 20,000번 이상 인용되었습니다. Knowledge Base를 사용하면 raw public data 혹은 computational prediction tool 들을 사용하는 것보다 변이 분류 (variant classification)의 오류를 줄일 수 있습니다. 이러한 database를 구축하는 일은 어렵고 많은 시간과 비용이 소모되지만 QIAGEN Knowledge Base를 이용하면 시간과 비용을 줄이고 효율적이고 신뢰도 높은 변이 분석 결과를 얻을 수 있습니다.

Knowledge-based Variant Classification

QCI-I는 Knowledge Base를 기반으로 Germline 혹은 Somatic testing에 따라 변이의 pathogenicity 와 actionability를 측정하여 제공합니다.



그림 3. < Professional guideline을 따르는 QCI-I의 Variant clssifications >

아래 그림 4처럼 Variant list 탭에서 검출된 변이들에 대한 기본적인 정보를 확인할 수 있고, 각 변이를 선택하여 자세한 사항을 확인할 수 있습니다. Pathogenicity에 따라 색으로 구분되어 직관적인 확인이 가능합니다.


그림 4. < QCI-I Variant List 탭 화면 >
샘플에 대한 정보와 변이에 대한 정보 (somatic frequency, population frequency, variant allele frequency 등)를 보여줍니다. Knowledge Base에 기반하여 변이의 actionability, pathogenicity가 분류됩니다. Pathogenicity는 붉은색 계열 (pathogenic or likely pathogenic), 회색 (unknown of significance;VUS), 녹색 계열 (benign or likely benign)로 구별됩니다.


Treatment & Clinical Trials

선택한 변이가 해당 단백질에 미치는 기능적 영향 (functional effect on protein), treatment 정보와 현재 진행되고 있는 clinical trial들에 대한 정보도 제공하며, 이 정보는 주 단위 (weekly)로 업데이트되어 항상 최신의 정보를 받을 수 있습니다.


그림 5. < Variant Detail 탭에서 제공되는 다양한 변이에 대한 정보 >
단백질의 functional domain과 함께 유전자의 아미노산 위치별 pathogenic/benign 변이들의 분포가 나와 있고 해당 샘플의 변이 위치가 확인됩니다. 약물에 대한 반응성과 가이드라인, FDA에 대한 레퍼런스가 링크로 제공됩니다.


Clinical Cases & Papers

해당 변이에 대해 같은 질병에서 보고된 임상 케이스, 관련된 논문 등에 대한 정보를 제공합니다. 아이콘을 클릭하면 각각의 세부정보 확인이 가능합니다. 임상 케이스와 논문 내용도 추후 최종 보고서에 일괄적 혹은 선택적으로 추가할 수 있습니다.



그림 6. < 변이에 대해 보고된 임상 케이스와 관련된 논문 정보 >

Customizable & Actionable Report

Preview 페이지에서는 최종 report를 작성하기 전에 자유롭게 comment의 수정 및 추가를 할 수 있습니다. 기본적으로 유전자에 대한 설명이 있고 Edit 메뉴를 통해 추가 또는 삭제할 수 있습니다. 환자에 대한 전반적인 interpretation과 actionable 변이들에 대해 모든 comment 작성이 가능합니다.


그림 7. < Preview 페이지 >
Comment 작성을 자유롭게 할 수 있습니다.

최종 보고서 (actionable report) 는 아래 그림 8과 같습니다. 상단에 환자, 클라이언트, 샘플 정보가 나오고 Alterations Summary에 actionable mutation들에 대한 FDA 승인 약물, Clinical trial, 약물 저항성 등이 요약되어 있습니다. 하단에는 각 변이에 대한 자세한 정보가 나열됩니다.

그림 8. < QCI-I 최종 보고서 형식 >

이상 NGS 기반 진단 영역에서 임상 의사 결정을 지원하는데 강력한 툴인 QCI-I에 대해 살펴보았습니다. QCI-I의 QIAGEN Knowledge Base를 이용하여 variant classification하면 기존에 VUS로 분류된 변이들에 대해서도 더욱 정확하게 분류가 가능할 것입니다. 2가지 case study 결과 variant of unknown significance (VUS)가 27~33% 가량 줄어든다는 것을 확인하였습니다.


그림 9. < QIAGEN Knowledge Base를 이용한 variant classification 비교 >

QCI-I를 통해 NGS Platform에 관계없이 전문적으로 큐레이션된 QIAGEN Knowledge Base를 이용해 검출된 변이들의 임상적 유의성과 actionability를 쉽고 빠르게 측정하는 경험을 해보십시오. Raw data부터 임상적인 의미를 얻기까지 전체 해석 시간을 줄이고 임상의에게 보고할 수 있는 임상 관련 데이터의 양을 늘리는 동시에 변이 해석 및 보고 프로세스의 모든 부분을 통합할 수 있을 것입니다.

* 더 자세한 정보와 Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061 로 문의주시기 바랍니다.

Posted by 人Co

2018/09/20 18:01 2018/09/20 18:01
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/292

소프트웨어 사용자 5만명 달성 기념, '555' 이벤트를 진행합니다.
HOT한 가격, COOL~ 하게 즐기세요!



Posted by 人Co

2018/08/01 09:07 2018/08/01 09:07
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/287

그 동안의 성원에 감사한 마음을 담아
유난히 추운 겨울, 하시는 연구에 따뜻한 도움이 되고자 합니다.
>> 온라인 구매 바로가기

Posted by 人Co

2017/12/15 13:38 2017/12/15 13:38
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/269

미생물에서는 오페론을 통하여 유전자 발현을 조절하지만, 다세포생물의 경우 물리적인 상호작용을 통하여 특정한 DNA나 조절단백질의 작용에 의해 유전자 발현이 조절됩니다. 유전자 발현 조절에 관여하는 인자를 transcription factor라고 하며 이 transcription factor가 어떤 부위에 binding 하는지에 따라 다양한 유전자들이 발현하게 됩니다. Transcription factor는 다양한 외부의 자극과 요인에 의해 작용하게 됩니다.



이때, transcription factor가 부착하는 위치를 transcription factor binding site(TFBS)라고 합니다. 이러한 유전자 조절에 중요하게 작용하는 transcription factor binding site들의 정보들을 제공하고 분석할 수 있는 툴인 TRANSFAC에 대해서 소개하려고 합니다.

TRANSFAC은 geneXplain사에서 제공하는 데이터베이스 겸 분석툴로써 진핵생물의 transcription factor나 binding site, 유전자나 단백질, pathway 등에 관한 다양한 정보들을 담고 있습니다.



그 중, 가장 주된 기능은 positional weight matrix(PWM)의 라이브러리를 활용하여 서열 내의 TFBS를 예측하는 것입니다. TFBS 분석은 일반적인 방법으로 분석하는 Match, 한 쌍의 TF를 찾아주는 composite model과 overrepresented TFBS를 찾아주는 FMatch가 있습니다. 가장 보편적으로 사용되는 방법은 Match 방법으로 미리 큐레이션 되어 있는 Matrix를 가지고 TFBS를 예측합니다.

TFBS 예측을 위해서는 Matrix 리스트들이 있어야 하는데 이 list들이 만들어지는 패턴은 아래와 같습니다.

다양한 논문 등으로부터 수집되어진 TFBS 서열을 행렬로 만들어 PWM 라이브러리를 생성합니다. 이 라이브러리를 이용하여 input으로 넣어준 서열과 설정해둔 cut-off 값에 따라 해당하는 PWM을 검색하여 서열상에서 TFBS을 유추할 수 있습니다.

아래의 실제 wizard를 함께 보시죠.



분석할 파일을 넣고 method에서 Match, FMatch, composite model 중 원하는 분석을 선택한 다음 cut-off 값을 세팅하여 분석을 진행하면 아래와 같이 TFBS를 예측하여 결과를 보여줍니다.



분석한 서열상에 존재할 수 있는 모든 TFBS들을 테이블 형태로 보여주며 matrix ID를 클릭하게 되면 해당 matrix에 대한 자세한 정보를 확인할 수 있습니다.



또한, Matrix는 어떻게 구성이 되었는지 reference 정보와 서열 그리고 어떤 실험을 통해 증명된 데이터인지 리포트를 통해 확인할 수 있습니다.

이처럼 TRANSFAC을 이용하면 binding site를 쉽게 예측할 수 있으며, 해당하는 transcription factor 정보 및 관여하는 유전자 정보 등 전문가 큐레이션을 통한 신뢰도 높은 다양한 정보들을 한 번에 확인할 수 있습니다.

* Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061으로 문의주시기 바랍니다.



Posted by 人Co

2017/11/27 15:53 2017/11/27 15:53
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/267

Power with Simplicity

Sequencher는 DNA 서열 데이터를 빠르게 분석하여 결과를 제공하는 소프트웨어입니다. 특히, sanger sequencing 데이터로부터 assembly 후 variation 정보를 찾아주는데 포커싱 되어 있어 특정 영역의 SNP 분석에 굉장히 유용하게 평가되고 있습니다. 최근 5버전대로 업그레이드가 되면서 NGS 데이터까지 분석이 가능하도록 기능이 확장되었고, 커맨드라인으로만 분석 가능했던 퍼블릭 툴들을 초보자들도 사용하기 쉽도록 GUI를 제공하여 편의성을 더해주었습니다.



그럼 NGS 데이터를 이용하여 실제적으로 어떤 분석이 가능한지 살펴볼까요?


Next-Gen Sequencing

[Reference assembly]

Sequencher에서는 NGS 데이터를 이용하여 reference assembly 시 이용하는 3개의 큰 알고리즘(Maq, GSNAP, BWA-MEM)이 있습니다. Maq이나 GSNAP을 통해 assemgbly 분석을 진행하면 SNP 분석도 함께 가능하며, 그 결과 값은 Tablet이나 Maqview를 이용하여 확인할 수 있습니다. 커맨드라인으로 제공하던 BWA-MEM도 GUI를 통해 다양한 옵션값을 손쉽게 설정할 수 있습니다. GSNAP이나 BWA-MEM로부터 얻은 VCF 포맷의 variant 정보는 SAMtools를 이용하여 분석할 수 있습니다.





[De novo assembly]

Reference 정보가 없는 de novo assembly의 경우에는 Velvet 알고리즘을 지원하고 있습니다. Velvet 또한 GUI를 제공함으로써, Tablet으로 결과값을 확인할 수 있고, 다양한 옵션값을 쉽게 설정할 수 있습니다.




[RNA-seq]

최신버전에서는 Differential Gene Expression(차등유전자발현) 연구를 위해 가장 많이 이용되는 RNA-seq 툴 중 하나인 Cufflinks를 플러그인으로 사용할 수 있습니다. Cufflinks 는 SAM 파일로부터 align된 reads를 가지고 GTF annotation 파일을 이용해 다시 align 하며, 다른 isoform과 transcript를 찾아줍니다. 이후 Cuffmerge를 통해 Cufflinks에서 나온 두 개의 transcript 파일을 하나의 transcript consensus 파일로 만들어 줍니다. 이 파일은 차등유전자발현 분석을 하는 Cuffdiff에 사용됩니다. Sequencher는 Cuffdiff에서 나오는 최종파일들(volcano plot, scatter plot, bar chart)을 다루며 발현 레벨에서 차이점을 그래픽으로 보여줍니다.







Connections
[BLAST & primer-BLAST]
Sequencher Connections는 Sequencher의 통합 웹 확장 툴이며, 이를 이용하여 2개 이상의 분석들을 동시에 진행할 수 있습니다. 다중 BLAST를 진행할 수 있어, 각 서열의 분석 결과를 실시간으로 빠르게 얻을 수 있습니다. 같은 서열로 다른 파라미터 조건을 주어 BLAST가 가능하며, 동시에 Local BLAST 까지도 수행할 수 있습니다. 또한 primer design을 위한 primer-BLAST를 할 수 있고, 해당 서열의 특정 영역을 확인 후 Sequencher Project에 예측된 primer를 저장할 수 있습니다. BLAST 검색 결과를 Web view 탭을 통해 뷰어할 수 있고, 이는 36시간 내에 다시 불러올 수 있으며, 그 이후로는 접근이 어렵습니다.



[MUSCLE alignment]
만일 여러 개의 서열로 그룹 분석을 하고 있다면, 다중서열정렬 알고리즘 중 가장 빠른 MUSCLE을 가지고 alignment를 할 수 있습니다. Sequencher Connections에서는 MUSCLE alignment를 다양한 옵션값으로 할 수 있고, alignment 이 후 phylogenetic tree도 생성할 수 있어 서열간의 유연관계도 확인할 수 있습니다.



이렇게 Sequencher에서는 NGS 분석까지 가능하도록 툴들이 확장되고 있습니다. 특히나 커맨드라인의 툴들을 사용하기 어려운 일반 생물학자들도 쉬운 인터페이스를 가진 Sequencher를 이용하여 NGS assembly를 진행할 수 있습니다. 그럼 Sequencher를 통해 NGS의 다양한 분석을 진행해 보세요.


작성자 : Codes실 Consulting팀
송하나 주임 컨설턴트

Posted by 人Co

2016/09/07 13:21 2016/09/07 13:21
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/220

Inova Genomes : Sequenced Whole Genome Data

최근 QIAGEN Bioinformatics에서는 다양한 인종 및 질병/환자/가계 정보들이 포함된 Whole Genome Database를 런칭하였습니다. 이는 Inova Translational Medicine Institute 라는 의학연구소에서 병원과 함께 환자들의 medical history 및 genome sequence를 수집하였으며 이러한 데이터들이 기존의 질병 유전체 연구 또는 임상연구의 한계를 극복해줄 것이라 생각되어집니다.

Inova Translational Medicine Institute
Inova Translational Medicine Institute(ITMI)는 비영리 연구기관으로 다양한 분야의 연구자들이 유전체와 임상적 데이터를 사용 할 수 있도록 하는 것을 목표로 개인의 유전체와 임상 정보를 이용하여 맞춤의료를 위한 혁신적인 방법 개발에 힘쓰고 있습니다. ITMI는 2011년 2월 1일에 설립되어 clinical, bioinformatics, laboratory 세 분야로 나누어 100명의 과학자와 임상의사, 간호사, 유전자 카운슬러, 실험실 기술자들이 배치되어 있습니다.

Inova Genomes
ITMI에서 선보인 Inova Genomes는 다양한 인종 및 다양성을 가지는 human whole genome 시퀀싱 결과와 개개인의 진료 기록 정보(진료기록 정보 외에는 모두 기밀)가 함께 수집된 데이터베이스이며 약 2,100건의 가계 정보 및 약 7,000명의 whole genome sequence를 가지고 있으며 매 년 2,500명 정도의 데이터들이 추가되고 있습니다. 환자의 식별은 불가능하지만 각 정보가 Electronic Health Record와 연결이 되어있으며 증상에 대한 문진데이터, demographics, 처방이나 가계에 대한 정보들도 포함되어 있습니다. 또한 환자와 환자 가족들의 동의하에 등록이 되어 있고 시간이 지남에 따라 동일 환자의 데이터 업데이트가 가능합니다. 또한 100개 이상의 국가에서 다양한 가족의 정보 및 모든 주요 기관계의 다양한 phenotype 데이터를 보유하고 있습니다. 뿐만 아니라 RNA-seq, miRNA이나 methylation 데이터 같은 실험데이터들도 포함하여 유전체 레벨 외의 분석을 위한 데이터셋으로도 활용이 가능하며, 양질의 pre-annotated, pre-computed 실험적 데이터를 제공합니다.


표 1. Study별 Inova Genomes 데이터 통계(2015년 7월 30일 기준)



표 2. 질병/나라별 Inova Genomes 데이터 통계


Data-set

전체 데이터의 30%는 Complete Genomics 데이터 셋(coverage=60X)이며, 나머지 70% 데이터는 Illumina 데이터 셋(coverage=40X)으로 구성되어 있습니다. 그 중 Trio 데이터셋 62개, quartet 데이터 2개는 Complete Genomics나 Illumina 두 개의 플랫폼에서 모두 진행하였습니다. 아래 그림1 에서 보시면 320만개의 SNP가 공통적으로 발견이 되어 데이터의 높은 신뢰성을 보여줍니다.



그림 1. Inova Genomes SNP 데이터 퀄리티


Data-field
해당 데이터베이스 내에는 생 후 1000일 간의 종적연구를 위해 아래와 같은 다양한 데이터필드도 존재합니다.

- Demographics : age, gender, ethnic background
- Personal & family health history : family history cancer/diabetes/cardiac types
- Treatment/pharmaceutical records : drug name, dose, frequency
- Laboratory & diagnostic test results : glucose level, CBCs
- Clinical data : BMI, height
- Clinical encounter : Admission to NICU
- Etc.

지금까지 Inova Genomes의 특징에 대해서 알아보았습니다. Inova Genomes과 다른 데이터베이스를 비교해보면 먼저, Personal Genomes Project는 300명 미만의 genome 정보를 가지고 있지만 Inova Genomes는 약 7,000명의 genome 정보를 가지고 있어 human의 genome 정보를 수집하는데 필요한 시간과 비용을 상당히 줄일 수 있습니다. 그리고 1000 Genome Project의 경우 7X coverage를 가지고 있어 정확도가 낮지만 Inova Genomes의 경우에는 최소 40X의 coverage로 높은 정확도를 가지고 있습니다. Kaviar나 EVS는 유럽인들에 대해 집중이 되어 있는 반면, Inova Genomes는 다양한 인종들에 대한 정보를 다수 포함하고 있습니다. 그 밖에도, 데이터의 수집에 대한 환자의 동의가 있어 지속적으로 follow up이 가능하여 분석 결과의 지속적인 업데이트가 가능하고, 2,100건 이상의 혈연 정보가 등록이 되어있어 trio 분석이 가능하여 가계도 내 유전적 질병을 파악하거나 분석하는데 용이하다는 뛰어난 장점을 가지고 있으며, Inova Genomes 에 있는 데이터를 이용하여 cohort를 마음껏 구성하여 비교분석도 가능합니다.
점점 더 저렴해지고 있는 시퀀싱 비용으로 규칙 없이 시퀀싱 데이터만 빠르게 생산되는 현재 시대에 공개되어 있는 데이터는 많은데 비해 자세한 정보가 없어 활용하기 힘든 의미 없는 데이터들뿐인 요즘. 특히나 다양한 케이스의 trio 데이터를 찾기는 더더욱 힘드셨을 거라고 생각됩니다. Inova Genomes에서는 지금 우리가 겪고 있는 고민들을 해결해 줄 수 있도록 데이터 정보에 대한 체계화 및 데이터의 계속적인 업데이트, 다양한 trio 데이터셋의 제공으로 human 분야의 유전체 연구에 날개를 달아드릴 것입니다.


작성자 : Codes실 Consulting팀
서지혜 컨설턴트

Posted by 人Co

2016/09/07 10:42 2016/09/07 10:42
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/219

A Superior Solution for Microbial Genomics - 5



일반 미생물에서부터 난배양성 미생물들까지 모두 확인할 수 있는 방법으로 샘플을 자연상태에서 직접 채취하여 시퀀싱 하는 방법을 metagenome이라고 합니다. NGS가 발전하면서 간단하게 샘플의 16s rRNA를 추출 후 시퀀싱을 하여 해당 샘플내에 존재하는 미생물의 종류와 존재 비율을 알 수 있습니다.
CLC Microbial Genomics Module은 16s rRNA 데이터베이스를 다운로드 하는 것부터 OTU clustering, alpha/beta diversity, PERMANOVA 분석까지 가능하게 해주며 미리 구성되어져 있는 워크플로우를 이용해 시퀀싱 raw data를 넣어주는 것만으로 분석이 완료가 됩니다.

지금부터 보여드릴 데이터는 용의자의 신발 두 켤레에서 나온 흙과 범행현장이라고 예측되는 곳의 토양 샘플의 16s rRNA를 시퀀싱하여 metagenome 분석을 응용한 것입니다. 시퀀싱 데이터를 모듈에 내장되어 있는 'Data QC and OTU Clustering'이라는 워크플로우에 넣어주면 trimming부터 OTU clustering까지 자동으로 진행되게 됩니다.



OTU clustering을 위한 워크플로우



이 워크플로우의 분석 결과로 data trimming report와 OTU clustering 결과를 볼 수 있는데 이 결과는 sunburst chart나 bar chart로 제공됩니다. 각 샘플별 clustering 결과에 metadata를 추가하여 특정 그룹으로 묶어 그룹간의 비교가 가능합니다.




그룹간의 OTU clustering bar chart

이후 OTU clustering 결과를 가지고 데이터의 taxonomy가 충분히 맵핑 되었는지 확인하기 위해 alpha diversity 분석을 수행하고, 샘플간 혹은 그룹간의 유사도를 보기 위해 beta diversity를 수행하게 됩니다. 그리고 MUSCLE 알고리즘을 이용한 alignment를 진행하고 phylogeny tree를 그려서 각 시퀀스간의 연관성을 확인합니다.



 

Diversity 확인 및 phylogeny tree 분석을 위한 워크플로우



두번째 워크플로우 분석 결과중 하나인 beta diversity의 결과를 함께 봅시다. Metadata를 이용하여 그룹을 지어주면 같은 그룹끼리 같은 색상으로 바뀌게 되며 그룹간 샘플간의 비교분석이 가능합니다. 아래의 그림에서 파란색 동그라미와 노란색 동그라미는 각각 다른 그룹을 의미하지만 유사도의 거리를 따졌을 경우 비슷한 것을 확인 할 수 있습니다 (일치라도 해도 될 정도로 유사함). 따라서 파란색과 노란색은 같은 토양 샘플이라고 잠재적 결정을 내릴 수 있으며, 용의자는 A 부츠를 신고 1번 site에 간 적이 있었다고 결론을 지을 수가 있겠습니다.




Beta diversity 분석 결과



1
6s rRNA를 이용한 metagenome 분석은 이러한 범인을 찾는데에 응용하는 것 외에도 특정 질병이 잘 걸리는 장내 환경을 조사해볼 수도 있고, 특정 작물이 잘 자라거나 특별히 잘 자라지 않는 토양에서의 미생물 분포를 알아볼 때도 사용할 수 있습니다.

CLC Microbial Genomics Module을 이용하여 우리눈에 보이지 않는 미생물들의 구성과 그 microbial community의 역할 및 특징들을 알아보고 싶으시면 지금 바로 trial 해보세요!


 <  이전화 보기  >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/08/30 09:55 2016/08/30 09:55
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/215

A Superior Solution for Microbial Genomics - 4



PacBio 플랫폼을 이용한 whole genome sequencing 데이터를 가지고 CLC Genome Finishing Module을 이용해서 고급단계의 de-novo assembly가 가능합니다. 현재 다양한 시퀀싱 장비들이 출시되어있지만 가장 긴 read 결과를 자랑하는 PacBio의 raw data(H5 포맷)의 경우에는 기존의 CLC Genomics Workbench만으로 분석이 불가능한 포맷이며 기존 장비에서 생산되는 데이터의 포맷들과는 다른 특징들을 가지고 있어서 PacBio 시퀀싱 결과를 다루기 위한 또 다른 분석툴이 필요하게 되었습니다.


CLC Genomics Finishing Module Workflow



GFM_tech_note.pdf

CLC Genomics Finishing Module Workflow 자세히 보기




PacBio 장비의 데이터는 길이가 긴 장점이 있지만 데이터의 에러율이 타 플랫폼에 비해 많이 높습니다. 이러한 점을 보완하기 위하여 CLC Genome Finishing Module에는 error correction 분석 툴이 있으며 이를 이용하여 보정된 서열들을 가지고 de-novo assembly를 수행하게 됩니다. 이렇게 만들어진 contig들은 reference가 있는 경우 이를 기준으로 alignment가 가능하고(reference가 없어도 alignment가능) alignment 결과에서 오버랩 되는 부분들을 직접 보고 두 개의 contig 매뉴얼하게 연결할 수 있습니다. 따라서 직접 연구자들이 눈으로 보고 contig의 개수를 줄이면서 유전체 서열의 finishing 작업을 수행할 수 있습니다.


Contig Joining 



De-novo assembly를 진행 후 contig 분석을 통해서 low coverage 또는 broken pair 영역 또는 gap 부분에 대한 추가적인 확인이 필요할 경우가 생깁니다. 보통 해당 부분을 증폭하여 re-sequencing을 진행하는 절차를 진행하는데, 이때 필요한 primer design 툴도 함께 제공하고 있습니다. 해당 영역에 새로운 sequence read가 추가되면 다시 처음부터 분석을 해야할까요? 그렇지 않습니다. CLC Genome Finishing Module은 기존의 assembly데이터에 새로운 sequence read를 특정한 contig에만 다시 맵핑하여 필요 영역을 채워나갈 수 있습니다.


Create Amplicon Tool을 사용하여 amplify할 부분을 확인

기존 PacBio 시퀀싱 데이터의 분석 결과에 대해서 만족스럽지 못하셨다면 CLC Genome Finishing Module을 한 번 이용해보는 것은 어떨까요? 당사로 연락주시면 2주간의 trial 라이선스를 제공해 드립니다. 단, CLC Genome Finishing Module은 CLC Genomics Workbench를 기반으로 한 모듈 이라는 점 명심해주세요.

 <  이전화 보기 |  다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/06/02 07:48 2016/06/02 07:48
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/214

A Superior Solution for Microbial Genomics - 3

우리 몸을 구성하는 세포의 반 이상이 미생물 군집들로 차지하고 있습니다. 따라서 미생물의 분류학적, 유전적 기질은 사람, 동물 그리고 식물의 건강과 밀접한 관계를 가지고 있습니다.

특히 아직은 미생물의 유전적 기능 구성에 대한 정보가 구축되기에 어려움이 있고, 현재 metagenomics 분석 도구들도 기능적 구성이나 샘플간 변화 등을 정확하게 예측하기 위해 노력하고 있습니다. [Lindgreen et al. 2015].

만약 metagenome data를 de novo assemble 할 수 있고, 신뢰할 수 있는 기능 예측 결과를 통해 통계적으로 유의하게 변화된 것을 밝히는 분석도구가 있으면 어떨까요? 이러한 분석 도구가 NGS 데이터의 분석 표준이 되고 미생물 분석을 위해 최적화된다면 연구자분들에게 굉장한 도움을 줄 수 있을 것입니다.

미생물의 metagenomics 분석을 위한 플러그인인 CLC Microbial Genomics Module의 기능과 성능을 확인해 보세요.


결과 정확도

Figure 1. Metagenome 내 높은 정확도의 유전자 기능 예측 및 추적

2016년 1월에 Nature Scientific Reports에 14개의 다른 whole metagenome 분석 도구의 평가 결과에 대해 개재했습니다. 공개된 테스트 데이터를 이용해서metagenome의 기능적 분석이 가능한 5개를 선별하여 CLC Microbial Genomics Module과 비교했습니다. CLC Genomics Workbench에서 제공된 edge 테스트를 이용하여 통계적 분석을 진행하였고, photosynthesis, nitrogen fixation, pathogenesis에 대하여 분석을 진행하였습니다. (*는 통계학적으로 유의한, 정확한 변화를 일관적으로 예측하는 도구를 가리킵니다.)

Metagenomic 데이터를 바탕으로 미생물 군집에서 유전자 기능을 찾는 것은 어렵습니다. 더욱이 다른 metagenome 샘플간의 기능적 성질의 변화를 정확하게 측정하는 것은 더 어렵습니다. QIAGEN 솔루션은 미생물 유전체 분석에서 기능적인 차이를 정확히 찾고 정량화 할 수 있습니다. 또한 샘플간의 통계적으로 유의한 차이를 비교할 수 있도록 해줍니다.

여러 샘플의 비교는 샘플간의 기능적 변화를 찾고, 유사하거나 다른 기능적 요소를 분석하는데 쓰입니다.

Figure 2: 미생물 샘플들 전반에 걸친 기능적 비교

Metagenome에서 기능적 변화를 찾는 알고리즘은 많이 알려져 있지 않고, 기준이 되는 우수한 모델의 데이터셋이 없기 때문에 어려운 일입니다. 이런 어려움을 극복하기 위해 해당 연구결과에서는 기능을 파악하고 있는 두 합성 미생물 군집으로부터 각각 세개의 데이터셋(A1, A2, A3, B1, B2, B3)들을 만들었습니다.

Figure 2에서 보이는 것과 같이, CLC Microbial Genomics Module은 예측된 기능적 요소들의 비율을 바탕으로 두 개의 군집을 구분 할 수 있습니다.


Metagenome assembly 품질

새로운 Meatgenome assembler에서는 고품질의 어셈블리 결과를 생성하고 유전자 기능을 확인할 수 있습니다.

아래의 Table에서 CLC Microbial Module의 metagenome assembler와 다른 툴에서 misassembly, INDEL, mismatch error 등 다양한 지표들에서 어떤 차이가 나는지 비교해 줍니다.

Table 1 : Metagenome assembly의 품질 

QIAGEN metagenome assembler는 더욱 정확한 annotation을 가능하게 합니다. 데이터셋의 실제 길이는 209,845,413 base입니다.

 

실행 시간과 자원 효율성 계산

샘플의 크기가 크거나 데이터의 양이 많을때는 분석 실행시간과 요구되는 리소스가 매우 중요합니다.

테스트 데이터를 가지고 CLC Microbial Genomics Module의 어셈블러와 다른 어셈블러를 비교하였을 경우 분석 시간이 더 짧고 효과적이게 리소스를 이용하는 것을 확인하였습니다.

Figure 3. 최고의 metagenome assembly 분석도구


다른 metagenome 어셈블러들과 분석 시간과 리소스 사용면에서 비교하였을 때 우수한 결과를 보였습니다. (*MegaHit는 분석시간을 늘리면서 컴퓨터 메모리 소비를 줄이고 있습니다.)

 
분석에 소요하는 시간 축소


CLC Genomics Workbench 내의 workflow라는 기능을 이용하면 분석에 소요되는 시간과 노력을 크게 줄일 수 있습니다. 한번에 여러개의 데이터를 넣어줄 수도 있어 분석에 소요되는 시간과 동력을 절감시켜 줍니다.

Figure 4. 효율적인 workflow 기능


 <  이전화 보기 다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/25 17:03 2016/05/25 17:03
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/213



« Previous : 1 : 2 : 3 : 4 : Next »