NGS 데이터 분석을 위한 ALL-IN-ONE PACKAGE '555' 이벤트 Ⅱ
- Posted at 2019/04/17 17:06
- Filed under 제품소식

Posted by 人Co
- Response
- No Trackback , No Comment
- RSS :
- https://www.insilicogen.com/blog/rss/response/310
Posted by 人Co
지난 10년간 연구자들에게 많은 사랑을 받으며, NGS 분석을 위한 기초 툴로써 자리를 잡은 CLC Genomics Workbench가 2018년 11월 28일에 12버전으로 정식 릴리즈 되었습니다. 사용자 편의성을 도모하기 위해 많은 부분이 변경되었는데요, 주요한 변화들에 대해서 함께 알아보도록 하겠습니다.
CLC Genomics Workbench 11버전 interface로 변경된 지 4년 정도가 지났습니다. 그리고 이번 메이저 업그레이드에서 CLC Genomics Workbench가 새로운 옷을 입었습니다.
메인화면
전체적인 구성이나 아이콘에는 큰 변화가 없지만, 프로그램을 실행하고 나면 뷰어 화면에 시작하는 방법, 데이터 import를 도와주는 화면이 있으며 예제 데이터도 간단히 다운로드하여 사용하실 수 있습니다. 또한, 자주 사용할법한 도움말들을 뷰어 화면에 배치하여 처음 CLC Genomics Workbench를 사용하는 입문자들도 기존에 비해 접근이 용이하도록 구성했습니다.
[그림 1] 메인화면의 변화(위-11버전, 아래-12버전)
Import 메뉴의 변경
Import 화면을 보시면 기존의 11버전보다 두 가지 항목이 추가되었습니다. QIAGEN에서 나온 NGS sequencing platform인 GeneReader를 읽을 수 있게 되어 있으며 기존의 Biomedical Genomics Workbench에만 있던 'Import Primer Pairs'가 추가되어 QIAGEN gene panel primer 파일을 바로 가져올 수 있습니다.
[그림 2] Import 메뉴화면
Navigation Area의 변화
기존 Navigation Area 내에서 파일 혹은 폴더의 순서를 변경할 때, 파일이 생성되거나 옮겨진 순서대로 정렬되어 원하는 대로 정렬하기가 쉽지 않았습니다. 이번 업그레이드 통해 파일이나 폴더를 쉽게 드래그 앤드 드롭으로 순서를 변경할 수 있게 되었습니다. 또한, 상단의 Navigation Area에서 데이터에 마우스를 가져다 대면 뜨던 정보안내 말풍선 창의 정보가 추가되었습니다. 기존 버전에서는 이름만 표시됐던 반면에 12버전에서는 용량과 파일의 포맷을 함께 나타내줍니다.
[그림 3] 데이터 타입과 용량 정보 보여주기
자동파일압축
이번 업그레이드에서 놀라운 기능은 기본적으로 압축 기능이 추가되었다는 점입니다. 같은 파일을 동일한 조건으로 분석했을 때, 11버전에서는 149MB였던 결과 파일이 12버전에서는 92MB로 30% 정도 용량을 아낄 수 있게 되었습니다. 기존의 100TB 용량을 이제 130TB처럼 사용하실 수 있습니다.
[그림 4] 자동 파일 압축 및 약 30% 저장용량 절약
레퍼런스 데이터 다운로드 방법 변경
기존에는 우측 상단의 Download 아이콘에서 Reference를 선택하여 열리는 창에서 'Download Reference Genome Data'를 다운로드할 수 있었습니다. 새롭게 변경된 UI에서는 Biomedical Genomics Workbench처럼 우측 상단의 'References'라는 아이콘을 이용하여 레퍼런스 데이터를 다운로드할 수 있습니다. Reference 아이콘을 누르면 하단의 그림 중 아래 화면 같은 창이 뜨게 되며 여기서 원하는 종 혹은 원하는 데이터를 골라 다운로드합니다.
[그림 5] 레퍼런스 데이터 다운로드 인터페이스 변경
Toolbox의 구성 변경 1
plug-in로 제공됐던 'Bisulfite Sequencing'툴이 별다른 설치 없이 기본적으로 탑재 되었습니다.
[그림 6] Bisulfite Sequencing 분석폴더 디폴트로 추가
Toolbox의 구성 변경 2
툴박스의 폴더 구성을 보시면 'NGS Core Tools'가 사라지고, 'Prepare Sequencing Data'라는 폴더에 trimming이나 demultiplex 관련한 툴들이 배치되어 있으며, 'Installed Workflow'로 기존의 'Workflow' 폴더의 이름이 변경되었으며, 'Utility Tools'라는 폴더가 추가되었습니다.
[그림 7] 분석폴더의 재구성
Toolbox의 구성 변경 3
새롭게 추가된 툴에 대해서 소개해 드리면 copy number variant를 분석할 수 있는 툴, variant에서의 정보를 제거하는 부분, RNA-seq을 진행할 때 두 그룹일 때에는 별다른 metadata 없이 진행할 수 있도록 'Different Expression in Two Groups'가 추가되었으며 plug-in으로 사용하던 'Batch Rename'이 추가되었습니다.
[그림 8] 추가된 새로운 툴
몇 개의 툴들은 이름이 변경되었습니다. [그림 9] 이미지를 참고해주십시오.
[그림 9] 이름이 변경된 툴
QIAseq panel reference 다운로드
Reference Data를 다운로드하는 곳으로 가보면 두 번째 아이콘에 QIAGEN Sets라는 아이콘이 있습니다. 이 아이콘을 선택하면, QIAseq Panel에 관련된 reference만 선택적으로 다운로드할 수 있습니다. QIAGEN의 panel을 가지고 나온 데이터를 보다 더 쉽게 분석할 수 있도록 CLC Genomics Workbench에 적용하였습니다.
[그림 10] QIAseq 분석에 찰떡인 QIAGEN Sets 다운로드
손쉬운 서버 프로그램과의 연동
Workbench desktop 버전과 server의 연동에 관련된 부분입니다. 창의 아래쪽 표시줄에 보면 S라고 되어있는 사각형 아이콘이 생성되어 있습니다. 이 버튼을 누르면 Server Connection 창이 뜨게 되고 쉽게 server와 연결할 수 있고 연결 상태를 하단에서 바로 확인할 수 있습니다.
[그림 11] 메인화면에서 연결되는 CLC Server Connection
Track 뷰어의 변화
아래 화면([그림 12])은 read mapping의 track 화면입니다. Track에서 position을 보여주던 숫자가 위치하고 있던 맨 윗부분 위로 크로모좀 뷰어가 추가되었습니다. read 색깔은 unpair/pair 그리고 mismatch까지 색상 지정을 자유롭게 하실 수 있으며 aligned read의 하단에 있던 overflow graph가 read 상단으로 올라와 새로운 coverage graph를 보여줍니다. 그와 동시에 read를 검토할 때 불편했던 위아래 이동에 스크롤바가 추가되어 편하게 read의 alignment를 살펴볼 수 있습니다.
[그림 12] Intuitive 하게 변경된 Track 뷰어 인터페이스
Differential Expression for RNA-seq툴의 개선
기존 버전에서 불가능했던 RNA-seq에서 normalization 방법도 설정할 수 있습니다. 기본적인 whole transcriptome RNA-Seq과 targeted RNA-seq, Small RNA 분석을 따로 설정할 수 있으며 normalization도 TMM과 Housekeeping gene으로 가능합니다.
[그림 13] 세분화된 차등발현 유전자 분석 툴
Differential Expression in Two Group 추가
두 그룹 간의 RNA-seq 비교일 경우 별도의 metadata 없이 control과 study 그룹을 wizard에서 설정하여 분석할 수 있도록 구성되어 있습니다.
[그림 14] 두 그룹간의 비교 화면
Export 기능의 개선
Annotation을 export할 때 생기던 에러가 해결되었습니다. 기존에 엑셀 포맷으로 export 할 경우에는 모든 칼럼을 전부 export 하던지 혹은 필요한 칼럼만 체크해서 export를 할 수 있었습니다. 현재 내가 보고 있는 화면대로 원하는 칼럼만 export 하려면 다시 체크해야 되는 번거로움이 있었습니다. CLC Genomics Workbench 12버전 업그레이드를 통해 현재 보고 있는 칼럼만 그대로 export 하는 기능이 추가되어 다시 골라야 하는 번거로움을 없앴습니다.
[그림 15] 화면 그대로 간편하게 export 하기
이번 업그레이드로 많은 부분이 바뀌게 되었습니다. 기대하셨던 부분이 반영되었을 수도 있고, 아직 부족한 부분도 있을 거라고 생각이 됩니다. CLC Genomics Workbench는 사용자의 많은 의견을 반영하여 10년 넘도록 꾸준히 업그레이드 되고 있습니다. 업그레이드된 12버전을 통해 새로운 기능들을 확인해보시기 바랍니다.
구버전의 CLC Genomics Workbench를 이용하시는 분 중 12버전으로 업그레이드가 필요하신 분들은 12월 한 달 동안 진행되는 연말 프로모션을 적극 활용하시기 바랍니다.
Posted by 人Co
NGS (Next-Generation Sequencing) 관련 기술의 발전과 비용 절감으로 인해 NGS는 일반적인 유전체 연구뿐만 아니라 정밀 의학에서도 중요한 연구 수단으로 자리 잡고 있습니다. 국외는 물론이고 국내에서도 여러 의료기관과 연구기관에서 NGS를 이용한 임상 유전체 연구가 활발하게 이루어지고 있습니다. 하지만 한 번의 NGS로부터 많은 수의 변이 (variant)가 발견되고 그것들의 임상적 의미 (Clinical significance)를 해석하는데 어려운 경우가 많습니다.
(주)인실리코젠에서는 이러한 NGS 변이들에 대해 임상적 유의성과 action-ability를 평가하는 임상 의사 결정 지원 솔루션인 QIAGEN Clinical Insight Interpret (QCI-I)에 대해서 소개하고자 합니다.
그림 1. < QIAGEN Clinical Insight Interpret (QCI-I) >
QIAGEN Clinical Insight Interpret (QCI-I)는 웹 기반의 소프트웨어로, NGS로부터 도출된 변이들에 대해서 QIAGEN Knowledge Base를 이용한 주석 (annotation), 분류 및 해석 (classification / Interpretation), 보고서 생성 (reporting)을 지원합니다. 또한, Somatic 과 Germline/Hereditary 로 파이프라인이 나누어져 있어 분석 샘플에 맞는 파이프라인을 선택하여 진행할 수 있습니다. VCF 파일과 metadata 업로드를 통해 누구나 쉽게 진행할 수 있으며, Fusion, CNV 데이터를 추가할 수 있습니다.
QCI-I의 특징은 다음과 같습니다.
웹 기반 인터페이스로 편리한 접근성과 사용법이 간단하고, 임상적 유의성과 actionability를 평가하는데 드는 시간과 비용을 단축할 수 있습니다.
Manually 큐레이션된 방대하고 신뢰성 높은 QIAGEN Knowledge Base를 사용합니다.
ACMG/AMP (hereditary)와 AMP/ASCO/CAP (somatic) 가이드라인에 따라 변이를 분류합니다.
분석 샘플의 변이에 관련된 치료 (treatment), 임상 시험 (clinical trials) 정보를 제공합니다.
최종 보고서의 커스터마이징이 가능합니다.
VCF (Variant Call Format) 파일을 사용하여 분석함으로써, NGS 플랫폼에 관계없이 사용할 수 있습니다.
이전 데이터 결과들을 재사용하여 Lab-specific variant database 구축이 가능합니다.
QIAGEN Knowledge Base
QCI-I는 오랜 기간을 거쳐 manually curation된 QIAGEN Knowledge Base를 기반으로 변이를 해석 및 평가합니다. Knowledge Base에는 천만여 개 이상의 biomedical 정보들이 들어있고 16년 이상 지속되어 온 방대하고 신뢰성 높은 Database입니다. 데이터 대부분이 주 단위 (weekly)로 업데이트 되며 사용자는 항상 최신의 정보를 제공 받습니다.
QIAGEN Knowledge Base는 공개된 생물학적 데이터뿐만 아니라 상용 데이터까지 통합되어 있고, 이 데이터들에 대하여 임상적인 관련성까지 정리되어 있습니다. 연구자, 임상의, 제약회사 등 여러 분야에서 지속해서 사용되고 있으며 20,000번 이상 인용되었습니다. Knowledge Base를 사용하면 raw public data 혹은 computational prediction tool 들을 사용하는 것보다 변이 분류 (variant classification)의 오류를 줄일 수 있습니다. 이러한 database를 구축하는 일은 어렵고 많은 시간과 비용이 소모되지만 QIAGEN Knowledge Base를 이용하면 시간과 비용을 줄이고 효율적이고 신뢰도 높은 변이 분석 결과를 얻을 수 있습니다.
Knowledge-based Variant Classification
QCI-I는 Knowledge Base를 기반으로 Germline 혹은 Somatic testing에 따라 변이의 pathogenicity 와 actionability를 측정하여 제공합니다.
그림 3. < Professional guideline을 따르는 QCI-I의 Variant clssifications >
아래 그림 4처럼 Variant list 탭에서 검출된 변이들에 대한 기본적인 정보를 확인할 수 있고, 각 변이를 선택하여 자세한 사항을 확인할 수 있습니다. Pathogenicity에 따라 색으로 구분되어 직관적인 확인이 가능합니다.
Treatment & Clinical Trials
선택한 변이가 해당 단백질에 미치는 기능적 영향 (functional effect on protein), treatment 정보와 현재 진행되고 있는 clinical trial들에 대한 정보도 제공하며, 이 정보는 주 단위 (weekly)로 업데이트되어 항상 최신의 정보를 받을 수 있습니다.
Clinical Cases & Papers
해당 변이에 대해 같은 질병에서 보고된 임상 케이스, 관련된 논문 등에 대한 정보를 제공합니다. 아이콘을 클릭하면 각각의 세부정보 확인이 가능합니다. 임상 케이스와 논문 내용도 추후 최종 보고서에 일괄적 혹은 선택적으로 추가할 수 있습니다.
그림 6. < 변이에 대해 보고된 임상 케이스와 관련된 논문 정보 >
Customizable & Actionable Report
Preview 페이지에서는 최종 report를 작성하기 전에 자유롭게 comment의 수정 및 추가를 할 수 있습니다. 기본적으로 유전자에 대한 설명이 있고 Edit 메뉴를 통해 추가 또는 삭제할 수 있습니다. 환자에 대한 전반적인 interpretation과 actionable 변이들에 대해 모든 comment 작성이 가능합니다.
최종 보고서 (actionable report) 는 아래 그림 8과 같습니다. 상단에 환자, 클라이언트, 샘플 정보가 나오고 Alterations Summary에 actionable mutation들에 대한 FDA 승인 약물, Clinical trial, 약물 저항성 등이 요약되어 있습니다. 하단에는 각 변이에 대한 자세한 정보가 나열됩니다.
그림 8. < QCI-I 최종 보고서 형식 >
그림 9. < QIAGEN Knowledge Base를 이용한 variant classification 비교 >
QCI-I를 통해 NGS Platform에 관계없이 전문적으로 큐레이션된 QIAGEN Knowledge Base를 이용해 검출된 변이들의 임상적 유의성과 actionability를 쉽고 빠르게 측정하는 경험을 해보십시오. Raw data부터 임상적인 의미를 얻기까지 전체 해석 시간을 줄이고 임상의에게 보고할 수 있는 임상 관련 데이터의 양을 늘리는 동시에 변이 해석 및 보고 프로세스의 모든 부분을 통합할 수 있을 것입니다.
* 더 자세한 정보와 Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061 로 문의주시기 바랍니다.
Posted by 人Co
Posted by 人Co
이때, transcription factor가 부착하는 위치를 transcription factor binding site(TFBS)라고 합니다. 이러한 유전자 조절에 중요하게 작용하는 transcription factor binding site들의 정보들을 제공하고 분석할 수 있는 툴인 TRANSFAC에 대해서 소개하려고 합니다.
TRANSFAC은 geneXplain사에서 제공하는 데이터베이스 겸 분석툴로써 진핵생물의 transcription factor나 binding site, 유전자나 단백질, pathway 등에 관한 다양한 정보들을 담고 있습니다.
그 중, 가장 주된 기능은 positional weight matrix(PWM)의 라이브러리를 활용하여 서열 내의 TFBS를 예측하는 것입니다. TFBS 분석은 일반적인 방법으로 분석하는 Match, 한 쌍의 TF를 찾아주는 composite model과 overrepresented TFBS를 찾아주는 FMatch가 있습니다. 가장 보편적으로 사용되는 방법은 Match 방법으로 미리 큐레이션 되어 있는 Matrix를 가지고 TFBS를 예측합니다.
TFBS 예측을 위해서는 Matrix 리스트들이 있어야 하는데 이 list들이 만들어지는 패턴은 아래와 같습니다.
다양한 논문 등으로부터 수집되어진 TFBS 서열을 행렬로 만들어 PWM 라이브러리를 생성합니다. 이 라이브러리를 이용하여 input으로 넣어준 서열과 설정해둔 cut-off 값에 따라 해당하는 PWM을 검색하여 서열상에서 TFBS을 유추할 수 있습니다.
아래의 실제 wizard를 함께 보시죠.
분석할 파일을 넣고 method에서 Match, FMatch, composite model 중 원하는 분석을 선택한 다음 cut-off 값을 세팅하여 분석을 진행하면 아래와 같이 TFBS를 예측하여 결과를 보여줍니다.
분석한 서열상에 존재할 수 있는 모든 TFBS들을 테이블 형태로 보여주며 matrix ID를 클릭하게 되면 해당 matrix에 대한 자세한 정보를 확인할 수 있습니다.
또한, Matrix는 어떻게 구성이 되었는지 reference 정보와 서열 그리고 어떤 실험을 통해 증명된 데이터인지 리포트를 통해 확인할 수 있습니다.
이처럼 TRANSFAC을 이용하면 binding site를 쉽게 예측할 수 있으며, 해당하는 transcription factor 정보 및 관여하는 유전자 정보 등 전문가 큐레이션을 통한 신뢰도 높은 다양한 정보들을 한 번에 확인할 수 있습니다.
* Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061으로 문의주시기 바랍니다.
Posted by 人Co
그럼 NGS 데이터를 이용하여 실제적으로 어떤 분석이 가능한지 살펴볼까요?
Next-Gen Sequencing
[Reference assembly]
Sequencher에서는 NGS 데이터를 이용하여 reference assembly 시 이용하는 3개의 큰 알고리즘(Maq, GSNAP,
BWA-MEM)이 있습니다. Maq이나 GSNAP을 통해 assemgbly 분석을 진행하면 SNP 분석도 함께 가능하며, 그
결과 값은 Tablet이나 Maqview를 이용하여 확인할 수 있습니다. 커맨드라인으로 제공하던 BWA-MEM도 GUI를 통해
다양한 옵션값을 손쉽게 설정할 수 있습니다. GSNAP이나 BWA-MEM로부터 얻은 VCF 포맷의 variant 정보는
SAMtools를 이용하여 분석할 수 있습니다.
Posted by 人Co
Inova Genomes
ITMI에서 선보인 Inova Genomes는 다양한 인종 및 다양성을 가지는 human whole genome 시퀀싱 결과와 개개인의
진료 기록 정보(진료기록 정보 외에는 모두 기밀)가 함께 수집된 데이터베이스이며 약 2,100건의 가계 정보 및 약
7,000명의 whole genome sequence를 가지고 있으며 매 년 2,500명 정도의 데이터들이 추가되고 있습니다.
환자의 식별은 불가능하지만 각 정보가 Electronic Health Record와 연결이 되어있으며 증상에 대한 문진데이터,
demographics, 처방이나 가계에 대한 정보들도 포함되어 있습니다. 또한 환자와 환자 가족들의 동의하에 등록이 되어 있고
시간이 지남에 따라 동일 환자의 데이터 업데이트가 가능합니다. 또한 100개 이상의 국가에서 다양한 가족의 정보 및 모든 주요
기관계의 다양한 phenotype 데이터를 보유하고 있습니다. 뿐만 아니라 RNA-seq, miRNA이나 methylation
데이터 같은 실험데이터들도 포함하여 유전체 레벨 외의 분석을 위한 데이터셋으로도 활용이 가능하며, 양질의
pre-annotated, pre-computed 실험적 데이터를 제공합니다.
Data-set
전체 데이터의 30%는 Complete Genomics 데이터 셋(coverage=60X)이며, 나머지 70% 데이터는
Illumina 데이터 셋(coverage=40X)으로 구성되어 있습니다. 그 중 Trio 데이터셋 62개, quartet 데이터
2개는 Complete Genomics나 Illumina 두 개의 플랫폼에서 모두 진행하였습니다. 아래 그림1 에서 보시면
320만개의 SNP가 공통적으로 발견이 되어 데이터의 높은 신뢰성을 보여줍니다.
Data-field
해당 데이터베이스 내에는 생 후 1000일 간의 종적연구를 위해 아래와 같은 다양한 데이터필드도 존재합니다.
- Demographics : age, gender, ethnic background
- Personal & family health history : family history cancer/diabetes/cardiac types
- Treatment/pharmaceutical records : drug name, dose, frequency
- Laboratory & diagnostic test results : glucose level, CBCs
- Clinical data : BMI, height
- Clinical encounter : Admission to NICU
- Etc.
Posted by 人Co
< 이전화 보기 >
(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)
Posted by 人Co
PacBio 플랫폼을 이용한 whole genome sequencing 데이터를 가지고 CLC Genome Finishing Module을 이용해서 고급단계의 de-novo assembly가 가능합니다. 현재 다양한 시퀀싱 장비들이 출시되어있지만 가장 긴 read 결과를 자랑하는 PacBio의 raw data(H5 포맷)의 경우에는 기존의 CLC Genomics Workbench만으로 분석이 불가능한 포맷이며 기존 장비에서 생산되는 데이터의 포맷들과는 다른 특징들을 가지고 있어서 PacBio 시퀀싱 결과를 다루기 위한 또 다른 분석툴이 필요하게 되었습니다.
CLC Genomics Finishing Module Workflow
CLC Genomics Finishing Module Workflow 자세히 보기
Contig Joining
De-novo assembly를 진행 후 contig 분석을 통해서 low coverage 또는 broken pair 영역 또는 gap 부분에 대한 추가적인 확인이 필요할 경우가 생깁니다. 보통 해당 부분을 증폭하여 re-sequencing을 진행하는 절차를 진행하는데, 이때 필요한 primer design 툴도 함께 제공하고 있습니다. 해당 영역에 새로운 sequence read가 추가되면 다시 처음부터 분석을 해야할까요? 그렇지 않습니다. CLC Genome Finishing Module은 기존의 assembly데이터에 새로운 sequence read를 특정한 contig에만 다시 맵핑하여 필요 영역을 채워나갈 수 있습니다.
Create Amplicon Tool을 사용하여 amplify할 부분을 확인
기존 PacBio 시퀀싱 데이터의 분석 결과에 대해서 만족스럽지 못하셨다면 CLC Genome Finishing Module을 한 번 이용해보는 것은 어떨까요? 당사로 연락주시면 2주간의 trial 라이선스를 제공해 드립니다. 단, CLC Genome Finishing Module은 CLC Genomics Workbench를 기반으로 한 모듈 이라는 점 명심해주세요.
< 이전화 보기 | 다음화 보기 >
(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)
Posted by 人Co