A Superior Solution for Microbial Genomics - 3

우리 몸을 구성하는 세포의 반 이상이 미생물 군집들로 차지하고 있습니다. 따라서 미생물의 분류학적, 유전적 기질은 사람, 동물 그리고 식물의 건강과 밀접한 관계를 가지고 있습니다.

특히 아직은 미생물의 유전적 기능 구성에 대한 정보가 구축되기에 어려움이 있고, 현재 metagenomics 분석 도구들도 기능적 구성이나 샘플간 변화 등을 정확하게 예측하기 위해 노력하고 있습니다. [Lindgreen et al. 2015].

만약 metagenome data를 de novo assemble 할 수 있고, 신뢰할 수 있는 기능 예측 결과를 통해 통계적으로 유의하게 변화된 것을 밝히는 분석도구가 있으면 어떨까요? 이러한 분석 도구가 NGS 데이터의 분석 표준이 되고 미생물 분석을 위해 최적화된다면 연구자분들에게 굉장한 도움을 줄 수 있을 것입니다.

미생물의 metagenomics 분석을 위한 플러그인인 CLC Microbial Genomics Module의 기능과 성능을 확인해 보세요.


결과 정확도

Figure 1. Metagenome 내 높은 정확도의 유전자 기능 예측 및 추적

2016년 1월에 Nature Scientific Reports에 14개의 다른 whole metagenome 분석 도구의 평가 결과에 대해 개재했습니다. 공개된 테스트 데이터를 이용해서metagenome의 기능적 분석이 가능한 5개를 선별하여 CLC Microbial Genomics Module과 비교했습니다. CLC Genomics Workbench에서 제공된 edge 테스트를 이용하여 통계적 분석을 진행하였고, photosynthesis, nitrogen fixation, pathogenesis에 대하여 분석을 진행하였습니다. (*는 통계학적으로 유의한, 정확한 변화를 일관적으로 예측하는 도구를 가리킵니다.)

Metagenomic 데이터를 바탕으로 미생물 군집에서 유전자 기능을 찾는 것은 어렵습니다. 더욱이 다른 metagenome 샘플간의 기능적 성질의 변화를 정확하게 측정하는 것은 더 어렵습니다. QIAGEN 솔루션은 미생물 유전체 분석에서 기능적인 차이를 정확히 찾고 정량화 할 수 있습니다. 또한 샘플간의 통계적으로 유의한 차이를 비교할 수 있도록 해줍니다.

여러 샘플의 비교는 샘플간의 기능적 변화를 찾고, 유사하거나 다른 기능적 요소를 분석하는데 쓰입니다.

Figure 2: 미생물 샘플들 전반에 걸친 기능적 비교

Metagenome에서 기능적 변화를 찾는 알고리즘은 많이 알려져 있지 않고, 기준이 되는 우수한 모델의 데이터셋이 없기 때문에 어려운 일입니다. 이런 어려움을 극복하기 위해 해당 연구결과에서는 기능을 파악하고 있는 두 합성 미생물 군집으로부터 각각 세개의 데이터셋(A1, A2, A3, B1, B2, B3)들을 만들었습니다.

Figure 2에서 보이는 것과 같이, CLC Microbial Genomics Module은 예측된 기능적 요소들의 비율을 바탕으로 두 개의 군집을 구분 할 수 있습니다.


Metagenome assembly 품질

새로운 Meatgenome assembler에서는 고품질의 어셈블리 결과를 생성하고 유전자 기능을 확인할 수 있습니다.

아래의 Table에서 CLC Microbial Module의 metagenome assembler와 다른 툴에서 misassembly, INDEL, mismatch error 등 다양한 지표들에서 어떤 차이가 나는지 비교해 줍니다.

Table 1 : Metagenome assembly의 품질 

QIAGEN metagenome assembler는 더욱 정확한 annotation을 가능하게 합니다. 데이터셋의 실제 길이는 209,845,413 base입니다.

 

실행 시간과 자원 효율성 계산

샘플의 크기가 크거나 데이터의 양이 많을때는 분석 실행시간과 요구되는 리소스가 매우 중요합니다.

테스트 데이터를 가지고 CLC Microbial Genomics Module의 어셈블러와 다른 어셈블러를 비교하였을 경우 분석 시간이 더 짧고 효과적이게 리소스를 이용하는 것을 확인하였습니다.

Figure 3. 최고의 metagenome assembly 분석도구


다른 metagenome 어셈블러들과 분석 시간과 리소스 사용면에서 비교하였을 때 우수한 결과를 보였습니다. (*MegaHit는 분석시간을 늘리면서 컴퓨터 메모리 소비를 줄이고 있습니다.)

 
분석에 소요하는 시간 축소


CLC Genomics Workbench 내의 workflow라는 기능을 이용하면 분석에 소요되는 시간과 노력을 크게 줄일 수 있습니다. 한번에 여러개의 데이터를 넣어줄 수도 있어 분석에 소요되는 시간과 동력을 절감시켜 줍니다.

Figure 4. 효율적인 workflow 기능


 <  이전화 보기 다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/25 17:03 2016/05/25 17:03
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/213

A Superior Solution for Microbial Genomics - 2


 
미생물의 유전체 정보를 알고 있다면 그 미생물을 어떻게 활용할 수 있을지 혹은 다른 strain 및 특징은 무엇인지 쉽게 확인 할 수 있습니다.
 
PacBio라는 NGS 플랫폼의 개발로 미생물의 de-novo 유전체 분석이 이전보다 더 활발해졌지만 기존에 활용하던 NGS 장비의 포맷과는 전혀 다른 raw 데이터 포맷(H5)을 지원하기 때문에 연구자들이 직접 분석하기 어려웠던 부분을 CLC Genome Finishing Module에서 수행할 수 있습니다.

Genome finishing에 있어서 short read들 만으로 contig 연결이 어려웠던 부분에 PacBio 데이터를 reference로 삼아 align이 가능하며, raw 데이터 수준의 PacBio 데이터의 error correction과 de novo assembly 기능이 추가되어 더욱 효율적으로 미생물 유전체 서열을 완성할 수 있습니다.

CLC Genome Finishing Module을 활용한 PacBio raw data의 error correction과의 de novo assembly의 성능 비교 테스트 결과는 아래와 같습니다.



HGAP과의 벤치마킹 자료를 바탕으로 CLC Genome Finishing Module은 laptop 환경에도 불구하고 running time과 메모리 활용이 훨씬 적은 것을 알 수 있습니다. 또한 모듈내에 함께 제공되는 워크플로우를 통해 더욱 연구자들이 쉽고 빠르게 분석할 수 있는 환경을 제공하고 있습니다.
 
현재 가지고 계신 데이터가 있으시다면, 한번 try 해보세요!


(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/18 15:35 2016/05/18 15:35
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/211

우리들의 11번째 Culture Day 이야기

2016년 첫 Culture Day. 저희도 회사에서 맞는 첫 번째 Culture Day라 많이 설레었습니다.
이번 주제는 영화와 함께! 개봉한지 3일 째인 따끈따끈하고 가장 HOT한 캡틴아메리카 : 시빌워를 감상하였습니다.



화려한 액션과 긴장감 있는 스토리! 중간 중간 히어로들이 주는 웃음까지! 과연 누가 선이고 누가 더 선을 위해 행동하고 있는 걸까요? 그리고 마지막 쿠키영상이 2개나 있었다는데 우리는 1개 밖에 못 보고 나왔답니다.(엉엉)



영화가 끝난 후 인증샷을 찰칵! 그리고 회식장소로 이동하였습니다.
회식 메뉴는 맛있는 소고기!!

모든 분들이 참석하셨고 저희의 사회로 회식이 시작되었습니다. 사장님 말씀과 새로오신 주임님의 소개가 끝난 후 배불리 고기를 먹었습니다!

회식을 끝으로 공식적인 11번째 Culture Day가 끝이 났습니다. “人Co인”이 되어 처음 맞이하는 Culture Day! 아쉬움도 많았지만 즐거움이 더 많은 하루였습니다.


人CoTalk!

Culture Day가 끝난 후 셀프 인터뷰를 해보았습니다.

Q1) 처음으로 맞이한 Culture Day 어땠어요?

사용자 삽입 이미지
회사에서 처음 준비하는 행사라 걱정이 많이 되었었는데, 많은 분들이 만족하신 것 같아서 기분이 좋았습니다. 이런 일을 하면서 항상 느끼는 점은 많은 사람들과 함께 무언가를 한다는 것이 참 즐거운 것 같습니다. 다음에는 대전지사 분들과 함께 할 수 있는 자리가 있었으면 좋겠다고 생각했습니다.




사용자 삽입 이미지
인턴사원 입장에서 전 직원을 대상으로 한 행사준비에 있어 부담이 조금 있었습니다. 또한, 파견근무로 인해 물리적 거리 격차 때문에 준비를 하는 동기들에게 많은 도움을 주지 못해 미안했습니다. 영화표를 예매하는데 있어 50명 이상인 경우 단체예약 할인을 할수 있었는데 내년에는 직원 수가 더욱 늘어나 할인 혜택을 받았으면 합니다.




사용자 삽입 이미지
회사에서 처음 맞이하는 행사로써 많은 분들과 함께 할 수 있어 좋았습니다. 11번째를 맞이해서인지 모두가 일사불란하게 움직여 주셔서 순조롭게 진행이 잘 되었습니다. 무엇보다 부족한 점도 많았을텐데 따뜻한 격려와 칭찬 속에서 즐거운 시간을 보낸 것 같습니다. 앞으로 이와 같은 행사들이 종종 있다면 모든 사람들과 친해지고 업무도 서로 공유하면서 더 시너지 효과를 낼 수 있을 것이라고 생각했습니다.





Q2) 이번에 가장 신경썼던 부분이 무엇인가요?

사용자 삽입 이미지
저는 식사 부분! 아무래도 회식은 맛있는 음식이 있어야 더 즐거운 법! 그래서 모두가 좋아할만한 메뉴를 선택하는데 신경을 썼습니다. 최종적으로 선택한 메뉴는 소고기였고, 많은 분들이 맛있게 드셨던 것 같습니다.




사용자 삽입 이미지
컬쳐데이의 주요 컨텐츠가 영화관람, 저녁(회식) 이였기 때문에 어떤 영화를 볼지 또한 회식장소는 어디를 할 것이며 회식 메뉴는 어떤 것을 정할지 고민이 많이 됐습니다.





사용자 삽입 이미지
저희가 가장 먼저 고민했던 부분은 많은 인원이 함께 할 수 있는 자리, 주차 공간이었습니다. 다행히 많은 분들께서 잘 했다고 해주셨습니다. 그러나 단체 사진 공지 및 자유시간 공지 등 일부 미흡했던 부분도 있었습니다. 그 부분은 다음 기회에 더 멋지게 만들도록 해야겠습니다.






Q3) 컬쳐데이는 OOO 다.

사용자 삽입 이미지
컬쳐데이봄바람이다! 봄에 해서 그런 것도 있고, 지친 일상에서 벗어나 잠시동안 새로운 기운을 불어 넣어서 봄바람이라고 생각합니다.





사용자 삽입 이미지
컬쳐데이만남의 장소다. 컬쳐데이는 소통이다. 컬쳐데이는 인실리코젠의 문화다.





사용자 삽입 이미지
컬쳐데이이다. ‘짬을 이용하지 못하는 사람은 항상 짬이 없다’라는 유럽 속담에서 알 수 있듯이, 아무리 바쁜 우리 일상생활 속에서도 즐거움을 찾고, 삶의 여유를 찾게 해준 좋은 시간이었습니다.





작성자 : DS그룹 박우진, BS실 박종인, BI그룹 서정한

Posted by 人Co

2016/05/13 16:31 2016/05/13 16:31
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/210

A Superior Solution for Microbial Genomics - 1


미생물은 말 그대로 굉장히 작은 생물들이지만 환경과 생체에 미치는 영향력은 결코 작지 않으며, 미생물이 이 지구상에서 차지하는 비율 혹은 인체에서 차지하는 비율은 전체의 50%가 넘습니다. 다양한 환경에서 그 환경에 맞는 특정 미생물들이 살고 있고 이러한 미생물의 유전학적인 분석은 특정 유용 물질의 대량생산 하는 새로운 기술로서 개발하거나, 환경이나 질병 등에 대한 분석에 활용할 수 있습니다. 현재 다양한 NGS 플랫폼이 발달하면서 타 생물체보다 간단한 유전자 구조를 가지고 있는 미생물은 비교적 생물정보 분석도 용이하여, 전체 유전체 서열과 기능을 밝히거나 다양한 환경적 시료에서의 군집 분석을 많이 수행하고 있습니다.

1. Whole Genome 분석 솔루션



새로운 유전체의 서열을 조립하는 de novo assembly는 굉장히 복잡하고 어려운 일 중에 하나입니다. 하지만 PacBio 시퀀싱 플랫폼이 현재 굉장한 길이의 서열을 생산하면서 미생물 유전체 연구에 많이 활용되고 있습니다. Whole Genome 분석 솔루션은 다양한 NGS 플랫폼의 데이터의 GUI 형태의 de novo assembly 결과로부터 PacBio 데이터를 통한 scaffold 구축, 매뉴얼 gap filling 작업을 통한 미생물 유전체 서열을 확보할 수 있으며 ORF 예측 및 해당 서열의 blast, GO ontology 분석까지 가능하도록 패키지화 하였습니다.


2. Metagenome 분석 솔루션

미생물 군집을 분석하기 위해서는 16s rRNA 서열을 시퀀싱하거나 whole metagenome을 시퀀싱하여 진행합니다. Metagenome 분석을 위한 public tool들도 존재하지만 커맨드라인 기반으로 진행되기 때문에 일반 생물학자들이 사용하는데는 어려움이 많습니다. Metagenome 분석 솔루션은 NGS 플랫폼으로 시퀀싱한 데이터를 쉽게 분석할 수 있도록 미리 세팅되어진 워크플로우가 존재하여 OTU-clustering 및 diversity 분석 결과를 얻을 수 있습니다. 뿐만 아니라 whole metagenome 분석을 지원하여 de-novo assembly를 통한 contig 서열을 바탕으로 CDS와 gene을 예측하고 GO term 맵핑이나 BLAST를 수행하여 예측된 유전자 기능을 파악할 수 있습니다.


다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/11 19:43 2016/05/11 19:43
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/209



<논문>

- Landscape of somatic mutations in 560 breast cancer whole-genome sequences
Nature (2016) doi:10.1038/nature17676
<관련기사>
- Breast cancer: Scientists hail 'very significant' genetic find BBC News
- ‘유방암 만드는 유전자’ 93개 밝혀졌다
경향신문
- 국내 연구진, 유방암 '전체 유전자 염기서열' 해독…네이처誌 발표
포커스뉴스


세계 최대규모의 유방암 전장유전체 해독 연구 결과가 네이처(Nature)를 통해 공개되었습니다. 이 연구는 한양대학교 의과대학 공구 교수팀과 영국 생어연구소(Sanger Institute) 암 유전체팀이 공동으로 주관하고, 12개국 48개 기관이 참여했습니다. 생물정보 전문기업 (주)인실리코젠김형용 수석개발자도 본 연구에 공동으로 참여했으며, 오랜 분석 기간과 리뷰 기간을 거쳐 오늘(5월 3일) 새벽 1시에 연구결과가 네이처 온라인판에 게재되었습니다.

이 연구는 최대규모의 암 전장유전체 분석(WGS, Whole genome sequencing)으로써, 국내외 유방암 환자 560명을 대상으로 암조직과 정상조직을 모두 전장유전체 해독하고, 정상조직과의 차이를 통해 암을 유발한 유전변이를 밝혔으며, 각 유전변이의 패턴을 규명하였습니다. 암은 발암물질, 자외선, 흡연 등 각종 원인으로 인한 유전변이의 누적으로 발생하는 질병이므로, 암을 일으키는 주요 유전변이의 완전한 해석은 발암 기전을 이해하고, 효과적인 치료방법을 제안하기 위해 매우 중요합니다. 또한, 암을 일으키는 유전변이는 환자 개인마다 매우 다양하게 나타나기 때문에 다수의 사례를 통해서만 종합적으로 이해할 수 있습니다. 이번 560 사례의 전장유전체 해독을 통해 유방암 유전변이와 발암 기전에 대해 좀 더 이해하고, 향후 암 정복을 위한 자세한 백과사전 역할을 수행할 수 있다는 점에서 그 의미가 크다고 할 수 있습니다.

(주)인실리코젠의 김형용 수석개발자를 주축으로 SD그룹의 연구진들은 해독한 유전체의 데이터 기본 분석에 함께 참여했으며, 영국 생어연구소에 방문하여, 암 유전체팀의 전체 분석과정을 함께 리뷰할 수 있었습니다. CaVEMan, Pindel을 이용한 SNV, Indel 탐지, ASCAT을 이용한 copy number 분석, BRASS를 이용한 구조변이(genomic rearrangement) 분석을 통해 암을 일으키는 유전변이를 찾고 이것의 통계적 유의성, COSMIC 등에 보고된 자료등과 종합하여, 발암 유전자(driver gene)로 확인하는 과정, 단백질 비 부호화(non-coding) 영역의 유전변이 확인, 기계학습 알고리즘(NMF)을 이용한 변이 패턴(mutational signature) 분석, 특정 유전자의 유전변이와 변이 패턴, 그리고 구조변이와의 상관관계 분석에 이르기까지 다양한 분석과정을 함께 할 수 있었습니다.

이번 연구의 가장 큰 의의라면, 그동안 알지 못했던, 단백질 비 부호화 영역, 즉 유전체의 95% 영역에서 의미 있는 발암 기전이 있는지 확인했다는 것입니다. 2001년 인간유전체 프로젝트 이후, 전장유전체 해독 분석이 증가하긴 했지만 비용, 분석 등 문제로 암 유전체까지 전장유전체를 분석하기 어려웠고, 주로 단백질 부호화 영역만 서열 결정(exome sequencing)하여, 유전변이를 확인해 왔습니다. 이번 전장유전체 분석으로 의미있는 유전변이가 단백질 비 부호화 영역에 있는지, 구조적으로 유전체가 어떻게 변화하는지(Structural variation)를 확인할 수 있었습니다. 분석 결과, 일부 높은 빈도의 유전변이 좌위가 있긴 하지만, 전체적으로 큰 영향을 주는 것은 아니라고 합니다.


<그림1> 발암유전자의 변이 종류

<그림1>은 이번 데이터의 암 유발 유전변이의 형태는 어떤 것인지 보여줍니다. SNV, Indel을 합쳐서 반이 좀 넘고, 44%가 구조적 변이에 의하여 암이 발생함을 알 수 있습니다. 암 맞춤의료를 위해 이 부분을 어떻게 대응해야 할지 고민이 필요함을 알려주고 있습니다.



<그림2> 유방암의 에스트로겐 수용체 타입별 발암 유전자 상위 40개

이번 연구를 통해 발암 유전자 93개에서 1,628개의 유전변이를 발견했습니다. 10개 유전자의 발암 변이(driver mutation)가 전체 발암 변이의 62%를 차지한다고 합니다. 위 그림은 이번 연구에서 발견한 발암 유전자를 에스트로겐 수용체 양성(ER+), 음성(ER-) 각각 나눴을 때 발견된 빈도를 순서대로 보여줍니다. 녹색으로 표시된 유전자 MLLT4, MED23은 이번 연구로 새롭게 발견한 발암 유전자입니다. 예전에도 많이 알려졌던 것 처럼 ER+에는 Oncogene PIK3CA 과발현과 변이가, ER-에는 Tumor suppressor gene TP53의 변이가 가장 많이 발견되었습니다.

연구팀은 치환 변이, 구조 변이의 패턴을 확인하기 위해 별도로 변이 패턴(mutational signature) 분석을 수행하였습니다. 얼굴인식에도 사용되는 기계학습 알고리즘 가운데 하나인 NMF(non-negative matrix factorization)을 이용하여, 전장유전체내 발견되는 유전 변이의 패턴을 구분하였고, 각 패턴이 특정 생물학적 원인과 관련되어 있음을 확인했습니다.



<그림3> 전체 암 유전체의 유전변이 패턴(mutational signature) 현황
- 12개의 변이 패턴을 확인함

이 가운데, 1, 2, 8, 13번 시그니처가 이번 연구에서 유의미하게 자주 발견되었으며, 각각 생물학적인 원인과 관련되어 있습니다.

- Signature 1 : CpG의 메틸기가 deamination되는 현상 때문에 생기며, 모든 암종에서 고르게 발견됩니다. 나이가 많을수록 늘어나기 때문에 생체 시계라고도 합니다.
- Signature 2, 13 : APOBEC deaminase 활성과 관련됩니다. 이 효소는 바이러스의 DNA/RNA에 변화를 만들어 감염을 억제하는 역할을 하지만, 변이가 있을 경우 발암 가능성이 높아집니다.
- Signature 8 : BRCA1/2 유전자의 고장으로 정상적인 DNA 수복(DNA repair)을 못할 때 이러한 패턴의 변이가 발견됩니다. 특히 다양한 구조변이와 관련됩니다.


<그림4> 유의한 유전변이 좌위를 Manhattan plot로 표시함

<그림4>는 전장유전체로 유의한 발암 영역을 Manhattan plot으로 확인한 결과입니다. 기존에 잘 알려져 있던 발암 유전자들과 함께, 새롭게 발견된 non-coding 영역의 변이도 함께 알 수 있습니다. 이 가운데 가장 특이했던 것은 PLEKHS1의 프로모터 영역으로, 저 영역의 변이가 있으면, Signature 2, 13번이 높아, APOBEC 효소 활성과 관련있음을 말해줍니다.

이번 연구 결과는 바로 EGA에 공개되어(EGAS00001001178) 전세계 연구자들에 의해 암 유전체를 더욱 상세히 연구하게 할 것이며, 암 맞춤의료의 기반 자료로 사용되어 인류의 암 정복을 위한 전환점이 될 것으로 기대되고 있습니다. 이러한 맞춤의료, 정밀의료의 시대에는 대규모 생물정보 데이터의 분석과 해석, 관련 데이터베이스와 지식베이스의 구축이 최고의 전문가들과 함께 이루어져야 합니다. 암 유전체의 충분한 해석과 이해, 그리고 맞춤치료에 대한 가능성은 이후, 모든 인간의 질병도 극복할 수 있게 할 것이며, 더 나아가 유전체 정보에 따라 미리 질병에 걸리지 않도록 예방할 수 있는 영역까지 확장될 것입니다.

(주)인실리코젠의 연구진은 본 연구의 노하우를 통해 앞으로 정밀의학, 맞춤의학 더 나아가 질병없는 인간의 미래에도 중요한 생물정보 가치를 만들 수 있도록 노력하겠습니다.



작성자 : 데이터사이언스센터 SD그룹
 김형용 수석개발자

Posted by 人Co

2016/05/03 16:50 2016/05/03 16:50
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/207