« Previous : 1 : 2 : 3 : 4 : 5 : Next »

A Superior Solution for Microbial Genomics - 3

우리 몸을 구성하는 세포의 반 이상이 미생물 군집들로 차지하고 있습니다. 따라서 미생물의 분류학적, 유전적 기질은 사람, 동물 그리고 식물의 건강과 밀접한 관계를 가지고 있습니다.

특히 아직은 미생물의 유전적 기능 구성에 대한 정보가 구축되기에 어려움이 있고, 현재 metagenomics 분석 도구들도 기능적 구성이나 샘플간 변화 등을 정확하게 예측하기 위해 노력하고 있습니다. [Lindgreen et al. 2015].

만약 metagenome data를 de novo assemble 할 수 있고, 신뢰할 수 있는 기능 예측 결과를 통해 통계적으로 유의하게 변화된 것을 밝히는 분석도구가 있으면 어떨까요? 이러한 분석 도구가 NGS 데이터의 분석 표준이 되고 미생물 분석을 위해 최적화된다면 연구자분들에게 굉장한 도움을 줄 수 있을 것입니다.

미생물의 metagenomics 분석을 위한 플러그인인 CLC Microbial Genomics Module의 기능과 성능을 확인해 보세요.


결과 정확도

Figure 1. Metagenome 내 높은 정확도의 유전자 기능 예측 및 추적

2016년 1월에 Nature Scientific Reports에 14개의 다른 whole metagenome 분석 도구의 평가 결과에 대해 개재했습니다. 공개된 테스트 데이터를 이용해서metagenome의 기능적 분석이 가능한 5개를 선별하여 CLC Microbial Genomics Module과 비교했습니다. CLC Genomics Workbench에서 제공된 edge 테스트를 이용하여 통계적 분석을 진행하였고, photosynthesis, nitrogen fixation, pathogenesis에 대하여 분석을 진행하였습니다. (*는 통계학적으로 유의한, 정확한 변화를 일관적으로 예측하는 도구를 가리킵니다.)

Metagenomic 데이터를 바탕으로 미생물 군집에서 유전자 기능을 찾는 것은 어렵습니다. 더욱이 다른 metagenome 샘플간의 기능적 성질의 변화를 정확하게 측정하는 것은 더 어렵습니다. QIAGEN 솔루션은 미생물 유전체 분석에서 기능적인 차이를 정확히 찾고 정량화 할 수 있습니다. 또한 샘플간의 통계적으로 유의한 차이를 비교할 수 있도록 해줍니다.

여러 샘플의 비교는 샘플간의 기능적 변화를 찾고, 유사하거나 다른 기능적 요소를 분석하는데 쓰입니다.

Figure 2: 미생물 샘플들 전반에 걸친 기능적 비교

Metagenome에서 기능적 변화를 찾는 알고리즘은 많이 알려져 있지 않고, 기준이 되는 우수한 모델의 데이터셋이 없기 때문에 어려운 일입니다. 이런 어려움을 극복하기 위해 해당 연구결과에서는 기능을 파악하고 있는 두 합성 미생물 군집으로부터 각각 세개의 데이터셋(A1, A2, A3, B1, B2, B3)들을 만들었습니다.

Figure 2에서 보이는 것과 같이, CLC Microbial Genomics Module은 예측된 기능적 요소들의 비율을 바탕으로 두 개의 군집을 구분 할 수 있습니다.


Metagenome assembly 품질

새로운 Meatgenome assembler에서는 고품질의 어셈블리 결과를 생성하고 유전자 기능을 확인할 수 있습니다.

아래의 Table에서 CLC Microbial Module의 metagenome assembler와 다른 툴에서 misassembly, INDEL, mismatch error 등 다양한 지표들에서 어떤 차이가 나는지 비교해 줍니다.

Table 1 : Metagenome assembly의 품질 

QIAGEN metagenome assembler는 더욱 정확한 annotation을 가능하게 합니다. 데이터셋의 실제 길이는 209,845,413 base입니다.

 

실행 시간과 자원 효율성 계산

샘플의 크기가 크거나 데이터의 양이 많을때는 분석 실행시간과 요구되는 리소스가 매우 중요합니다.

테스트 데이터를 가지고 CLC Microbial Genomics Module의 어셈블러와 다른 어셈블러를 비교하였을 경우 분석 시간이 더 짧고 효과적이게 리소스를 이용하는 것을 확인하였습니다.

Figure 3. 최고의 metagenome assembly 분석도구


다른 metagenome 어셈블러들과 분석 시간과 리소스 사용면에서 비교하였을 때 우수한 결과를 보였습니다. (*MegaHit는 분석시간을 늘리면서 컴퓨터 메모리 소비를 줄이고 있습니다.)

 
분석에 소요하는 시간 축소


CLC Genomics Workbench 내의 workflow라는 기능을 이용하면 분석에 소요되는 시간과 노력을 크게 줄일 수 있습니다. 한번에 여러개의 데이터를 넣어줄 수도 있어 분석에 소요되는 시간과 동력을 절감시켜 줍니다.

Figure 4. 효율적인 workflow 기능


 <  이전화 보기 다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/25 17:03 2016/05/25 17:03
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/213

A Superior Solution for Microbial Genomics - 2


 
미생물의 유전체 정보를 알고 있다면 그 미생물을 어떻게 활용할 수 있을지 혹은 다른 strain 및 특징은 무엇인지 쉽게 확인 할 수 있습니다.
 
PacBio라는 NGS 플랫폼의 개발로 미생물의 de-novo 유전체 분석이 이전보다 더 활발해졌지만 기존에 활용하던 NGS 장비의 포맷과는 전혀 다른 raw 데이터 포맷(H5)을 지원하기 때문에 연구자들이 직접 분석하기 어려웠던 부분을 CLC Genome Finishing Module에서 수행할 수 있습니다.

Genome finishing에 있어서 short read들 만으로 contig 연결이 어려웠던 부분에 PacBio 데이터를 reference로 삼아 align이 가능하며, raw 데이터 수준의 PacBio 데이터의 error correction과 de novo assembly 기능이 추가되어 더욱 효율적으로 미생물 유전체 서열을 완성할 수 있습니다.

CLC Genome Finishing Module을 활용한 PacBio raw data의 error correction과의 de novo assembly의 성능 비교 테스트 결과는 아래와 같습니다.



HGAP과의 벤치마킹 자료를 바탕으로 CLC Genome Finishing Module은 laptop 환경에도 불구하고 running time과 메모리 활용이 훨씬 적은 것을 알 수 있습니다. 또한 모듈내에 함께 제공되는 워크플로우를 통해 더욱 연구자들이 쉽고 빠르게 분석할 수 있는 환경을 제공하고 있습니다.
 
현재 가지고 계신 데이터가 있으시다면, 한번 try 해보세요!


(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/18 15:35 2016/05/18 15:35
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/211

A Superior Solution for Microbial Genomics - 1


미생물은 말 그대로 굉장히 작은 생물들이지만 환경과 생체에 미치는 영향력은 결코 작지 않으며, 미생물이 이 지구상에서 차지하는 비율 혹은 인체에서 차지하는 비율은 전체의 50%가 넘습니다. 다양한 환경에서 그 환경에 맞는 특정 미생물들이 살고 있고 이러한 미생물의 유전학적인 분석은 특정 유용 물질의 대량생산 하는 새로운 기술로서 개발하거나, 환경이나 질병 등에 대한 분석에 활용할 수 있습니다. 현재 다양한 NGS 플랫폼이 발달하면서 타 생물체보다 간단한 유전자 구조를 가지고 있는 미생물은 비교적 생물정보 분석도 용이하여, 전체 유전체 서열과 기능을 밝히거나 다양한 환경적 시료에서의 군집 분석을 많이 수행하고 있습니다.

1. Whole Genome 분석 솔루션



새로운 유전체의 서열을 조립하는 de novo assembly는 굉장히 복잡하고 어려운 일 중에 하나입니다. 하지만 PacBio 시퀀싱 플랫폼이 현재 굉장한 길이의 서열을 생산하면서 미생물 유전체 연구에 많이 활용되고 있습니다. Whole Genome 분석 솔루션은 다양한 NGS 플랫폼의 데이터의 GUI 형태의 de novo assembly 결과로부터 PacBio 데이터를 통한 scaffold 구축, 매뉴얼 gap filling 작업을 통한 미생물 유전체 서열을 확보할 수 있으며 ORF 예측 및 해당 서열의 blast, GO ontology 분석까지 가능하도록 패키지화 하였습니다.


2. Metagenome 분석 솔루션

미생물 군집을 분석하기 위해서는 16s rRNA 서열을 시퀀싱하거나 whole metagenome을 시퀀싱하여 진행합니다. Metagenome 분석을 위한 public tool들도 존재하지만 커맨드라인 기반으로 진행되기 때문에 일반 생물학자들이 사용하는데는 어려움이 많습니다. Metagenome 분석 솔루션은 NGS 플랫폼으로 시퀀싱한 데이터를 쉽게 분석할 수 있도록 미리 세팅되어진 워크플로우가 존재하여 OTU-clustering 및 diversity 분석 결과를 얻을 수 있습니다. 뿐만 아니라 whole metagenome 분석을 지원하여 de-novo assembly를 통한 contig 서열을 바탕으로 CDS와 gene을 예측하고 GO term 맵핑이나 BLAST를 수행하여 예측된 유전자 기능을 파악할 수 있습니다.


다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/11 19:43 2016/05/11 19:43
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/209


Cancer Research의 자동화를 이룰 수 있는 막강한 툴과 데이터베이스의 콜라보레이션!

지금부터 특별한 프로모션이 진행됩니다.
Cancer에 최적화된 분석 프로그램인 CLC Cancer Research Workbench와 Ingenuity만의 큐레이션된 지식기반 DB를 토대로 하는 분석도구인 Ingenuity Variant Analysis 패키지를 저렴한 가격으로 만나볼 수 있습니다.

자세히 보기 : http://www.insilicogen.com/wiki/QIAGEN_Promotion
제품 문의 : marketing@insilicogen.com

2014년 12월 26일까지 한정판매를 하오니 많은 관심 부탁드립니다.


Posted by 人Co

2014/11/24 19:37 2014/11/24 19:37
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/168

지난 11일, CLC bio사에서는 Drug discovery를 위한 새로운 솔루션을 릴리즈 하였습니다. 그 이름은 바로 "CLC Drug Discovery Workbench" 입니다. 기존의 Workbench들은 NGS를 비롯한 시퀀싱 데이터의 분석을 촛점으로하여 계속적으로 업그레이드가 되고 있지만, 이전 Molegro사의 합병을 통해 Molegro virtual docker라는 솔루션을 리뉴얼하여 새로운 타입의 Workbench로서 출시 하였습니다.


CLC Drug Discovery Workbench는 이름 그대로 새로운 약물 개발을 위한 스크리닝 도구로서 활용할 수 있습니다. 타겟 단백질과 리간드의 결합 모델을 분석함으로서 interaction 및 docking 분석을 수행하여 단백질의 3D 구조를 확인하고 기존 Workbench의 protein 서열 분석 툴도 포함되어 있어 binding되는 서열 구조도 함께 확인할 수 있다고 합니다.

그럼 CLC Drug Discovery Workbench로 어떻게 분석되는지 살펴 볼까요?













또한 CLC bio는 "CLC Cancer Research Workbench"라는 새로운 Workbench도 곧 출시할 예정입니다.



CLC Cancer Research Workbench는 암 연구에 포커싱된 informatics 솔루션으로 NGS를 기반으로 한 amplicon, exom, whole genome sequencing 데이터를 이용하여 체세포 돌연변이 및 유전적인 질환과 약물반응, 또는 새로운 oncogene 등을 분석할 수 있으며, 돌연변이 관련 reference database를 이용하여 직접 분석한 돌연변이 데이터들과 비교 분석이 가능하도록 설계되었습니다.



그리고 일반 생물학자들도 쉽게 분석할 수 있도록 GUI 형태의 인터페이스를 제공하므로 암과 관련한 모든 연구자분들이 보편적으로 사용할 수 있는 솔루션으로서 자리매김 할 수 있을 것이라 생각됩니다.



올 4월에 릴리즈 될 예정이니 많은 관심 부탁드리며, 구체적인 기능 등은 공식 릴리즈 후에 소식 전해드리도록 하겠습니다.

그 외 생물정보 소프트웨어에 대한 문의사항도 언제나 (주)인실리코젠 마케팅팀(marketing@insilicogen.com)으로 연락주십시오.

감사합니다.









작성자 : Codes사업부 Consulting팀

김경윤 팀장


Posted by 人Co

2014/02/21 16:43 2014/02/21 16:43
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/147

2013 NGS market survey!

CLC bio사에서 지난 1월에 2013년도 NGS market survey 결과를 발표하였습니다.
NGS 시장 동향을 파악하는데 유용한 자료로 함께 공유하고자 소개해드립니다.
총 231명을 대상으로 NGS 시장조사를 실시한 결과입니다.



- Response rate: 미국이 23.4%로 가장 많은 비중을 차지하고 있습니다.
- Organization type : 2012년도와 비교한 결과 Academic organization은 7.5% 감소, Governmental은 37.5% 증가, Industry는 25.6% 증가하였습니다.


주로 여떤 연구를 수행하는가?
 


Primary application focus
- Basic research : 25.5% (가장 많은 비율을 차지)
- Microbial research : 18.6%
- Bioinformatics : 17.7%

응답자의 86%가 NGS 분석을 수행하고 있으며, 이는 2012년도(73%)보다 증가하였습니다.

2011년도(57%) -> 2012년도(73%) -> 2013년도(86%)


Illumina continues dominance


Illumina의 HiSeq 장비가 가장 많은 부분을 차지하고 있으며, Life Tech의 Ion Torrent PGM 장비가 작년 6위에서 3위로 상승하였습니다.


In-house NGS instruments


각 기관마다 NGS 장비를 얼마나 보유하고 있는지에 대한 통계치를 보여주고 있습니다. 기관의 27.9%가 NGS 장비를 더 구입할 계획을 가지고 있다고 합니다.


Preferred open source tool


UCSC Genome Browser가 여전히 1위를 차지하고 있으며, SAMtools 또한 많이 사용되고 있습니다. 대부분의 open source tool이 증가 추세를 보이고 있음을 확인할 수 있습니다.


Primary application focus


RNA-Seq Expression은 20.1%의 많은 증가율을 보이며 1위를 차지하였습니다.(작년은 whole genome sequencing) De novo sequencing은 작년에 비해 16.7% 증가하여 2위를 차지하였습니다.

해당 내용은 아래의 첨부파일을 통해 다시 보실 수 있습니다.



작성자 : 브랜드마케팅실 Marketing팀
컨설턴트 송하나

Posted by 人Co

2014/02/21 16:26 2014/02/21 16:26
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/146

차세대 염기서열 분석 기술은 더 짧은 시간에 더 적은 비용으로 더 많은 염기서열을 결정할 수 있는 플랫폼이 계속적으로 업그레이드 되면서, 생물정보 분석은 이제 선택이 아닌 필수가 되었습니다. 또한 NGS 데이터의 분석 단계는 크게 pre-processing, assembly 그리고 assembly를 이용한 이차 분석으로 나누어 볼 수 있는데 이러한 분석 단계들을 하나의 툴에서 모두 진행하고 그 결과를 그래픽하게 확인할 수 있다면 NGS 데이터를 다루는 생물학자들이 훨씬 더 수월하게 연구를 진행할 수 있을 것입니다. 이를 위한 목적으로 개발된 CLC bio사의 CLC Genomics Workbench는 GUI 기반의 데스크탑 솔루션으로 각 NGS 플랫폼에서 제공하는 다양한 데이터셋을 지원하여 assembly를 비롯한 이후 이차분석까지 한번에 수행할 수 있는 통합형 생물정보 분석 도구입니다.

PART 1. Variant Detection

NGS 데이터를 이용한 최근 연구들을 살펴보면 resequencing 분석에 포커싱이 맞춰지고 있으며, 이러한 연구 동향에 발맞추어 CLC Genomics Workbench의 툴들도 resequencing 분석에 초점을 맞춘 SNP, Indel detection 툴이 업그레이드되었습니다.



Variant 분석에 대한 업그레이드 내용을 이야기하기 전에 read mapping 결과를 재조정할 수 있는 툴인 ‘Local realignment’를 먼저 소개합니다. 이전에는 beta 버전으로 제공되었지만 지난 달 업그레이드가 되면서 CLC Genomics Workbench의 정식 툴이 되었습니다. Read mapping을 수행하는 과정에서 align 되지 않았던 끝 부분을 realign하여 보다 정확한 read mapping 결과를 제공해줍니다. 자, 그럼 결과를 직접 눈으로 확인하는 것이 더 신뢰가 가겠죠?



위의 그림에서 [A]는 처음 read mapping을 수행했으며, 1,2,5번째 read의 4개의 염기가 제대로 align 되지 않아 gap이 생겨난 것을 확인할 수 있습니다. [B]는 [A]의 데이터를 가지고 ‘Local realignment’ 결과 화면을 보여주고 있습니다. [A]에서 gap이 발생했던 염기부분이 다시 realign된 것을 확인할 수가 있습니다. 이처럼 realign을 통해 정확한 mapping 데이터를 기반으로 이 후 variant 분석을 수행한다면 분명 고퀄리티의 결과를 얻을 수 있을 것입니다.

CLC Genomics Workbench에서의 SNP detection은 두 가지 알고리즘으로 분석을 수행할 수 있습니다. 하나는 확률을 계산하는 ‘Probabilistic Variant Detection’, 또 하나는 quality를 계산하는 ‘Quality-based Variant Detection’의 분석 툴입니다. 이러한 두 가지 분석 툴 중에 데이터의 특성에 적합한 것으로 선택하여 분석한다면 더욱 정확한 잠재적인 SNP를 발굴할 수 있습니다.

또한 새로운 버전에서는 SNP처럼 단일 염기가 아닌 더 넓은 범위의 영역에 대한 InDel(insertion, deletion)이나 structural variant를 detection 할 수 있는 ‘InDels and Structural Variants’ 툴이 추가되었습니다. 기존 beta 버전에서는 HiSeq 플랫폼의 paired read로 mapping된 데이터만 input으로 지원했던 부분이 Roche 454 플랫폼에서 생산되는 single read의 mapping 데이터도 input으로 지원되어 다양한 데이터셋의 hybrid assembly 결과도 indel 분석이 가능해졌습니다.



그리고 variant 분석 후 발굴된 SNP 후보들이 이미 알려진 variant 정보와 비교하여 필터링 할 수 있는 ‘Filter against known variants’와 이미 알려진 variant 정보를 추가할 수 있는 ‘Annotate from known variants’의 툴 기능도 향상되었습니다.

Read mapping을 통하여 분석된 variation들을 mapping된 서열 단위에서 그 결과를 뷰어할 수 있지만, track이라는 새로운 뷰어를 제공하여 브라우저 형태의 역할을 할 수 있도록 도와주고 있습니다. 이 또한 다양한 기능 업데이트를 통해 더 효율적으로 분석 결과를 확인할 수 있습니다.

이러한 track 툴을 활용하면 위에서 보는 바와 같이 한 종의 genome 내 다양한 정보들(Gene, CDS, Transcript, mRNA, Exon, Variation)을 한 화면에서 확인할 수 있고, 아래의 그림과 같이 Trio analysis 툴을 이용하여 부모에게서 자녀로 유전되는 SNPs 정보나 mutation 정보, 그로 인해 나타나는 질병 등에 대한 분석 후 그 정보를 한번에 확인할 수 있습니다.




PART 2. Workflow

앞서 이야기한 variation 분석은 만약 여러 샘플에 대한 분석을 개별적으로 진행하려면, 단순한 분석을 여러번 수행함으로 시간이 많이 소요됩니다. 이렇게 여러 샘플의 데이터를 각각 동일한 분석 과정을 수행해야할 경우, workflow라는 기능을 이용하면 빠른 시간안에 쉽게 분석을 완료할 수 있습니다. 아래의 그림과 같이 분석해야하는 툴(기능)들을 선택하고, 각 툴을 순서대로 나열한 다음 각 분석단계의 output 파일을 다음 분석과정의 input 데이터로 연결만 시키면 하나의 workflow가 만들어집니다.


이렇게 만들어진 workflow를 이용하여 분석하고자하는 샘플 데이터만 선택해주면 일련의 과정대로 클릭 몇 번 만으로 결과 데이터를 얻을 수 있으며, workflow를 installer로 변환하여 toolbox내에 하나의 툴로써 추가할 수 있어 실험실 내에서 정규화된 분석 파이프라인을 직접 제작할 수 있습니다. 그리고 이러한 workflow를 통해 만들어지는 output 데이터를 원하는 포맷의 파일로 별도의 export가 가능합니다.





PART 3. 3D Molecule Viewing

CLC Genomics Workbench 내에는 NGS 데이터를 분석하는 툴 외에도 일반 서열 데이터를 기준으로 분석할 수 있는 다양한 생물정보 툴들이 통합되어 있습니다. 이 중 Molecule Viewer는 Protein Data Bank(PDB) database에 저장되어 있는 단백질과 다른 분자들의 structure inspection과 visualization을 수행할 수 있도록 합니다. 이 전에는 CLC Genomics Workbench를 이용하면 단백질의 3D 구조의 뷰어만 확인할 수 있었습니다. 하지만 이번 업그레이드를 통하여 3D 구조의 뷰어뿐만 아니라 서열 정보와 연동되어 3D 구조상에서 선택된 영역이 어떤 서열로 이루어져 있는지 함께 뷰어가 가능해졌습니다. Domain 및 binding site 분석하시는 연구자분들이 늘 서열과 함께 분석되어졌음 좋겠다 하셨었는데, 이젠 굉장히 유용하게 사용될 수 있겠지요?

뿐만 아니라 Protein, Ligands, Water molecules, Internolecular bonds 등의 원하는 molecule 정보만을 선택하여 뷰어할 수도 있다고 합니다.





PART 4. Phylogenetic trees


이번에 소개해드릴 기능은 계통분석을 수행하는 실험실에서는 아주 반가운 소식이 아닐까 합니다. 사실 계통분석은 굉장히 어렵고도 다양한 알고리즘이 존재하여 현재는 전문적인 소프트웨어들을 많이 사용하고 있고, CLC Genomics Workbench를 통해서는 서열을 정렬한 후 기본적인 tree까지만 제공하며 분석 결과의 수정이 어려웠던 부분이 있었습니다. 허나 이번 업그레이드를 통하여 Phylogenetic tree module이 plug-in으로 새로 추가되어 좀 더 전문화되고, 분석 결과를 그래픽하게 확인할 수 있게 되었습니다.



Phylogenetic tree module은 Plug-in을 통하여 다운로드 받으신 후 ‘Create Tree’ 툴로 실행합니다. 실행 과정에서는 이전 버전과 달라진 부분은 없으며 뷰어 옵션을 지정할 수 있는 Side panel을 통해 tree 결과의 뷰어 설정을 변경할 수 있습니다.
Tree layout이 아래 그림과 같이 다섯가지로 선택할 수 있어 원하는 형태의 tree구조를 figure 자료로 사용할 수 있게 되었습니다.



또한 이 뿐만이 아니라 메타데이터의 수정도 가능해졌습니다. 이전 버전에서 이 기능을 문의하셨던 사용자분들도 굉장히 많았었는데요, 새 버전에서는 node, label 세팅 기능의 추가로 인해 사용자가 원하는 tree 그림을 그릴 수 있게 되었습니다.

이상으로 CLC Genomics Workbench 프로그램의 주요한 업그레이드 내용을 소개해드렸습니다. 블로그를 통해 모든 정보를 알려드리기가 어려워 아쉬운점이 있지만, 소개해드린 기능 이외에도 업그레이드 및 개선된 기능들이 많이 있으니 아래의 사이트를 방문하시면 더욱 자세한 정보를 확인할 수 있습니다.

http://www.clcbio.com/products/latest-improvements/

그리고 언제든지 생물정보 소프트웨어에 대하여 문의사항이 있으신 분들은
(주)인실리코젠의 마케팅팀(Marketing@insilicogen.com)을 찾아주시기 바랍니다!
감사합니다.


작성자 : Marketing팀 송하나

Posted by 人Co

2013/09/30 16:46 2013/09/30 16:46
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/139

ChIP-Seq 분석은 어떻게 하는건가요?

ChIP-Seq


ChIP 은 Chromatin Immunoprecipitation의 약자로 세포내에서 이뤄지는 단백질과 DNA간의 상호작용을 알아내는 주요한 방법으로 특정 단백질과 binding 하는 DNA sequence 를 알아내는 것을 목적으로 합니다. 특정 단백질과 결합된 DNA을 면역학적 방법인 antibody를 이용하여 침강시킨후 결합된 DNA를 따로 분리하여 그 sequence를 확인합니다. 이때, 해당 서열을 확인 하는 방법으로 microarray방식을 이용하면, ChIP-chip이 되고, NGS와같은 시퀀싱 방식을 이용하면 ChIP-seq이 됩니다. 이러한 방법은 유전자 발현을 조절하는 전사조절인자(transcription factor)의 bindig site와 기작을연구하는데 많이 이용되고 있습니다.

예를 들어 transcription factor A의 binding-site를 분석하기 위해, 먼저 세포내에서 transcription factor A와 DNA를 결합시킨 후 그 결합을 고정하기 위해 sample을 포름알데히드와 같은 고정액으로 고정시킵니다. 이후 세포를 lysis하여 DNA 전체를 분리한 다음 sonication 방법으로 DNA를 잘게 조각냅니다. 그러면 transcription factor와 결합된 상태의 DNA 조각과 그렇지 않은 조각이 생성됩니다. 이후 원하던 transcription factor A에 binding된 DNA 조각만을 분리하기 위해 transcrition factor A 특이적인 antibody와 beads 붙여 원심분리를 통해 transcription factor A와 이에 결합된 DNA만을 분리해 낼 수 있습니다. 마지막으로 분리된 transcription factorA와 DNA 사이의 결합을 끊어 DNA만을 분리해낸 다음 앞서 언급한 microarray방식과 NGS 기술을 이용한 시퀀싱 방식을 통해 각각 확인할수 있습니다. Microarray방식은 유전체상의 대부분의 영역을 microarray probe로 제작하여 chip에 심은 후 transcription factor A와 결합되었던 DNA조각을 binding 시켜 확인하게 되며, 시퀀싱 방식은 분리된 DNA조각을 직접적으로 시퀀싱을 통해 확인하게 됩니다. 이후 시퀀싱된 서열을 해당 유전체 서열에 mapping(reference assembly)을 통해 유전체 상의 binding location을 확인 합니다. 이들 모두 공통적으로 transcription factor A가 binding 하는 서열정보를 비롯하여 유전체내의 binding location을 함께 확인 할 수 있어 이차적으로 전자를 조절 받는 유전자 프로파일을 함께 확인 할수 있는 이점이 있습니다.

사용자 삽입 이미지
단백질과 binding 되는 DNA 서열이 짧기 때문에 , ChIP-Seq 분석을 할 때는 일반적으로 short read로 시퀀싱을 진행합니다. 또한 reference 서열에 mapping 할 때 역시 mapping 파라메터들을 엄격하게 설정하여 noise data의 생성을 예방합니다. 시퀀싱 reads의 서열들이 짧기 때문에 적은 bp의 mismatch나 gap일 지라도 실제 binding site가 아닌 엉뚱한 위치에 mapping될 확률이 높아 지므로 최종적으로 ChIP peak를 찾기 힘들어지게 될 수 있습니다. Mapping view를 보면 이렇게 특정 단백질에 특이적인 binding-site에만 read들이 mapping 되어 형성되는 'peak'을 확인 하실수 있습니다(Candidated transciption factor A binding position).

사용자 삽입 이미지
Peak 영역에 mapping된 read의 수와 전체 reference 서열의 mapping 된 read의 분포, 그리고 control 데이터에 mapping된 read의 분포 등을 고려하여 관찰되는 peak가 false positive인지 false negative인지 통계적으로 유의성을 검증할 수 있습니다. CLC Genomics Workbench를 이용하면 이렇게 찾아진 ChIP peak들에 대한 정보가 담긴 테이블과 해당 ChIP peak가 위치한 부분의 mapping view를 한 화면에서 확인할 수 있습니다.

사용자 삽입 이미지
그리고 mapping view를 조금 더 축소해 보면 해당 peak의 upstream과 downstream에 위치한 유전자를 확인하여, 어떤 유전자들이 해당 transcription factor A에 영향을 받을지 유추해 볼 수 있습니다.

사용자 삽입 이미지
부가적으로 BIOBASE사의 'TRANSFAC' 데이터베이스는 발표된 모든 논문들을 대상으로 생물 전문 큐레이터들이 검토하여 transcription factor와 transcription factor binding site에 대한 정보를 축적하고 있습니다. 또한 이렇게 형성된 TRANSFAC의 데이터는 보다 효율적으로 연구자들에게 공급하기위해 CLC Genomics Workbench에서 plug-in을 통해 ChIP-seq을 통해 찾아진 peak와 직접적으로 비교하여 관련된 유전자, 질병 및 mutation에 대한 다양한 정보를 제공 하고 있습니다.



Posted by 人Co

2012/06/11 15:03 2012/06/11 15:03
, , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/112

RNA-Seq
RNA-Seq은 NGS 기술로 transcriptome을 분석 할 수 있는 방법으로써, 말 그대로 특정 샘플에서 발현되는 RNA 서열을 시퀀싱하여, 어떤 exon들로 조합된 transcript가 발현이 되었는지, transcriptome에 대한 다양한 정보를 한 번에 알아낼 수 있는 방법입니다.

RNA-Seq 데이터 다운받기
웹 브라우저에서 아래 url로 이동해 보시면 CLC bio에서 제공하는 예제 RNA-Seq 데이터를 받으실 수 있습니다. 이 데이터는 RNA-Seq 분석에 관한 초기 논문 중의 하나인 Mortazavi의 논문에서 얻은 데이터로 mouse의 brain과 liver에서 발현되는 mRNA를 시퀀싱 하여 분석한 데이터입니다. 이 데이터는 이미 CLC Genomics Workbench에 import가 된 상태의 데이터로 .zip 파일을 그대로 ‘Navigation Area'에 드래그 하면 자동으로 import가 됩니다.

http://www.clcbio.com/index.php?id=1290
사용자 삽입 이미지
Subset.zip 이라는 파일의 import가 완료되면 다음 그림과 같은 데이터가 나타나게 됩니다. Brain과 liver에서 각각 두 개씩 얻은 read 데이터와 mouse 16번 염색체의 reference 서열 파일을 확인 할 수 있습니다.

사용자 삽입 이미지

RNA-Seq 분석 돌리기
데이터 준비가 완료되면, ‘Toolbox’의 'RNA-Seq Analysis'를 실행시킵니다.

사용자 삽입 이미지
첫 번째 단계에서 reference 서열에 mapping 시킬 read 데이터를 선택합니다. 이때 각 샘플에서 얻은 데이터끼리 따로 분석을 해야 하기 때문에, 다른 샘플의 read를 함께 선택하지 않도록 주의합니다.

사용자 삽입 이미지
다음 단계에서는 reference 서열에 대한 몇 가지 항목을 설정합니다. ‘Reference'는 read를 mapping 시킬 reference 서열을 지정하는 항목인데 선택한 reference 서열에 있는 annotation을 이용할 것인지 아닌지를 선택해야 합니다. 전자의 경우 reference 서열에서 'Gene'이라는 이름으로 annotation 영역을 추출한 다음 그 서열들에만 read들을 mapping 시키게 됩니다. 이 때 아래 쪽 ’Extend annotated gene regions'의 값을 조정하면 gene 영역의 upstream과 downstream으로 지정된 base 만큼 확장하여 추출하게 됩니다. 후자의 경우 전체 reference 서열에 read들을 mapping 시킨 후 전체 서열에 대한 발현량이 계산되게 됩니다.

사용자 삽입 이미지
다음 단계에서는 read를 mapping 하는데 요구되는 옵션들을 설정하게 됩니다. ‘Maximum number of mismatches'는 read가 reference 서열에 mapping 될 때 허용되는 mismatch base의 수를 정해주는 옵션이고 ’Maximum number of hits for a read'는 non-specific하게 mapping 되는 read의 허용 가능한 정도를 정하는 옵션입니다. 예를 들어 이 옵션이 ‘10’으로 설정되어 있을 경우, reference 서열에 mapping 될 수 있는 부분이 11개 이상인 read는 mapping되지 않고 버려집니다. 반면에 mapping 될 수 있는 부분이 10개 이하인 경우에는 그 mapping 될 수 있는 부분들 중에서 무작위로 한 자리가 선택되어 mapping 되게 됩니다. 'Minimum length fraction'과 ‘Minimum similarity fraction'은 mapping 시킬 read가 long read 일 경우 적용되는 옵션입니다. Long read는 길이가 길다 보니 reference 서열과 mapping 되는 부분을 base 단위로 정하지 않고 비율로 정하게 되는데, 'Minimum length fraction'이 ’0.9‘로 설정되면 100bp의 read는 최소한 90bp 이상 reference 서열과 match되어야 mapping 됩니다. 그리고 ‘Minimum similarity fraction'이 ’0.8‘로 설정되면 mapping 된 부분의 identity가 80%는 되어야 mapping이 됩니다.

사용자 삽입 이미지
다음 옵션은 새로운 exon 영역을 찾아내는데 필요한 옵션들입니다. 먼저 'Type of organism'에서 분석 대상이 원핵생물(Prokaryote)인지 진핵생물(Eukaryote)인지 선택합니다. 원핵생물의 경우 exon과 intron의 개념이 없기 때문에 'Exon discovery'가 수행되지 않습니다.

사용자 삽입 이미지
진핵생물을 선택하고 'Exon discovery'를 수행하도록 체크하게 되면, 세 가지 옵션 값을 설정 할 수 있습니다. 'Required relative expression level'은 다른 exon들의 발현량에 비해서 새롭게 찾아진 exon에 요구되는 상대적인 발현량을 의미합니다. 그리고 ‘Minimum number of reads'는 새롭게 찾아진 exon 영역에 요구되는 최소한의 mapping read의 수를 의미하고, 'Minimum length'는 그 exon 영역의 최소 길이를 의미합니다. 예를 들어 이 옵션들이 기본 값으로 설정된 경우, intron 영역의 어떤 부분에 10개 이상의 read가 mapping 되고, 이 read 들로 조합된 consensus 영역이 50bp 이상이면서, 이 부분에 대하여 계산된 발현량이 다른 exon 들의 발현량에 대하여 상대적으로 20% 이상이면 이 영역을 기존에 알려지지 않은 새로운 exon 이라고 인식하도록 되어 있습니다.

사용자 삽입 이미지
다음 단계에서는 분석 결과를 작성하는데 필요한 몇 가지 옵션들을 설정하게 됩니다. Mapping 되지 않은 read들의 목록을 따로 생성시킬 것인지, RNA-seq 분석에 관한 report나 분석 log를 작성할 것인지에 관하여 설정할 수 있습니다. 'Expression value'는 각 유전자 혹은 transcript의 발현값을 어떻게 계산 할 것인지를 정하는 옵션입니다. 'Transcript:RPKM'을 선택하면 각 transcript의 발현값을 계산하여 보여지게 됩니다.

사용자 삽입 이미지
그리고 paired-end read를 사용할 경우 'gene fusion' 분석도 할 수 있습니다. Gene fusion은 translocation, deletion, inversion과 같이 염색체 구조 변이에 의해서 두 개의 유전자가 합쳐진 경우를 말합니다.

사용자 삽입 이미지
예를 들어, gene fusion이 일어난 유전자에서 mRNA가 발현되고 시퀀싱 하여 paired-end read를 얻은 후 정상적인 reference 서열에 mapping을 시켜보면 forward 서열은 A라는 유전자에 mapping 되는데 reverse 서열은 B라는 유전자에 mapping 될 수 있습니다.

사용자 삽입 이미지
이런 paired-end read를 두 유전자 사이에 gene fusion이 일어났다고 볼 수 있는 증거로 제시할 수 있으며, ‘Minimum read count'로 이런 paired-end read가 최소한 몇 개가 있어야 gene fusion이 일어났다고 report를 할지 정해 줄 수 있습니다.

모든 옵션과 결과의 저장 위치 지정이 완료되면 ‘Finish' 버튼을 클릭하면 분석이 진행 됩니다.

분석이 완료되면 다양한 정보가 들어있는 테이블이 나타납니다. 각 유전자 별로 발현값, annotate된 transcript의 수, 확인된 transcript의 수 exon 영역의 길이, exon 영역에 mapping된 read의 수, 등 많은 정보를 확인 할 수 있습니다.

사용자 삽입 이미지
각 항목을 더블클릭해 보면 각 유전자별로 read 들이 어떻게 mapping 되었는지 확인할 수 있는 mapping view가 나타납니다. Mapping view에서 오른쪽 side panel의 몇 가지 설정을 바꾸면 다양한 형태로 화면을 수정할 수 있습니다. Mapping view를 열어 보면 read들이 어떤 exon에 mapping이 되었는지 볼 수 있고, 이를 통해 어떤 exon들이 조합된 transcript가 발현이 되었는지 알 수 있게 됩니다. 한 가지 예로 Brain sample의 Bdh1 이라는 유전자에서는 1개의 'Putative exon'이 발견 되었습니다. Liver sample의 결과에서 같은 유전자의 mapping view를 열고 비교해 보니 Brain sample에서 발견된 새로운 exon 부분이 mapping 되지 않은 것을 볼 수 있습니다. 이를 통해 Brain 조직에서는 Bdg1 유전자에 기존에 알려지지 않은 exon 영역이 존재하고 이 exon 영역이 함께 조합된 새로운 transcript가 발현된다고 추측해 볼 수 있습니다.

사용자 삽입 이미지
Paired-end read를 이용하고 gene fusion event를 확인 하도록 옵션을 설정했다면, 다음과 같은 결과 테이블도 볼 수 있습니다. 이 테이블에서 gene fusion이 일어난 유전자와 그 유전자의 위치, 그리고 몇 개의 paired-end read가 mapping 되었는지 확인 할 수 있습니다.

사용자 삽입 이미지

Reference
 - http://en.wikipedia.org/wiki/Fusion_gene
 - Genomic sequencing of colorectal adenocarcinomas identifies a recurrent VTI1A-TCF7L2 fusion, Nature Genetics Volume:43, Pages:964–968 Year published:(2011)



* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

  - codes@insilicogen.com

Posted by 人Co

2012/04/30 20:10 2012/04/30 20:10
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/109

NGS 데이터로 SNP와 Indel 분석하기

Variation study
'시퀀싱 비용의 절감’ 이라는 장점을 갖는 NGS 기술과 함께 이슈가 되고 있는 분야가 ‘개인 맞춤형 진단’입니다. 질병, 체질 등 모든 표현형의 근간이 되는 DNA의 서열 정보를 알아내어 비교함으로써 개인 간의 차이와 질병의 원인을 알아낼 수 있는 시도를 진행할 수 있게 된 것입니다. NGS 데이터를 이용해 수행할 수 있는 variation 분석으로 SNP, small insertion/deletion polymorphisms, structure variation 분석이 있습니다.

분석 방법은 대략 비슷한데,

  1. Reference 서열에 mapping
  2. Variation(SNP, Indel, etc)찾기
  3. Public DB 데이터와 비교

와 같은 순서로 볼 수 있습니다.

사용자 삽입 이미지
보통 mapping을 하기 전에 read 들을 quality나 시퀀싱 기기에 잠재적인 오류를 줄이기 위한 filtering을 먼저 진행하지만 여기선 언급하지 않겠습니다. Reference 서열과 read가 준비되면 reference assembly를 합니다. 그리고 그 결과로 나온 mapping 데이터에서 reference 서열과 consensus 서열, 그리고 consensus 서열을 만들어낸 read들의 서열 데이터를 모두 종합해서 SNP나 Indel을 찾아냅니다.

SNP 찾기
먼저 SNP를 찾는 방법에 대해 정리해 보고자 합니다. 사실 SNP를 찾는 소프트웨어들이 하는 일은 reference 서열과 consensus 서열이 서로 다른 position을 찾은 후, 그 position의 consensus 서열을 구성한 read들의 quality나 coverage, 그리고 구성 비율 등의 기준을 정하고 그 기준을 통과하는 position을 찾아 정리해주는 역할을 합니다.

아래 그림에서 노란색으로 강조된 세로 열을 보면 consensus 서열(black)이 ‘A’ 이지만 이 서열에 해당하는 read들을 보면 일부 ‘C' 가 보입니다. Window size라는 것은 SNP를 찾는데 특정 position에 해당 하는 read의 서열 주변 영역을 말합니다. 예를 들어서 window size가 11이라고 정해지면 특정 position의 양옆으로 5bp 씩 확장한 11bp를 의미합니다. 만약 read의 해당 position이 끝 부분이어서 한쪽으로 확장할 영역이 5bp 미만일 경우 부족한 만큼 반대쪽 영역으로 확장하여 비대칭한 형태로 window size가 설정 됩니다. 이 window size을 대상으로 quality나 gap, mismatch 개수를 계산한 다음 해당 position의 consensus 서열을 결정하게 만든 read들의 정보가 믿을 수 있는지에 대한 filtering을 하게 됩니다. 만약 해당 position을 서열을 결정하는 read 서열 주변(window size) 영역의 quality가 낮거나 gap 또는 mismatch가 많다면, 그 read의 서열은 신뢰하기 어렵기 때문에 SNP를 결정 할 때 제외해야 할 것입니다.

사용자 삽입 이미지
이렇게 믿을 수 있는 read 정보만 남겨놓은 다음에는 read 서열의 frequency를 계산하여, 해당 position에 대하여 reference 서열과 다른 read의 서열의 frequency에 대한 기준을 정해 SNP를 찾아냅니다. 예 를 들어 위 그림의 강조된 부분에 mapping 된 14개 read 중 8개의 read는 'A'이지만 4개의 read는 C를 가리키고 있습니다. A와 C의 frequency는 66.67%와 33.33%입니다. 만약 reference 서열이 'A'이고 기준 frequency를 30% 라고 정했다면, 이 position은 SNP로 찾아질 것입니다. 이 frequency에 대한 기준은 sample을 어떻게 준비했느냐에 따라 달라집니다. 예를 들어 이배체 종의 sample을 그대로 시퀀싱 했다면 부모로 받은 서로 다른 두 개의 형질이 섞인채로 시퀀싱 되어 실제 SNP를 찾기 힘들기 때문입니다.

이렇게 염기서열 상에서의 SNP를 찾고난 다음에는 이 서열이 발현 단계에서 아미노산 서열의 변화까지 일으키는 non-synonymous SNP인지 확인해야 합니다.

사용자 삽입 이미지
사용자 삽입 이미지

DIP 찾기
편의상 Deletion/Insertion(gap) polymorphism을 줄여서 DIP라고 부르겠습니다. DIP를 찾는 것도 SNP를 찾는 방법과 유사합니다. Reference 서열과 비교해서 consensus 서열에 나타난 insertion이나 deletion이 나타난 자리를 찾는 것 입니다. 이 때 SNP와 마찬가지로 DIP가 나타난 consensus 서열의 근거가 되는 read의 수나 frequency를 기준으로 DIP를 선별해 낼 수 있습니다. DIP의 경우 1~2bp로 인해 해당 유전자의 ORF 전체가 바뀌게 되므로 관련된 유전자와 관련된 구조적 변화나 질병 등에 대한 연구가 함께 필요합니다.

사용자 삽입 이미지


* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

  - codes@insilicogen.com

Posted by 人Co

2012/04/20 14:04 2012/04/20 14:04
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/108



« Previous : 1 : 2 : 3 : 4 : 5 : Next »