Sequencher의 새로운 RNA-Seq 기능

 

요즘 실험과학분야에서 핫한 이슈중 하나는 RNA-Seq의 빠른 확장입니다. 연구자들이 효율적으로 NGS장비를 사용하게 되는 것이 일조했고, RNA의 분리와 시퀀싱에 의해서 세포의 transcriptome의 정확한 정보들을 얻을 수 있게 되었습니다. 그와 함께 RNA를 다룰 때 생기는 유전자 조절의 복잡성, 스플라이스 변이의 존재와 기술적인 이슈 없이 command line툴을 사용하여 transcriptome을 알아내는 것은 힘든 작업입니다. 차등유전자발현을 연구하기 위한 가장 많이 쓰이는 RNA-Seq 툴중 하나인 Cufflinks suite가 Sequencher에 추가되었습니다.

 

Cufflinks는 mRNA transcript의 상대적인 발현량 뿐만 아니라 스플라이싱과 RNA editing의 다른 형태를 통해 복잡한 유전자 발현을 관찰 할 수 있도록 같은 유전자에서 다른 isoform을 찾을 수 있도록 해줍니다.

 

ITQB 연구진은 3개의 exoribonucleases(RNase II, RNase R, PNPase)에 의해 영향을 받은 E.coli에서 어떻게 안정상태의 RNA의 레벨을 확인할 수 있을지 조사하는데 cufflinks를 사용하였습니다. exoribonuclease중 하나를 knock down 시킨 배지에서 유전자 발현 데이터를 비교하는 것은 nuclease와 결합 가능한 transcript 사이의 연관관계를 찾을 수 있습니다.

연구자들은 유전자 발현 knock down결과의 downstream과 몇 개의 중요한 특징을 결합했습니다. 두드러지게 영향을 받은 특징들은 세균의 병원성에 중요한 요소인 이동성과 세균막의 형성이었습니다.

Cufflilnks는 non-conding RNA에서도 사용할 수 있습니다. European Heart Journal에 있는 논문에서 심장마비가 온 뒤 심장의 기능에서 특정한 역할을 하는 새로운 long non-coding RNA 수백개를 동정하는 연구를 했습니다. 관여하고 있는 lncRNA와 유전자 조절 사이의 관계를 찾는 것은 심근경색 환자들의 새로운 의학적 치료를 모색할 수 있는 돌파구가 되었습니다.

 

만약 cDNA의 raw 데이터로 시작하게 된다면, Sequencher로 여러분의 RNA-Seq분석에 모든 단계를 직접 수행할 수 있습니다. 첫 번째 단계는 NGS alignment에 어떤 알고리즘을 사용할 것인지 선택합니다. Sequencher는 BWA-MEM과 GSNAP를 사용하기 쉽도록 그래픽 인터페이스로 제공합니다. command line으로 사용을 원하시는 분은 또한 command로도 사용하실 수 있습니다.

 

NGS alignment는 Cufflinks workflow에 input 파일인 SAM/BAM파일을 생성합니다. Cufflinks workflow는 세 단계로 있으며, 일반적으로 이 단계들은 대∙소문자에 민감하고 탭과 띄어쓰기가 헷갈릴 수도 있으며 축약형이나 옵션 기호가 있는 command line에서 수행합니다. Sequencher는 command line 대신 그래픽 인터페이스를 제공하여 사용하기 편리합니다. Cufflinks 프로그램은 SAM파일로부터 align된 read들을 가지고 GTF annotation file을 이용해 다시 align합니다. 이것은 다른 isoform과 transcript를 찾아줍니다. 만약 차등발현을 보고자 한다면 각 샘플에 대해 이 단계를 반복해야 합니다.

다음 단계는 Cuffmerge라는 단계이며 이름대로 Cufflinks에서 나온 두 개의 transcript 파일을 하나의 transcript consensus 파일로 만들어 주는 단계입니다. 이 파일은 차등발현분석을 하는 Cuffdiff에 사용됩니다.

 

Sequencher는 Cuffdiff에서 나오는 최종파일을 다루며 발현레벨에서 차이점을 그래픽으로 나타내줍니다. Sequencher는 command line뿐 아니라 통계프로그램언어 R에서의 사용자를 저장합니다. Sequencher는 volcano plot, scatter plot, bar chart로 그래픽을 제공합니다. volcano plot은 발현의 변화와 그와 관련한 통계를 그려 발현변화와 통계적 관련성 등에 따라 관심 있는 부분을 결정할 때 유용합니다. 각 그래프는 분석의 다른 양상을 보여주고 모든 그래프는 테이블 위에 있는 데이터로 연결되며, 그래프의 점을 클릭하면 자동적으로 그 지점에 해당하는 데이터 항목이 표시됩니다.

 

시퀀쳐의 NGS, RNA-Seq기능은 앞으로도 계속적으로 확장 될 계획입니다.

 

 

 

 

Citations

1. Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, Van Baren MJ, Salzberg SL, Wold BJ, Pachter L. Transcript assembly and abundance estimation from RNA-Seq reveals thousands of new transcripts and switching among isoforms. Nat Biotechnol. 2010 May; 28(5): 511-515.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3146043/?report=reader#!po=85.0000 

2.  Pobre V, Arraiano CM. Next generation sequencing analysis reveals that the ribonucleases RNase II, RNase R and PNPase affect bacterial motility and biofilm formation in E. coli. BMC Genomics (2015) 16:72 
http://www.biomedcentral.com/content/pdf/s12864-015-1237-6.pdf

3 Ounzain S, Micheletti R, Beckmann T, Schroen B, Alexanian M, Pezzuto I, Crippa S, Nemir M, Sarre A, Johnson R, Dauvillier J, Burdet F, Ibberson M, Guigó R, Xenarios I, Heymans S, Pedrazzini T. Genome-wide profiling of the cardiac transcriptome after myocardial infarction identifies novel heart-specific long non-coding RNAs. European Heart Journal (2015) 36, 353-368
http://eurheartj.oxfordjournals.org/content/early/2014/04/30/eurheartj.ehu180