장고(Django)의 CSRF 웹 취약점 대응

웹(WWW)이 대중화되고 많은 프로그램들이 웹으로 넘어오면서 웹 보안의 중요성은 날이 갈수록 강조되고 있습니다. 웹은 타 인터넷 네트워크 프로토콜에 비해 상대적으로 안전하다고 인식되기 때문에 일반적으로 서비스 포트(80)가 열려있으며 다양한 웹 어플리케이션이 동작하고 서비스됩니다. 그러다보니 웹을 통한 네트워크 취약점 또한 많이 연구되고 있으며, 악의적인 목적을 가진 임의의 공격자 역시 예전의 다양한 네트워크 프로토콜에 관련된 것보다는 직접 웹 어플리케이션의 취약점을 노리는 경우가 많습니다.

따라서, 웹어플리케이션을 구현할 때는 보안에 보다 더 주의해야 합니다. 국제 웹 보안 표준기구인 OWASP에서는 주기적으로 보안 10대 취약점을 발표하는데, 이 내용을 기준으로 자신의 웹 어플리케이션에 취약점이 없는가 점검하는 일은 매우 중요합니다.

OWASP 2007 Top 10 에 의하면 다양한 취약점들이 보고되고 있는데(조만간 2010년 Top 10이 발표될 듯 합니다), 그 가운데 매우 중요한 보안요소임에도 불구하고 많은 부분 신경쓰고 있지 못하는 취약점이 바로 CSRF 취약점입니다.

CSRF(Cross-site Request Forgery, 크로스사이트 요청 위조) 공격은 원클릭 공격, 사이드 재킹, 세션 라이딩 등으로도 알려져 있고, 약어로는 XSRF로도 알려져 있습니다. 이 공격은 사이트가 신뢰하는 사용자를 통해 공격자가 원하는 명령을 사이트로 전송하는 기법을 사용합니다. 공격이 사용자를 통해 이루어지기 때문에 공격자의 IP는 추적 불가능한 특성이 있습니다.

은행사이트를 예를 들자면, 공격자 A는 피해자 B가 접속하는 은행 사이트에 조작된 이미지 태그를 게시판에 남깁니다.
<img src="http://bank.example.com/withdraw?account=B&amount=100000&for=A" />
피해자 B 가 은행사이트에 접속하고 로그인하면 세션 정보가 남아있는 상태이고 이때 공격자 A가 게시판에 남겨놓은 글을 B 가 읽게 되면 해당 링크가 요청되면서 공격이 실행됩니다. 원래는 이미지를 불러오기 위해 지정된 이미지 링크롤 GET 메쏘드로 요청하게 되는데, 피해자 B가 인증되어 있는 상태인점을 이용하여 이렇게 우회공격을 할 수 있게 된 것입니다. 특히 대부분의 게시판들이 자바스크립트는 막아놓지만, 이미지 포스팅은 막지 않는 것도 공격에 유리한 상황을 만들어줍니다.

최근에 발생했던 옥션의 1800만명 개인 정보 유출 사고는 CSRF 공격을 당한 것으로 밝혀졌다고 합니다. 중국 해커는 직접 서버를 공격하는 대신, 옥션 운영진을 대상으로 악성 코드를 첨부한 메일을 대량으로 유포했습니다. 운영자가 메일을 확인한 순간 ID를 얻을 수 있었고, 해커는 이 ID를 이용하여 옥션 서버에 로그인할 수 있었다고 합니다. (용어사전 CSRF의 내용을 일부 인용했습니다.)

이러한 취약점을 막는 가장 기본적인 방법은 서버의 상태를 변경하는 요청에 대해 GET 을 쓰지 않는 것입니다. 하지만 만일의 경우 공격자가 스크립트를 이용하여 POST로 보낼 수 도 있으므로 POST 메쏘드인 경우에도 대비를 해야합니다. 따라서 가장 일반적인 해결 방법은,
 1. 서버의 상태를 변경하는 요청은 GET 을 쓰지 않고,
 2. POST 의 경우에도 hidden 필드에 임의의 키값을 전달하고 그 키값이 맞는가를 매번 확인하는 것입니다.

하지만, 실제 보통의 웹 어플리케이션은 2번의 방비가 되어있지 않습니다. 이는 불특정 사용자가 서버의 상태를 임의로 변경할 수 있는 약점을 가지고 있게 합니다.

장고(Django)에서는 1.2 버전부터 이러한 CSRF 취약점을 막는 기능을 기본으로 제공합니다. 모든 POST 방식의 폼 전송에는 hidden 필드로 세션에 따른 임의 키값을 전송하며, 해당 키 값이 유효한지를 매번 확인합니다.

이를 위해서는
 1. 설정파일(settings.py)에 미들웨어에 django.middleware.csrf.CsrfViewMiddleware를 추가하고,
 2. POST 가 사용된 폼 템플릿에 {% csrf_token %} 을 직접 삽입해야 합니다.
<form action="" method="post">{% csrf_token %}
만일 미들웨어를 쓸 수 없는 경우라면, django.views.decorators.csrf 의 csrf_protect 장식자(decorator)를 쓸 수 도 있습니다.
from django.views.decorators.csrf import csrf_protect
from django.template import RequestContext

@csrf_protect
def my_view(request):
    c = {}
    # ...
    return render_to_response("a_template.html", c,
                               context_instance=RequestContext(request))
특정 뷰에 대해 csrf를 적용하고 싶지 않다면 csrf_exampt 장식자를 사용합니다.
from django.views.decorators.csrf import csrf_exempt

@csrf_exempt
def my_view(request):
    return HttpResponse('Hello world')
장고 뿐 아니라 최신의 웹 프레임워크 (Ruby on rails, Spring 등)은 모두 CSRF를 위한 별도의 방어 방법들을 제공합니다. 하지만 장고는 별도의 설정없이도 CSRF 대응이 가능하도록 구현되어 웹 초보개발자도 취약점이 존재하는 사이트를 만들 수 있는 여지를 사전에 차단한다는 점이 특징이라고 할 수 있습니다.

인실리코젠 KM팀에서 구현하는 대부분의 웹 어플리케이션은 최신 버전의 장고를 사용하고 있으며, 중요한 보안위험요소들을 주기적으로 검토하고 있습니다.

Posted by quipu

2010/03/10 17:52 2010/03/10 17:52
, , ,
Response
No Trackback , No Comment
RSS :
http://insilicogen.com/blog/rss/response/55

 난 2월 26일(금) Systems Biology 전문 소프트웨어 개발회사인 Ariadne Genomics사에서 Anton Yuryev 박사가 내한하였습니다. Anton Yuryev 박사는 이번 세미나에서 nutrigenomics, toxicogenomics와 biomarker발굴 연구에 응용할 수 있는 Pathway Studio 프로그램의 다양한 분석 활용에 대해 소개해주셨습니다.

 세미나는 26일 하루 동안 서울과 대전 두 곳에서 바쁘게 진행되었습니다. 먼저 오전에 서울대학교 약학대학에서는 서울 근교 지역에서 여러 분들이 참석을 해주셨습니다. 서울대학교 분석약학실의 권성원 교수님의 Anton박사 약력 소개와 이어 (주)인실리코젠의 Codes팀 박준형 팀장님께서 이날 세미나의 취지에 대해 말씀해 주시는 것으로 세미나가 시작되었습니다. Anton박사는 Pathway Studio에 대한 간략한 소개와 skin care에 대한 새로운 idea, 다양한 물질에 대한 toxicity mechanism, drug action mechanism, disease pathway 등 다양한 case study를 Pathway Studio 이용하여 어떻게 분석할 수 있는지에 대해 설명해 주셨습니다.

사용자 삽입 이미지
1시간 30분간의 서울에서의 세미나 일정을 마치고 간단하게 점심을 먹고 대전으로 향했습니다. 점심을 먹는 동안에는 김연아 선수의 프리스케이팅 경기가 있었습니다. Anton Yuryev 박사님께 김연아 선수에 대한 소개도 해드리고 함께 경기를 지켜보았습니다. 김연아 선수의 좋은 성적으로 기분 좋게 대전으로 출발할 수 있었던 것 같습니다.

 전에서는 한국생명공학연구원에서 세미나가 진행되었는데 한국생명공학연구원분들과 KAIST 그리고 멀리 부산에서도 참석하여 함께 자리를 빛내주셨습니다. 세미나에 대한 소개를 시작으로 Anton Yuryev 박사의 세미나가 시작되었습니다. 세미나는 서울에서와 마찬가지로 Pathway Studio에 대한 간략한 소개와 drug epositioning and combination therapy design이라는 주제에 중점을 둔 case study 내용으로 진행되었습니다. 세미나가 끝나고 멀리 있어서 자주 찾아뵙지 못하는 분들과 반갑게 대화를 나누는 시간도 잠시 가졌습니다.

사용자 삽입 이미지
  렇게 26일의 서울과 대전의 바쁜 일정을 마치고 27일(토)에는 Anton Yuryev 박사께서 직접 저희 회사에 방문해 주셔서 내부 세미나를 진행해주시기도 하였습니다. 한층 더 업그레이드된 ResNet Database curator, MedScan 기술, 그리고 Pathway Studio의 API에 대해 Training을 받았습니다. 저희 회사에서 앞으로 Pathway Studio 컨설팅을 하는데 있어서 도움이 될 수 있는 내용에 대해 배우는 중요한 시간이 되었습니다.

사용자 삽입 이미지
  다시 한 번 바쁘신 와중에도 지난 26일(금)에 세미나에 참석해 주신 모든 분들께 진심으로 감사드리며, 이번에 개최된 세미나가 많은 분들께 유익한 시간이 되었기를 바랍니다. 앞으로도 저희 (주)인실리코젠에서는 세미나를 진행함에 있어 부족한 점들을 지속적으로 보완하여 세미나에 참여하시는 모든분들께 보다 새롭고 다양한 정보를 제공할 수 있도록 노력하겠습니다. 발표 내용이나 PathwayStudio에 대한 문의사항이 있으시면 언제든지 대표전화(031-278-0061) 또는 Codes팀(codes@insilicogen.com)으로 문의하여 주십시오.

감사합니다.




Posted by quipu

2010/03/09 17:46 2010/03/09 17:46

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application으로 유전자의 염기서열에는 변화를 주지 않으면서 유전자의 발현 등에 영향을 주어 개체의 차이를 나타내게 하는 현상에 대해 연구하는 Epigenomics의 분석 방법에 대해 알아보겠습니다.

2-3. Epigenomics


 2003년 인간 유전체에 대한 서열해독 이후로, 유전체에 대한 기능적 분석에 연구가 증가하면서, 이른바 post genomics시대가 도래하고 유전체 연구와 함께 이들의 발현과 작용에 대한 연구들이 활발해 지고 있다.  Epigenetics라는 분야는 이러한 흐름을 주도하는 분야로서, 유전되는 DNA서열로만 설명이 불가능한 부분의 해석을 돕고, 보다 발전적인 유전체 연구를 목적으로 진행되고 있다. Epigenetics에서 가장 주요하게 여겨지는 부분은 유전자의 발현으로서, 유전자가 유전체에 존재하지만, 발현여부에 따라 세포내 역할이 달리지고, 달라진 발현양상은 유전물질처럼 후대에게도 영향을 주는 것이다. 이는 기존의 유전체가 답하지 못했던 물음에 실마리를 제공하면서, 유전체를 좀 더 잘 이해하기 위한 수단으로 이용되고 있다[1].

사용자 삽입 이미지
그림 1. DNA methylation에 의한 유전자 발현 및 억제

 Epigenomic study의 연구대상으로 가장 대표되는 것이 DNA-methylation이다. DNA strand에서 CpG island가 있고 이중 cytosine이 5-methyl cytosine으로 modification 되는 현상이다. 이러한 methylation 현상은 유전체 전반에 걸쳐 일어나는 것으로 유전자의 단백질 코딩 영역이나 전사 조절 부위에서 관찰이 되며 이는 곧 유전자의 발현에 관여하게 된다[2]. 대표적인 예로 X-염색체 inactivation을 통한 유전자 dosage 조절이나 발달과정에서 필요한 유전자들의 발현을 성장 시기에 맞춰 선택적으로  조절 하는 것이 이에 해당 한다. 뿐만 아니라 외부의 retro virus나 transposon의 발현 억제와 cancer에 의한 repressor 유전자의 inactivation 기작 역시 DNA methylation을 통해서 이루어지고 있어 질병과 관련하여 유전체 연구에서 중요하게 다뤄지고 있다. 

2-3-1. Methylation Analysis


 Genome methylation을 알아보기 위한 기존의 방법은 Methylation Sensitive Restriction Enzyme (MSRE)을 이용하거나,  살펴보고자 하는 특정 영역에 해당하는 프라이머를 작성하여 PCR을 수행 하는 방법 등이 이용되었다. 그러나 NGS 기술의 발달로 epigenetics 분야의 연구 또한 대량의 functional gene study가 일반화 되어가고 있다. 가장 대중적인 방법은 genomic DNA를 추출하여 bisulfate를 처리한 후에 NGS를 통한 대량 sequencing을 수행하는 것이다(그림 2).

사용자 삽입 이미지
그림 2. Genomic DNA의 bisulfate처리로 methylation 여부를 확인.
Methylation 되어 있지 않은 cytosines은 bisulfite 처리로 uracil로 바뀌게 되고 반면,
methylation 되어 있는 cytosines에는 변화가 없어 genome상의 서열변화로 methylation 여부를 확인한다[3].

시퀀싱 된 NGS reads는 reference assembly를 통해 유전체 내의 전체적인 5-methyl cytosine의 분포를 확인 하는데 이용하게 된다. 이러한 분석은 ABI-SOLiD, Illumina의 Solexa 그리고 Roche 454 모두 가능한 플랫폼이긴 하나 long reads 시퀀싱을 수행하는 Roche 454가 조금 더 유용하게 이용되고 있다[3].

다음 연재에서는  단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.
많은 관심 부탁드립니다.



참고문헌


 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13


Posted by quipu

2010/03/08 11:26 2010/03/08 11:26

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study의 마지막 내용으로 한정적인 유전자를 좀 더 다양하게 활용할 수 있는 Alternative splicing 분석에 대해 알아보겠습니다.

2-2-7. Alternative splicing Analysis


 한정적인 유전자를 좀 더 다양하게 활용하기 위한 방법으로 alternative splicing이 이뤄지고 있다[20]. 그러나 어느 유전자에서 어느 정도 alternative splicing이 이뤄지는지는 명확하게  밝혀진 바가 없다. NGS 이전 시대의 ESTs와 기타 실험적인 분석으로 약 72%에 해당하는 human 유전자가 alternative splicing을 하는 것으로 알려졌었으나[21],

 최근 NGS를 이용한 분석으로 약 94%의 유전자가 해당하는 것으로 밝혀졌다[20]. 뇌, 간, 근육, 폐의 조직으로부터 분석한 결과 2개 이상의 mRNA를 만들어 내는 유전자가 92-94%에 해당한다는 것이다. 이후 이를 뒷받침하는 자료로 15개의 조직으로부터 분석한 결과 94% 유전자가 alternative splicing이 이뤄진다고 발표 되었다[22].

 현재 까지 밝혀진 alternative form은 대부분 8가지 형태로 분류 되고 있다(그림 10)[20]. 가장 흔한 형태는 exon이 카세트 형태로 들어갔다 나갔다 하는 exon skipping이며, 그 외에도 intron이 exon처럼 읽혀지는 형태와 UTR 영역의 variation도 많은 부분 차지한다. 이러한 형태는 조직, 발달 단계, 그리고 기타 환경적인 자극에 의한 대처로 서로 다른 형태의 mRNA를 발현하여 세포내 항상성을 유지하는 것으로 보고 있다[20].

 실제 분석을 위해서는 위에서 언급 했듯이 다양한 조건에서 다양한 형태로 발현되므로 이를 반영하여 최대한 다양한 조건의 mRNA를 수집하여 이를 genome과 mapping하고 패턴을 분석하는 것이다. 그러기 위해서는 short-reads 보다는 long reads 플랫폼을 이용한 mRNA 시퀀싱이 좀 더 많은 정보를 담고 있으므로 유용하다. 이후 reference assembly를 통해 유전자 영역에서의 transcriptom alignment 형태를 분석하여 alternative 분석을 수행한다(자세한 분석 방법은 2-4-1 C. Alternative splicing analysis 참조).

사용자 삽입 이미지
그림 10. Alternative splicing 형태[20].




다음주 연재에서는 유전자의 염기서열에는 변화를 주지 않으면서 유전자의 발현 등에 영향을 주어 개체의 차이를 나타내게 하는 현상에 대해 연구하는 Epigenomics의 분석 방법에 대해 알아보겠습니다.

많은 관심 부탁드립니다.


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)








Posted by quipu

2010/03/05 08:45 2010/03/05 08:45
Response
No Trackback , No Comment
RSS :
http://insilicogen.com/blog/rss/response/52

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq 분석에 대해 알아보겠습니다.

2-2-6. RNA-Seq Analysis


 Serial Analysis of gene Expression(SAGE), Cap Analysis of gene expression (CAGE), 그리고 Massively Parallel Signature sequencing(MPSS)은 특정 유전자의 발현 양 정보를 얻고자 하는 목표로 수행되는 방법들이다. 이러한 방법들은 많이 이용되고 있지만 Sanger 방법에 바탕을 둔 것으로 높은 비용과 짧은 reads는 reference 서열에 유일하게 매핑하기 힘들다는 문제점을 가지고 있다. 이러한 문제점들을 극복하기 위한 방법으로는 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq기술이 있다[1].

표 1에서 보는 것과 같이 RNA-Seq을 분석 할 수 있는 프로그램에는 여러 가지 소프트웨어가 있는데 그 중에 CLC Genomics Workbench는 annotation된 Reference 유전체 서열과 mRNA 시퀀싱 reads를 바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있다. RNA-Seq 분석은 몇 가지 단계로 수행된다. 먼저, Reference 서열에서 모든 유전자를 추출한다. 이 때 유전자 서열의 다른 annotation들은 보존된다[23].

사용자 삽입 이미지
다음으로 영역 주변의 엑손-엑손 경계를 추출한다. 그 다음으로 모든 엑손-엑손 junctions plus에 대한 Reference assembly가 수행된다. 이 assembly로부터 각각의 유전자에 대해 발현 수치가 계산되고 putative exon을 확인할 수 있다. 발현 수치는 RPKM(reads per kilobase of exon model per milion mapped reads)방법으로 측정된다(그림 9).

사용자 삽입 이미지
그림 9. RNA_seq analysis.
(a) exon-exon junction+gene 서열을 reference 서열로 한다.
(b) NGS reads의 reference assembly를 통한 alignment를 통해
새로운 각 엑손 단위 혹은 유전자 단위의 발현양을 확인한다.


다음 연재에서는 한정적인 유전자를 좀 더 다양하게 활용할 수 있는 Alternative splicing 분석에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌


1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by quipu

2010/03/04 08:59 2010/03/04 08:59
, , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
http://insilicogen.com/blog/rss/response/51

« Previous : 1 : 2 : 3 : 4 : 5 : ... 11 : Next »