나만 알고 싶은 OmicsBox



'유전체 데이터는 점차 쌓여가고···쌓여가는 데이터 처리는 해야겠고···이왕 처리하는 거 효율적으로, 내가 원하는 방향으로 처리하고 싶은데···심도 있는 분석은 또 어떻게 진행해야 하는 걸까···' 이런 의문 품어보신 적 다들 있으시죠?! 있을 겁니다! 저 또한 그랬으니까요!

제 경우에는 OmicsBox라는 솔루션이 저의 이러한 의문을 해소해주었습니다. 제가 OmicsBox를 처음 접한 건 바야흐로 대학원 시절. 그 당시에는 OmicsBox로 리뉴얼 되기 전인 Blast2GO 버전이었습니다. 저는 그 당시 De Novo Transcriptome 분석을 진행했었고, BLAST 분석 이후의 후속 분석인 Functional Analysis(GO, KEGG, InterProScan)를 Blast2GO를 이용하여 진행했었습니다.

만약 그 당시의 저에게 Blast2GO가 없었다면, 저는 아마 졸업을 못 했을 겁니다. (생각만 해도 끔찍하네요.)
서론이 길었네요 :D 자, 그럼 이렇게 저를 무사히 졸업시켜주는데 일조했던 OmicsBox(구 Blast2GO)! 과연 어떤 기능을 하는 생물정보 솔루션인지 이제부터 차근차근 알아볼까요?



나만 알고 싶은 OmicsBox

OmicsBox 기능을 알아보기 전에 OmicsBox는 무엇인지에 대해 먼저 알아보겠습니다.

OmicsBox는 새로운 genome 분석을 위한 최고의 생물정보학 플랫폼(Platform)임과 동시에 산업, 학술 및 정부 연구기관의 생물학자를 위한 사용자 친화적인 생물정보학 데스크톱 애플리케이션(Desktop application)입니다. 이러한 OmicsBox는 기능 유전체학의 선두주자로서 세계적으로 인정받고 있으며, 이는 7,000개 이상의 과학 연구 인용으로 입증되었습니다. 또한, OmicsBox는 genomics, transcriptomics, metagenomics의 NGS 데이터 분석에 최적화(de novo 파트)되어 있으며, 필요에 따라 데이터 분석에 필요한 다양한 모듈(Module)을 결합하여 사용할 수 있습니다.


[그림 1]. OmicsBox OverView

  • 아래는 OmicsBox의 주요 기능을 나열해 봤는데요,
  • 클라우드 플랫폼(Cloud platform)을 활용한 애플리케이션(Application) 고속 실행 및 견고하고 안전한 백엔드(Back-end) 제공
  • Blast 결과의 Gene Ontology mapping
  • Functional Annotation
  • InterProScan domain 검색
  • GO-Slim Reduction
  • KEGG map mapping
  • 통계 정보 차트
  • 다양한 데이터의 import와 export format 지원
  • Eukaryote, prokaryote에 알맞은 model을 이용한 유전자 부위 예측
  • 발현값을 이용한 pairwise/time course 별 분석
이뿐만 아니라 OmicsBox는 아래와 같은 강력한 장점도 가지고 있습니다.



Advantages of OmicsBox

Powerful Tables



[그림 2]. Powerful Tables
풍부한 사용자 인터페이스(Interface)를 통해 대용량 데이터세트를 쉽게 처리할 수 있고, 모든 테이블은 필터링과 정렬을 할 수 있으며, 가장 중요한 것은 다른 결과 세트와 결합할 수 있다는 것입니다. 또한, 후속 분석 단계의 하위 집합을 쉽게 생성하고 추출할 수 있습니다.

Workflows


[그림 3]. Workflows

Workflow manager를 사용하여 생물정보학적 workflow를 생성, 실행 및 저장할 수 있으며, 선택한 분석 단계를 끌어와 workflow를 생성하고 모든 파라미터(Parameter)를 한 곳에서 구성하고 검토할 수 있습니다.
  
Genome Browser


[그림 4]. Genome Browser

Genome Browser는 여러 트랙(Track)을 통해 alignment(.bam), gene annotation(.gff) 및 variant 정보(.vcf)를 결합할 수 있습니다. 그뿐만 아니라 navigation, 필터 및 검색 옵션을 사용하여 쉽고 탐색적인 방법으로 결과를 확인할 수 있습니다.

Omics Cloud Platform



클라우드 플랫폼(Cloud platform)은 대부분의 무거운 작업이 수행되는 OmicsBox에 견고하고 안전하며 자동 확장이 가능한 백엔드(Back-end)를 제공합니다. 또한, 이 시스템을 사용하면 표준 PC에서 매우 까다로운 생물정보학 애플리케이션(Application)을 고속으로 실행할 수 있습니다.
 
자 어떤가요? 전반적으로 OmicsBox에 대해 간략히 알아보았는데, 글을 읽다 보니 내 데이터를 어떻게 처리하면 좋을지 구상이 잡히셨나요? {OK} 아직 잘 안 잡히셨다고요? 괜찮습니다.:-)
이제부터 설명해 드릴 OmicsBox의 4가지 모듈을 살펴보고 나면 구상이 잘 잡히실 겁니다.
그럼 한번 살펴볼까요?



Four modules of OmicsBox


[그림 6]. Four modules of OmicsBox

Genome Analysis
  • Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고, low quality bases를 제거할 수 있습니다.
  • De Novo Assembly : ABySS를 기반으로 하는 assembly 기능을 통해 reference genome 또는 특정 하드웨어(Hardware) 요구 사항 없이 전체 genome sequence를 재구성할 수 있습니다.
  • Repeat Masking : 다운스트림(Down-stream) 유전자 예측을 개선하기 위해 RepeatMasker를 사용하여 진핵생물 genome의 반복적이고 복잡성이 낮은 assemble된 DNA sequence를 마스킹(Masking)할 수 있습니다.
  • Gene Finding : Genome 구조를 특성화하기 위해 원핵생물(Glimmer 사용) 및 진핵생물(Augustus 사용) 유전자 예측을 수행할 수 있으며, 진핵생물 유전자 예측은 RNA-seq 인트론 힌트를 지원합니다.
  • Genome Browser : 트랙(Track) 형태로 annotation을 시각화하여 genome sequences(.fasta), alignments(.bam), intron-exon structure(.gff) 및 variant data(.vcf)와 결합할 수 있습니다.

Transcriptomics
  • Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.
  • De Novo Assembly : Reference genome 없이 de novo transcriptome을 생성하기 위해 Trinity 프로그램을 이용하여 짧은 Reads를 조립할 수 있습니다.
  • RNA-Seq Alignment : 초고속 유니버설(Universal) RNA-seq aligner인 STAR를 사용하여 RNA-seq 데이터를 reference genome에 alignment 할 수 있습니다.
  • Quantify Expression : HTSeq 또는 RSEM을 사용하여 reference genome의 유무와 관계없이 gene 또는 transcript 수준에서의 발현을 정량화할 수 있습니다.
  • Differential Expression Analysis : NOISeq, edgeR 또는 maSigPro와 같이 잘 알려진 다양한 통계 패키지(Package)를 사용하여 실험 조건 간 또는 시간이 지남에 따라 차등적으로 발현된 유전자를 검출할 수 있습니다. 또한, 풍부한 시각화는 결과를 해석하는 데 많은 도움이 됩니다.
  • Enrichment Analysis : 차등 발현 결과를 functional annotation과 결합함으로써, Enrichment 분석은 과잉 및 과소 표현된 생물학적 기능을 식별할 수 있도록 해줍니다.

Metagenomics
  • Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.
  • Taxonomic Classification : Kraken에서 현재의 종(세균, 고세균, 바이러스)을 식별하고, 다단계의 Pie chart인 Krona와 샘플 간의 비교 막대 그래프로 결과를 시각화할 수 있습니다.
  • Metagenomics Assembly : 클라우드(Cloud)에서 빠르고 쉽게 대규모 데이터세트를 조립하기 위해 MetaSPAdes와 MEGAHIT 중에서 선택할 수 있습니다.
  • Gene Prediction : 가능 유전자와 단백질을 식별하고 추출하기 위해 일반 Reads에는 FragGeneScan, 조립된 데이터에는 Prodigal을 사용할 수 있습니다.
  • Functional Interpretation : EggNOG-Mapper 및 PfamScan을 사용하여 높은 처리량의 functional annotation을 얻을 수 있고, 결과를 GO graph 및 chart로 시각적으로 표현하고 비교할 수 있습니다.

Functional Analysis
  • High-Throughput Blast and InterProScan : CloudBlast 및 CloudInterProScan을 사용하여 선택한 reference 데이터세트에 대해 빠른 sequence alignment 및 domain 검색을 수행할 수 있습니다.
  • Gene Ontology Mapping : UniProt 및 Gene Ontology Consortia의 최신 데이터베이스에서 사용 가능한 functional annotation을 사용하여 잠재적인 homologous와 domain을 연결할 수 있습니다.
  • Blast2GO Annotation : Blast2GO 방법론을 사용함으로써, source annotation 품질 및 ontology 계층을 고려하여 가장 신뢰할 수 있는 기능 label을 새로운 sequence 데이터세트에 유연하게 할당할 수 있습니다.
  • Enrichment Analysis : 서로 다른 enrichment 분석 방법 (Fisher Exact Test 및 GSEA)을 사용하여 과다 및 과소 표현된 분자 기능을 식별할 수 있습니다.
  • Functional Interpretation : 다양한 시각화를 통해 annotation process를 평가할 수 있을 뿐만 아니라 실험 및 기능 분석 결과의 생물학적 해석을 도울 수 있습니다.

Genome 분석, Transciptome 분석, Metagenome 분석 받고 Functional Annotation 분석까지! NGS 분석 대부분 분야를 섭렵한 OmicsBox, 어떠신 것 같나요? 구상이 어느 정도 잡히시고 있나요? 점점 OmicsBox 매력에 빠져들고 계신가요? :))
그럼 이쯤에서 이런 질문을 던질 수도 있습니다. "Genome 분석, Transcriptome 분석, Metagenome 분석, Functional Annotation 분석까지 기능은 매우 좋은데 어떻게 이용해야 할지 잘 모르겠어요···"
걱정하지 마세요! 저희에게는 앞서 언급되었던 장점 중 하나인 workflows가 있습니다!



OmicsBox Workflows

Genome Analysis Workflows
  • Eukaryotic Genome Analysis Workflow
  • Prokaryotic Genome Analysis Workflow
  • Long Reads Eukaryotic Genome Analysis Workflow
  • Long Reads Prokaryotic Genome Analysis Workflow

[그림 7]. Eukaryotic Genome Analysis Workflow
 

Transcriptomics Workflows
  • De Novo Transcriptome Characterization Workflow
  • Transcript-level Analysis Workflow
  • Gene-level Analysis Workflow



[그림 8]. De Novo Transcriptome Characterizatioin Workflow
 

Metagenomics Workflows
  • Taxonomic Classification Workflow
  • Functional Annotationi Workflow



[그림 9]. Taxonomic Classification Workflow
 

Metagenomics Workflows


[그림 10]. Functional Analysis Workflow
 
Raw data만 넣어주고, 각 단계의 파라미터(Parameter)만 잡아주면~ 자동으로 output까지 산출되는 workflow! 참으로 간단하죠? {OK}
OmicsBox workflow만 있으면 어렵던 유전체 데이터 분석이 앞으로는 재미있게 느껴질 수 있습니다.



마치며
이번 포스팅(Posting)에서는 OMICS 데이터 분석을 용이하게 해주는 생물정보학 솔루션 OmicsBox에 대해 알아보았는데요. Genome 분석부터 Functional Annotation 분석까지 많은 기능이 있는 아주 매력적인 솔루션이라고 생각이 됩니다. 더군다나 어떤 기능을 어떻게 사용해야 하는지 잘 모르더라도 강력한 기능인 workflow가 있어서 손쉽게 output을 얻을 수도 있구요. 만약 NGS 데이터 분석이 아직 어렵고 낯설게 느껴지는 분들이 계신다면 이번 포스팅의 주인공인 OmicsBox를 강력! 추천해 드립니다. 후회하지 않으실 거에요 :D
 
만약 OmicsBox와 친해지고 싶으시다면 consulting@insilicogen.com으로 메일 주세요.
친절히 안내 드리도록 하겠습니다.
마지막으로 긴 글 읽어주셔서 감사드리며, 모두 건강한 나날 보내시길 바랍니다.
감사합니다.
 
OmicsBox : BIOINFORMATICS MADE EASY


Posted by 人Co

2021/04/30 17:17 2021/04/30 17:17
, , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/380



유전체학의 발전은 인간의 질병을 이해하는 새로운 문을 열어주고 있으며 혁신적인 정밀 치료에 점점 더 많은 정보를 제공하고 있습니다.
2015년도에 전 세계 시퀀싱 스토리지 용량은 연간 1 페타바이트에 이르렀고, 7개월마다 용량이 두 배씩 지속적해서 증가하고 있습니다. 유전체 데이터는 향후 5년 동안 연간 수백 페타바이트를 생성할 것이며 2025년도까지 연간 스토리지가 거의 1 제타 바이트가 필요할 수도 있습니다. 이렇게 증가하는 질병 유전체 시퀀싱 데이터의 처리, 저장 및 분석에 유용한 솔루션인 Intel Select Solution을 소개하고자 합니다.




지난 3월 4일 저희 인실리코젠의 공식 페이스북을 통해서도 간략하게 소개해드렸었는데요, 당시 자세하게 설명해 드리지 않아 궁금한 점이 많으셨을 거로 생각합니다.
그래서 오늘은 Intel Select Solution - GATK Best Practice에 대해 상세히 설명해 드리고자 합니다.


Intel Select Solution은 컴퓨팅, 스토리지 및 네트워크에 특정 소프트웨어 워크플로우를 최적화하여 검증된 결과를 제공하는 것을 목표로 하여 세계 최고의 데이터 분석을 위한 솔루션 서비스 제공을 목표로 개발되었습니다.

해당 서비스 라인 중 GATK Best Practice는 유전체 분석을 위한 고성능 데이터 분석 컴퓨팅 클러스터 하드웨어 및 최적화된 워크플로우 소프트웨어 시스템입니다. 대용량 유전체 변이 분석을 위해 Intel 기술을 활용하여 GATK 파이프라인을 최적화할 수 있도록 Broad Institute에서 개발하였으며, 복잡한 설정 및 구성을 위한 검증 및 인증을 제공하여 유전체 수준의 데이터 분석을 빠르게 진행할 수 있도록 특별히 설계되었습니다.

더불어 Intel Select Solution - GATK Best Practice의 성능 및 품질은 Intel에서 인증을 받았고, 자사의 생물정보 분석 컨설팅 서비스와 결합하여 "Inco X Intel Select Solution - GATK Best Practice"가 탄생하였습니다.

하드웨어는 소규모에서 초대형 클러스터 슈퍼컴퓨터로 확장할 수 있도록 설계되었습니다. 맞춤형 시스템은 특정 요구 사항을 충족하도록 빠르고 동적으로 구성할 수 있으며, 강력한 최신 API 기반 소프트웨어로 리소스를 검색, 구성 및 모니터링하는 도구가 포함되어 있습니다.


[사진 1] Intel Select Solution - GATK Best Practice_설치된사진


 
  • 1. 최적화되고 효율적인 파이프라인 지원
  • 2. 최적화된 턴키 솔루션
  • 3. 사전 패키지된 WDL(워크플로우 설명 언어) 스크립트
  • 4. 다양한 애플리케이션 지원
  • 5. 간편한 IT 지원
  • 6. 더 많은 유전체 데이터에 액세스 가능
  • 7. 향상된 통계 기능
  • 8. 오픈 소스 소프트웨어
  • 9. 유연한 애플리케이션 구조
  • 10. 구현 용이성
  • 11. 확장성
  • 12. 설치 시간 단축
  • 13. 라이선스 비용이 없는 오픈 소스 소프트웨어
  • 14. 다양한 상용 솔루션도 적용 가능
  • 15. 최적화된 구성으로 최고의 효율성




다음 편에서 자세히 소개하겠지만, 하드웨어 구성과 사양이 궁금하신 분들은 아래 페이지에서 먼저 확인하실 수 있습니다.




유전체 연구는 질병을 이해하고 진단하는 것에 매우 중요한 역할을 합니다. 현재 연구원들이 이러한 기술을 사용하여 대규모 유전체 데이터 저장소를 구축하고 해당 데이터를 이해하게 됨에 따라 유전체 데이터 및 분석이 빠르게 발전하고 있습니다. Intel Select Solution - GATK Best Practice는 질병 유전체 연구를 위한 최고의 유전체 분석 솔루션으로, Broad Institute가 릴리즈 하는 GATK는 Intel Select Solution을 기반으로 구동, 검증, 배포되고 있어 GATK를 사용하여 대용량의 유전체 변이 분석을 하고자 하는 고객이 쉽게 시스템을 구축할 수 있는 장점이 있습니다. 그 결과 유전체 분석을 위해 맞춤화된 하드웨어 및 소프트웨어 솔루션으로 더 빠른 분석 및 최적화된 분석 환경을 제공합니다. 또한, Intel Select Solution - GATK Best Practice의 기본 구성으로 Human Whole Genome Sequencing 25~30 sample 데이터를 하루 만에 분석할 수 있으며, 서버 node를 확장함에 따라 더욱 많은 샘플을 빨리 처리할 수 있는 장점을 갖고 있습니다.





질병 유전체 시퀀싱 데이터의 처리, 저장 및 분석에 유용한 솔루션인 Inco X Intel Select Solution - GATK Best Practice에 관심 있으신 분은 인실리코젠으로 문의해주시고, 또한 후속편으로 Inco X Intel Select Solution - GATK Best Practice 하드웨어 구성사양, 작동원리 및 성능 벤치마킹 정보도 안내할 예정이오니 많은 관심 부탁드립니다.


작성 : iLAB 용승천 선임컨설턴트

Posted by 人Co

2021/03/21 19:45 2021/03/21 19:45
, , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/373



우리는 빅데이터와 인공지능이 대세를 이루고 있는 시대에 살고 있습니다. 과거 산업혁명과 비교해서 4차 산업혁명 시대는 다양한 산업 분야와 산업 생태계에서 격세지감을 느낄 정도의 변화가 일어나고 있으며 그중에 바이오 헬스 산업은 향후 핵심적인 융합산업 분야로 주목받고 있습니다. 바이오 헬스 산업의 가장 기본이 되는 데이터 구축을 위해 국가 차원에서 바이오 빅데이터 구축 사업을 통해 바이오 데이터 구축 및 표준화로 미래 기술을 선점할 수 있는 기반을 만들기 위해 노력하고 있습니다. 이러한 기조에 맞춰 인실리코젠도 보건복지부, 과학기술정보통신부, 산업통상자원부가 컨소시움을 이루어 2년 동안 총 2만 명의 임상정보와 유전체 데이터 수집을 목표로 하는 국가 바이오 빅데이터 구축 시범 사업의 일환인 희귀질환 빅데이터 플랫폼 구축 사업 일부에 동참하여 희귀질환 극복을 위한 노력에 일조하고 있습니다. 이번 시간에는 희귀질환을 극복하기 위한 국내외 연구 기관에 관해 이야기하고자 합니다.




우선 희귀질환의 정의는 법률적으로 유병(有病) 인구가 2만 명 이하이거나 진단이 어려워 유병인구를 알 수 없는 질환으로 보건복지부령으로 정한 절차와 기준에 따라 정한 질환을 말합니다. 국내 희귀질환 관련 법률은 개인적/사회적 부담을 감소시키고, 국민의 건강 증진 및 복지 향상에 이바지하는 것을 목적으로 2015년에 희귀질환관리법이 제정되었으며, 국가관리대상 희귀질환 지정은 희귀질환관리법에 따라 유병인구 수, 질환 진단에 대한 기술적 수준, 질환 진단을 위한 인력 및 시설 수준, 질환에 대한 치료 가능성 등을 기준으로 희귀질환관리위원회의 심의를 거쳐 희귀질환으로 지정하게 되어 있습니다. 국내 기준과 달리 미국은 유병인구 20만 명 미만이거나 인구 1,500명당 1명, 유럽은 인구 2,000명당 1명, 일본은 유병인구 5만 명 미만이거나 인구 2,500명당 1명으로 발병하는 질환을 희귀질환으로 정의하고 있으며, 아직 세계적으로 합의된 정의는 없는 상태입니다.

희귀질환 환자의 질병에 대한 이해를 높이고, 질환에 대한 빠른 진단과 치료의 적용, 그리고 치료법 개발을 위해선 질환 데이터베이스 구축이 필수적이었기에, 이전에는 질환 데이터베이스 구축을 주로 희귀질환 관련 기관 및 단체가 주도하여 개발하고 유지되는 경우가 많았으나, 최근엔 국가 혹은 연합 단위로 데이터베이스를 구축하고 다양한 서비스를 제공하는 방향으로 변화하고 있습니다.

다음은 대표 희귀질환 관련 기관과 단체, 그리고 그 데이터베이스에 대한 특성을 말씀드리겠습니다.



  • 미국 국립희귀질환기구(NORD)
NORD는 1982년 희귀 질환 치료법 개발에 대한 재정적 인센티브를 지원하는 것을 골자로 한 희귀질환의 약물에 관한 법률이 미 국회를 통과하여, 이를 주도적으로 이끌었던 희귀질환 환자 지원 단체들이 연합하여 1983년 NORD(National Organization for Rare Disorders)로 조직되어, 현재까지 꾸준한 활동을 펼치고 있습니다. NORD 웹 사이트(https://rarediseases.org)에는 약 1,300여 개의 희귀질환 목록을 유지하고 있으며, 지원 기관들과 치료법 등에 대한 자세한 정보를 포함하고 있습니다.


<그림1. 미국 국립희귀질환기구 (NORD) 웹사이트>
 
  • 미국 유전병 및 희귀질환정보센터
GARD(Genetic and Rare Diseases Information Center)는 미국국립보건원(NIH)과 미국 국립인간게놈연구소(NHGRI)에서 지원받아 운영되는 센터로 희귀질환 환자의 지원, 희귀질환 진단 및 치료지원, 연구자 연결, 연구 및 치료 자금 지원 연결, 희귀질환에 대한 교육 등을 주된 활동으로 하고 있습니다. GARD 사이트(https://rarediseases.info.nih.gov/) 내에 희귀질환의 정보를 서비스하고 있으며, 질환 정보, 유전 여부, 진단 및 치료정보뿐만 아니라 환자를 지원하기 위한 지원기관, 전문가 목록, 질환 관련 콘퍼런스 및 이벤트 일정 등을 제공하고 있습니다.
 

<그림2. 미국 유전병 및 희귀질환정보센터 (GARD) 홈페이지>
 
  • Global Genes
Global Genes(https://globalgenes.org/)는 희귀유전질환 환자와 그 가족을 위한 국제 비영리 단체입니다. 이 기구는 희귀유전질환에 대한 의식을 고양하기 위한 공교육 제공과 소셜 미디어를 통한 지역사회 지원 체계를 구축하고, 치료와 치료법을 찾기 위한 연구 자금 지원을 하고 있습니다. 또한, GARD 등에서 유전정보를 참고하여 정보를 제공하고 있으며, 희귀유전환자와 그 가족에게 질환의 진단 및 치료를 지원받을 수 있는 기관 목록을 함께 제공하고 있습니다.
 

<그림3. Global Genes 홈페이지>
 
  • 유럽희귀질환환자연맹(EURORDIS)
EURORDIS(European Organization for Rare Diseases)는 유럽연합 내에 있는 70개국 837개 희귀병 환자 조직을 대표하는 비영리 기구로 1997년에 설립되었습니다. EURORDIS는 환자, 가족, 환자 그룹을 연결하고 모든 이해당사자를 모아 질환을 연구하고 환자를 대상으로 하는 다양한 서비스를 제공하고 있습니다. 또한 세계희귀질환의 날을 제정하여 국제적인 관심과 이해를 촉구하고 있습니다. 연맹 자체에서 운영하는 데이터베이스는 보유하고 있지 않지만, 대신에 관련 정보는 프랑스 국립보건의학연구소의 Orphanet을 이용하도록 유도하고 있습니다.
 

<그림4. 유럽희귀질환환자연맹 (EURORDIS) 웹사이트>
 
 
  • 스웨덴 희귀질병정보센터(Swedish Information Centre for Rare Diseases)
스웨덴에서는 질병이 인구 1만 명당 1명 미만에 장애를 일으킬 때 희귀질환으로 정의하고 있으며, 이러한 정의를 기반으로 2019년 2월까지 440여 개의 희귀질환에 대한 정보를 제공하고 있으며, 스웨덴 국립 희귀질환연구소(NFSD, https://www.socialstyrelsen.se/)와 스웨덴 대학병원 및 다양한 의료 전문 센터와 연계하여 환자의 진단 및 지표를 지원하고 있습니다.
 

<그림5. 스웨덴 희귀질병정보센터 웹사이트>
 
 
  • 일본 희귀 및 미진단 질환 이니셔티브(IRUD)
일본은 2015년 일본 의료연구개발청(AMED)에서 일본의 희귀 및 난치성 질병 프로젝트의 일환으로 IRUD(the Initiative on Rare and Undiagnosed Disease)를 시작하였고, 2018년 3월까지 3,083명의 환자와 그 가족을 대상으로 총 8,837개의 시료를 수집하여 추출한 엑솜(Exome) DNA 염기서열 해독 정보와 의료 정보를 결합해 희귀질환을 연구하고 있습니다. IRUD는 희귀 및 미진단 질환의 기초 연구에도 큰 도움이 되고 있으며, 확보한 환자 및 가족 엑솜 DNA 정보를 바탕으로 데이터베이스를 만들어 이를 통해 전 세계와 공동 연구를 늘려가고 있습니다. 이제까지 몰랐던 질병 관련 변이나 유전자도 찾아내어 엑솜 외의 DNA 영역까지 모두 해독해 RNA, 후성유전 등 다양한 유전학 영역을 탐구하고 있습니다.
 

<그림6. 일본 희귀 및 미진단 질환 이니셔티브 (IRUD) 웹사이트>
 
 
  • 질병관리청 희귀질환 헬프라인
국내의 경우 질병관리청에서 2012년부터 일부 희귀질환에 대해 전국 단위의 전문가 네트워크를 구성하여 환자 임상자료 및 생체자원을 수집하고 있으며, 이를 통해 희귀질환의 진단, 치료 및 예후 등에 대한 임상정보와 시료를 수집, 분석하여 한국인의 임상적 특성을 규명하고 국내외 관련 전문가들과 정보 공유를 통해 해당 질환의 진료와 치료기술을 개발하고, 환자들의 조기 진단 및 진료의 질 향상에 기여하기 위해 헬프라인을 운영하고 있습니다. 국내 6개 질환 (시신경척수염, 아밀로이드증, 유전성 부정맥, 전신홍반성루푸스, 조직구증식증, 크론병)에 대한 전문가 네트워크를 운영하고 있으며, 2020년 11월 1,014개의 질환에 대한 증상, 원인, 진단, 치료 등의 정보를 제공합니다. 또한, 관련 임상시험 정보 제공을 위해 미국국립보건원의 ClinicalTrials.gov 데이터베이스로 연결을 제공하고 있습니다.
 

<그림7. 질병관리청 희귀질환 헬프라인>
 
  • 한국생명공학연구원 희귀난치질환연구센터
한국생명공학연구원(KRIBB)의 바이오의약연구부 소속 희귀난치질환연구센터는 빅데이터 기반의 희귀난치성 신경계 질환의 정밀, 맞춤의료연구 인프라 구축을 통해 희귀난치성 신경계 질환의 진단과 치료를 위한 원천기술 개발을 목표로 희귀난치성 신경계질환의 임상시료와 임상정보, 유전체 정보를 확보하여 한국인 유전체표준변이지도 작성하고 고급 데이터베이스를 구축하고 있습니다. 현재까지의 연구 성과는 뇌 발달장애 원인 신규 변이 발견 및 동물 모델 개발로 소아간질, 자폐 , 지적장애를 유발하는 TSC 유전성 뇌 발달질환의 in-vivo 동물 모델 제작과 in-vitro 신경줄기세포 배양 시스템을 이용하여 뇌 발달질환 진단 표지자 발굴을 위한 시스템이 구축되었고, 질환 특이적 대용량 NGS 유전체 데이터 생산 및 분석 파이프라인 구축으로 대용량 NGS(Next Generation Sequencing) 유전체 데이터와 다중 이형 바이오 빅데이터 처리, 가공, 분석을 위한 시스템을 구축하였습니다.
 
  • 한국희귀질환재단
한국희귀질환재단(Korean Foundation for Rare Disease)은 시민과 지자체, 기업, 단체 등의 후원과 참여로 이루어지는 순수 공익재단으로, 그 모체가 되는 '한국희귀질환연맹'의 지난 10년 동안의 활동을 통해 파악된 희귀질환 환자와 가족들의 충족되지 못한 욕구와 간절한 염원을 담아 희귀질환찾기, 유전상담 서비스 지원, 효율적인 희귀질환 치료를 위한 R&D 연구 지원, 진단 사업 지원, 자원봉사 네트워크 구축 및 관리 지원, 특수 보육 교육 프로그램 개발 및 지원 사업 등을 보다 전문적이고 효율적으로 제공하기 위해 설립되었습니다.
 

<그림8. 한국희귀질환재단 홈페이지>
 
 

 
이상이 국내외 대표적인 희귀질환 관련 단체에 대한 간략한 설명이었습니다. 위의 단체들은 각기 지역과 국가, 질환에 특화된 환자와 가족을 대상으로 하는 다양한 서비스를 제공하고, 진단과 치료를 위한 지침과 성과를 지속해서 업데이트하고 있습니다. 말라리아의 경우 아프리카에서는 너무나 흔한 질환이지만 북유럽의 경우는 희귀질환인 경우가 있듯이 전 세계가 연구 성과를 공유하고 지속해서 정보를 수집하고 분석한다면 희귀질환 극복의 시기를 앞당길 수 있을 것이라 기대하며 위의 단체와 기관은 설립 목적을 잊지 않고 질환 극복의 그 날까지 계속해서 정진해 나가기를 바라며 이만 희귀질환 관련 기관 소개를 마칩니다.
 
 
작성 : 대전지사 양성진 책임 개발자

Posted by 人Co

2021/02/28 20:23 2021/02/28 20:23
,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/372



역사를 보면, 인류는 어떤 상황 속에서도 교육을 항상 지속하여 왔습니다.
그러한 교육에 대한 열정이 있었기에 현재의 문명을 이룰 수 있었다고 생각합니다.

COVID-19 상황이 지속되는 가운데 (주)인실리코젠은 철저한 방역지침을 준수하며, 생물정보 인재양성 프로그램을 진행하였습니다. 7월 6일부터 8월 14일까지 6주간 진행된 프로그램의 생생한 후기 함께 보겠습니다.





























작성 : 人CoINTERNSHIP 제11기 수료생
이가희, 이솔휘, 이주연, 진종현, 황성경

Posted by 人Co

2020/08/26 09:00 2020/08/26 09:00
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/355

 
최근 여러 분야에서 딥러닝에 대한 관심이 많아지고 있습니다.
생물정보 분야에서는 MRI나 CT 같은 의료 이미지로 학습한 뒤, 질병을 진단하는 연구가 많이 진행되고 있습니다. 그렇다면 이미지를 이용한 딥러닝은 어떤 방식으로 진행될까요?

이미지 딥러닝은 어떠한지 알고 싶어도 코드 위주의 설명이 많아, 코드가 익숙하지 않은 분들은 시작부터 벽이 세워진 느낌이 드셨을 거예요.
코드가 익숙하신 분이시든 그렇지 않은 분이시든 이미지 딥러닝의 입문자분들께 개념 잡는 것에 대해 조금이나마 도움이 되셨으면 하여 알고리즘 개념 설명 위주로 이 글을 준비하였습니다. 그럼 이미지 딥러닝을 하기 위한 알고리즘에 대해 알아보기에 앞서, 컴퓨터는 이미지 파일을 어떤 방식으로 인식하는지에 대해 알아볼까요?
 
 


우리가 이미지를 인식하는 방식과 컴퓨터가 이미지를 인식하는 방식은 많이 다릅니다. 우리는 이미지를 눈에 보이는 모습을 그대로 받아들이지만, 컴퓨터의 경우는 숫자로 된 형태로 인식합니다. 숫자는 색의 명암을 나타내며, 0에 가까울수록 어두운색이고 255에 가까울수록 밝은색입니다. 그렇다면 색상은 어떻게 표현할까요? 흑백 이미지의 경우에는 1개의 채널로, 컬러 이미지의 경우엔 RGB(R-Red, G-Green, B-Blue) 3개의 채널로 빨강, 초록, 파란색 각각의 명암을 이용하여 이미지의 색상을 표현합니다.


[그림 1] 컬러 이미지의 구조 - Insilicogen (IX Team)

컬러 이미지는 각 픽셀을 채널별로 실수로 표현된 3차원 데이터입니다. 흑백 이미지는 2차원 데이터로, 1개의 채널로만 구성되어 있습니다.
[그림 2] 컬러 이미지의 3차 구조
위의 그림처럼 높이가 4 pixel, 폭이 4 pixel의 이미지일 경우,
 
컬러 이미지 데이터의 shape은 (4, 4, 3)
흑백 이미지 데이터의 shape은 (4, 4, 1)
 
로 표현합니다.
 
컴퓨터가 이미지를 어떤 방식으로 인식하는지에 대해 간단하게 알아봤습니다. 그럼 이제 이미지 딥러닝에선 어떤 알고리즘이 주로 사용되는지 알아볼까요? 딥러닝을 이용하여 이미지를 분류할 때에는 주로 CNN(Convolutional Neural Network) 알고리즘이 많이 사용되고 있습니다. 그렇다면, 이 CNN 알고리즘이 나오기 이전에는 어떻게 학습을 했을까요?
 

  
 
CNN 알고리즘 이전에는 Fully-connected Multi-layered Neural Network의 학습 방식을 이용하여 이미지 딥러닝을 수행했습니다.
 
[그림 3] Fully-connected Multi-layered Neural Network
형상을 가졌는지에 대해 알 수 없고, 각각의 픽셀을 1차원적으로 보게 됩니다. 이러한 학습 방식으로 인하여 이미지의 크기가 커져서 픽셀의 수가 많아진다거나 은닉층(Hidden layer)의 수가 증가하면 학습시간 및 학습해야 하는 매개변수(Parameter)의 수가 기하급수적으로 증가하게 됩니다. 또한, 이미지가 살짝 회전되었거나 gif처럼 이미지가 움직이는 상태라면 이를 같은 이미지라고 인식하지 못하므로, 조금이라도 변화가 생길 때마다 새로운 입력으로 이미지 데이터를 처리해 주어야 합니다. 그럼 이미지를 분류하기 위해 Fully-connected 학습 방식처럼 이미지의 모든 픽셀이 꼭 중요할까요? 그렇지 않습니다. 이미지의 특성을 찾는 데에 중요하게 작용하는 픽셀이 있지만, 단순히 배경인 부분이라 픽셀 정보를 가지고 있지 않더라도 이미지를 구분하는 데 큰 영향을 주지 않기 때문입니다. 이미지 분류를 하는 데 중요하지 않은 픽셀은 제거하고 학습을 하기 위해 고안된 알고리즘이 바로CNN(Convolutional Neural Network)입니다.
 

 
 
그렇다면 CNN 알고리즘은 어떠한 구조를 이루고 있을까요?
 
 
[그림 3] CNN 알고리즘의 구조
 
CNN은 크게 이미지의 특징을 추출하는 부분과 클래스를 분류하는 부분으로 나뉩니다. 특징 추출 영역은 합성곱층(Convolution layer)과 풀링층(Pooling layer)을 여러 겹 쌓는 형태(Conv+Maxpool)로 구성되어 있습니다. 그리고 이미지의 클래스를 분류하는 부분은 Fully connected(FC) 학습 방식으로 이미지 분류를 합니다.
 

 
 
합성곱이란, 주어진 이미지 데이터를 합성곱 필터(Convolution filter)를 통해 이미지 분류에 중요하게 작용할 feature들을 추출하는 데 사용됩니다. CNN 알고리즘 이전에 사용되었던 FC 알고리즘과 달리, 이미지의 형태를 유지하기 때문에 합성곱층을 지나더라도 인접한 픽셀에 대한 정보를 알 수 있습니다. 그렇다면, 합성곱에서 사용되는 합성곱 필터는 무엇일까요? 우선, CNN에서 필터는 커널(Kernel)이라고도 합니다. 필터는 이미지의 공용 매개변수(weight)로 작용하며, 주어진 이미지를 슬라이딩하면서 이미지의 feature들을 찾아냅니다. 여기서 공용 매개변수라고 하는 이유는 합성곱을 진행할 때, 하나의 이미지에 대해서 하나의 필터가 사용되기 때문입니다. 일반적으로 (3, 3)이나 (4, 4)와 같은 정사각 행렬로 정의가 되고, 주어진 이미지를 지정된 간격(Stride)만큼 순회합니다. 그럼 합성곱 필터를 이용하여 합성곱 연산은 어떤 방식으로 진행되는지 알아보기 위해, 아래의 그림으로 설명하겠습니다.
 
 
[그림 5] Convolution 연산
 
위의 그림에서 주어진 이미지 데이터의 크기는 6x6이고, 필터의 크기는 3x3입니다. 이미지를 순회하는 간격(stride)은 1입니다. 연산은 이미지와 필터가 서로 겹쳐지는 부분은 곱을, 각각의 곱은 합하는 방식으로 진행됩니다. 위의 그림에서 Result 아래에 적힌 연산을 참고하시면 이해가 더 쉬우실 거예요.
 
Fig6.Convolution_layer.gif
 
위의 그림은 합성곱 연산이 진행되는 방식입니다. 이 그림 역시 필터가 이미지를 순회하는 간격은 1입니다. 이처럼 합성곱을 진행하여 얻어진 결과를 피처맵(Feature Map, 위의 그림에서는 오른쪽의 분홍색)을 만듭니다. 여기서 피처맵은 주어진 이미지에서 특징들을 추출한 것이고, 액티베이션맵(Activation Map)이라고도 합니다. 피처맵은 여러 가지의 의미로 사용되지만, 액티베이션맵은 주로 합성곱층의 최종 출력 결과를 의미합니다.

합성곱층에서 필터와 스트라이드의 작용으로 이미지(피처맵)의 크기는 입력 데이터보다 작아지게 됩니다. 그렇다면 합성곱층을 지나면 이미지가 자꾸 줄어드는데, 계속 반복적으로 합성곱층을 지나면 이미지가 없어지지 않을까? 라는 생각이 들게 되죠. 이를 방지하는 방법이 패딩(Padding)입니다. 패딩은 입력 데이터의 외각에 지정된 픽셀만큼 특정 값으로 채워 넣는 것을 의미하고, 보통 0으로 값을 채워 넣습니다.
 

 
 
위의 그림을 보면, 3x3 이미지의 외각에 0이 채워진 것을 볼 수 있습니다.
 
 

 
[그림 8] Pooling
지금까지 합성곱에 대해서 알아보았습니다. CNN 알고리즘에서 이미지 특징을 추출하는 부분에서 합성곱층 다음으로 나오는 층은 풀링층(Pooling layer)입니다. 합성곱층의 출력 데이터(액티베이션 맵)를 입력으로 받아, 출력 데이터의 크기를 줄이거나 특정 데이터를 강조하는 용도로 사용됩니다. 풀링층을 처리하는 방법으로는 Max, Average, Min Pooling이 있습니다. 정사각 행렬의 특정 영역 안에 값의 최댓값, 평균 혹은 최솟값을 구하는 방식이고, 주로 Max Pooling을 사용합니다. 앞의 합성곱처럼 인접한 픽셀값만을 사용한다는 것은 비슷하지만, 합성곱처럼 곱하거나 더하는 연산 과정이 없어서 학습이 필요한 부분이 없고 입력 데이터의 변화에 영향을 적게 받습니다. 이는 최댓값, 평균값, 최솟값 중 하나를 구하는 것이기 때문에, 입력 데이터가 조금 변하더라도 풀링의 결과는 크게 변하지 않습니다.
  

 
 
앞에서 설명해드렸던 바와 같이, CNN은 크게 특징 추출(Feature extraction) 부분과 분류(Classification) 부분으로 나뉩니다. 특징 추출은 합성곱층과 풀링층이 반복적으로 수행되고, 분류는 앞에서 추출된 Feature들이 Fully-connected layer 학습 방식을 이용하여 어떤 이미지인지 분류합니다.
 
참고) 학습시킬 이미지가 부족하시다면! 이미지 학습을 위한 open data source
 
이미지 분류하기 위해 이미지를 학습시킬 때, 하나의 클래스(ex. 강아지 클래스, 고양이 클래스)당 최소 1,000장이 필요합니다. 학습을 많이 시키면 많이 시킬수록 이미지를 분류하는 정확도는 당연히 올라갑니다. 그렇다면, 이미지 학습을 하기 위해서 많은 양의 이미지 데이터가 필요하겠죠? 딥러닝이 활성화되면서 공개 이미지를 수집하는 데이터베이스가 많아졌고, 대표적으로 ImageNet과 Kaggle 등이 있습니다. 이미지를 학습하는 데 필요한 이미지 데이터를 공개적으로 제공하는 사이트이므로, 아래 사이트를 들어가시면 이미지 딥러닝 활용에 여러 방면으로 도움이 될 것입니다. :)
 

[그림 9] ImageNet
(http://www.image-net.org/)


[그림 10] Kaggle
(https://www.kaggle.com/)


CNN 알고리즘에 대해서 더 자세하게 설명해 드리고 싶었지만, 그러면 본 취지에 맞지 않을 것 같았어요. 제가 생각하기에 이미지 딥러닝의 입문자분들께 가장 필요한 부분 위주로 이 글을 작성하였습니다. 이 글에 적힌 것들을 바탕으로 궁금한 부분이 생길 때마다 조금씩 조금씩 자료를 찾다 보면, 깨닫지 못한 사이에 이미지 딥러닝에 대해 많이 알게 되실 거예요. 조금이나마 도움이 되셨길 바라며, 너무 두려워하지 마시고 힘내시길 바랍니다. :D
 
 

Posted by 人Co

2020/06/01 19:28 2020/06/01 19:28
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/346

Welcome The Year Of Mighty Mouse!

한 해 동안 열심히 달려온 인실리코젠 모든 직원분이
다가오는 2020년을 힘차게 맞이하고자 한자리에 모였습니다.
2019 인실리코젠 송년의 밤, 그리고 2020을 맞이하는 시무식
영상으로 함께 보시죠!


















자선 경매 행사로 모은 기부금은 아름다운가게에 전달되었으며 윈스턴 처칠의
"우리는 일함으로 생계를 유지하시만 나눔으로 인생을 만들어간다"는 말처럼
의미있는 2019년을 보냈습니다.  

아름다운가게 블로그 확인하기:
Link 1 : http://blog.naver.com/beautifulcup/221797031474 
Link 2 : http://bitly.kr/tlLfO2AG





IX팀 김지인 / 이용태

Posted by 人Co

2020/01/13 08:47 2020/01/13 08:47
, , , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/335

인실리코젠 창립 15주년

날씨가 좋은 2019년 10월 1일, 인실리코젠은 15주년을 맞이하였습니다.
광교 Alleyway의 세상의 모든 아침에서 식사를 하며 추억의 사진과 영상을 찍었습니다.
많은 분들이 웃는 모습으로 행사에 참여해주셔서 감사했습니다.
영상을 같이 보실까요??


브랜드 위원회 : 김지인

Posted by 人Co

2019/10/30 12:48 2019/10/30 12:48
, , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/328

나만 몰랐던 BLAST 꿀팁



19세기의 자전거란 현재와 달라서 금속의 바퀴로 이루어져 쉽게 사고로 이어지곤 했답니다.
이에 영국의 수학자 던롭은 사랑하는 외동아들 조니를 위해 고무 타이어를 발명하게 되고 공기타이어회사 CEO로 큰 부자가 되게 됩니다.
저 역시 필요 때문에 (더 빨리, 더 쉽게 처리하고 칼퇴하고자) 다음의 방법들을 발견하게 되었으니 평행이론에 따라 언젠가는 저도 큰 부자가 될..... 수 있을까요?

발단은 몹시 사소했습니다.
아래 그림처럼 결과를 만들면 매우 있어 보일 것 같았거든요.



 
그런데 내 손에 있는 건 단백질 서열 단 하나, 계통수를 그리기 위한 DB가 아직 구축되어 있지 않은 상황이었어요.
하지만 걱정 없죠. 백종원 대표님께 만능 간장이 있다면 우리에겐 만능 BLAST가 있으니깐요.
BLAST를 통해 맵핑되는 단백질들을 모은 후 이를 이용하여 계통수를 그려보기로 합니다.
BLAST에 대한 기본 설명이나 분석 방법 등은 위키 (Wiki) 기반의 커뮤니티 형성을 통한 생물정보 분야의 집단 지성 창출을 목적으로 운영되는 지식 커뮤니티인 人CoDOM을 참고해주세요.

그런데 여기서 문제 발생!!!
nr에 대한 BLAST를 다 끝내고 보니 (default setting의 tabular format으로 출력) 결과 파일에서 종명을 확인할 수 없었어요.
종명을 확인 못 하면 계통수를 그려도 계통별로 잘 묶였는지 확인도 어렵고 예쁜 색을 입혀줄 수도 없어요.

 
MH00089;   gi|761546247|ref|YP_009122458.1|   99.06   530   5       0   1   530   1   530   0.0   1045
MH00089;   gi|1314948409|ref|YP_009444547.1|   94.70   528   28      0   3   530   1   528   0.0   995
MH00089;   gi|1079486692|ref|YP_009307015.1|   94.89   528   27      0   3   530   1   528   0.0   991
< BLAST 수행 결과 예시>
 

종명 확인을 위해서는 NCBI에 GI number (또는 accession)로 검색해보는 수밖에 없는 듯 하여 매우 절망스러웠지요.
실제로 하나 검색에만 최소 클릭 5~6번이 소요되고 10개 넘어가면 웹 크롤링을 해야하는 건지 고민하게 됩니다.
이때 잘 읽은 메뉴얼 하나가 사람을 살립니다.
역시 오랜 역사를 자랑하는 생물정보 산증인 BLAST는 이미 해답을 제시하고 있었던 거죠.

아래와 같이 2단계를 순서대로 수행해 주시면 BLAST 결과에서 종명, taxid (중요), kingdom (계) 정보를 바로 확인할 수 있습니다.

1단계) taxonomy DB 세팅
먼저 nr로부터 계통 정보를 가져올 수 있도록 NCBI에서 제공하는 taxonomy DB를 세팅해 주어야 합니다.
아래와 같이 최신 버전으로 다운로드 후 환경변수에 추가해 주세요.
(이참에 nr DB도 최신 버전으로 변경해주고, 하는 김에 BLAST도 최신화해주는 게 어떨까요?)
참고로 제가 테스트했던 버전은 BLAST+ 2.2.31입니다.

$ wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/taxdb.tar.gz
$ tar zxvf taxdb.tar.gz
$ export BLASTDB=[download 위치]
<taxonomy DB 세팅 방법>

2단계) BLAST 실행

BLAST 수행 시 결과 파일의 포맷을 6번, 즉 tabular로 지정하고 format specifiers에 staxids(species taxon id)와 sscinames (species scientific name), sskingdoms (species super kindoms)이 포함되도록 적어줍니다.

$ blastp -query query.faa -db nr -outfmt '6 qseqid sseqid pident evalue staxids sscinames scomnames sskingdoms stitle' -num_threads 20 -out query_vs_nr.table
<BLAST 수행 방법>

짜잔~ 커맨드라인 하나로 손목 수명이 일주일 연장되었습니다 (감격).
하는 김에 stitle (species name)도 추가하였더니 이제 정말 NCBI 웹사이트 들락날락할 일 없어졌어요.

MH00089;        gi|761546247|ref|YP_009122458.1|        99.06   0.0     1610689 Sarocladium implicatum  Sarocladium implicatum  Eukaryota       cytochrome oxidase subunit I (mitochondrion) [Sarocladium implicatum]
MH00089;        gi|1314948409|ref|YP_009444547.1|       94.70   0.0     29910   Tolypocladium inflatum  Tolypocladium inflatum  Eukaryota       cytochrome c oxidase subunit 1 (mitochondrion) [Tolypocladium inflatum]
MH00089;        gi|1079486692|ref|YP_009307015.1|       94.89   0.0     71617   Tolypocladium ophioglossoides   Tolypocladium ophioglossoides   Eukaryota       cytochrome oxidase subunit 1 (mitochondrion) [Tolypocladium ophioglossoides]
< BLAST 결과 예시>

한계점)
하지만 결과를 보면 박테리아인지 진핵인지와 같이 계 (kingdom)에 대한 정보만 제시하고 있어요.
근연종의 단백질에 잘 맵핑이 된 것인지 전체 계통 정보를 확인하고 싶고 진핵생물 내에서도 딱정벌레목인지 총채벌레목인지 좀 더 세분화하고 싶은데 이 상태로는 너무 부족합니다.

제가 찾은 방법은 NCBI에서 제공하는 텍스트 포맷의 관련 DB에서 taxid 또는 학명(scientific name)으로 검색하는 것입니다.
참고로 최근 1~2년 사이 NCBI taxonomy DB가 업데이트되면서부터 taxid 별 full lineage 정보를 제공하고 있으니 꼭 최신 버전을 받아주세요.
new_taxdump.tar.gz 파일을 다운로드 후 그 안에 있는 fullnamelineage.dmp 파일을 확인하면 정보를 얻을 수 있습니다.


taxid | scientific name | full lineage
1610689 |       Sarocladium implicatum  |       cellular organisms; Eukaryota; Opisthokonta; Fungi; Dikarya; Ascomycota; saccharomyceta; Pezizomycotina; leotiomyceta; sordariomyceta; Sordariomycetes; Hypocreomycetidae; Hypocreales; Hypocreales incertae sedis; Sarocladium;        |
<taxid 또는 학명(scientific name)을 이용한 계통 정보 검색 결과>

추가 팁 하나 더!)
BLAST 결과 출력시 파일 포맷을 여러 개로 하고 싶을 때가 있어요.


XML은 기본이니깐 꼭 있어야 할 것 같고 파싱하기 귀찮으니 tabular로도 해야 할 것 같고 또 alignment된 거 확인하고 싶으니 pairwise로도 남겨두고 싶을 때 어떻게 해야하는 거죠??


BLAST를 3번 하면 돼요. 하지만 오래 걸린다는 단점이 있어요.
이때 blast_formatter를 사용하시면 됩니다 (작업시간이 1/3로 줄어드는 매직)!!!
몰랐는데 BLAST 설치 디렉토리에 이미 blastp, blastn이랑 같이 자리잡고 있더라구요.
(역시 메뉴얼은 읽으라고 있는 거였어요.)
중요한 점은 처음 BLAST할 때 반드시 asn 포맷으로 출력해 주어야 한다는 것입니다.

$ blastn -db [nt] -query [query] -outfmt 11 -out [output].asn
$ blast_formatter -archive [output].asn -outfmt 5 -out [output].asn.xml
$ blast_formatter -archive [output].asn -outfmt 6 -out [output].asn.tabular
$ blast_formatter -archive [output].asn -outfmt 0 -out [output].asn.pairwise
<BLAST 포맷 변환 방법>

출력 포맷은 아래를 참고하셔서 원하는 번호를 기재해 주시면 됩니다.


 0 = pairwise,
 1 = query-anchored showing identities,
 2 = query-anchored no identities,
 3 = flat query-anchored, show identities,
 4 = flat query-anchored, no identities,
 5 = XML Blast output,
 6 = tabular,
 7 = tabular with comment lines,
 8 = Text ASN.1,
 9 = Binary ASN.1,
10 = Comma-separated values,
11 = BLAST archive format (ASN.1),
12 = JSON Seqalign output,
13 = JSON Blast output,
14 = XML2 Blast output
<출력 가능한 BLAST 결과 포맷 목록>

이상 새롭지 않을 수 있을, 그리고 정말 저만 알았다면 너무 슬프고 민망할 것 같은 BLAST 꿀팁 소개를 마칩니다.
이 방법 외에도 오조오억 개의 다른 길이 있을 겁니다. 아시는 분은 제보 바랍니다.
당신은 우리와 함께 가시면 안 될까요??? (=스카우트하고 싶어요).
 
<출처 : 'Mnet 쇼미더머니8 화면캡처' 후 편집>
 
작성 : RDC 정명희 선임 연구원
 

Posted by 人Co

2019/09/11 16:26 2019/09/11 16:26
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/324

Special Culture Day 2019 !


 
드디어 본격적인 여름이 시작된 것 같습니다.
이번 Culture Day가 특별했던 이유 3를 공개합니다.
 
1. 블루베리와 함께
심재영 선임님 아버지께서 정성으로 키우신 유기농 블루베리를
직원들의 건강을 위해
사장님께서 선물하셨습니다!! 짜잔~


새콤달콤한 블루베리를 맛보며, 오전 업무를 마치고,
극장으로 고고~~~!
 
2. 인코인턴십 분들과 함께
우리 회사와 특별한 인연으로 만난 13명의 인턴과 함께하였습니다.
 
 
이제 영화 보러 가실까요! 슝!! 아~참!! 팝콘이 빠지면 안 되겠죠?
팝콘 세트 주문 후 들어가겠습니다 ~~
 
 
이번 스파이더맨 파 프롬 홈은 16살 Peter Parker의 히어로로 성장하는 스토리입니다. 청소년인 Peter Parker는 MJ라는 여학생을 좋아합니다. 그래서 단체로 유럽 여행을 갈 때 그녀와 잘 되기 위한 계획을 세웁니다. 그런데 히어로서의 막중한 임무가 주어지게 되고 내적 갈등을 겪습니다. 그때 새로운 히어로, 미스테리오의 꾀에 넘어가 아이언맨이 준 안경을 그에게 주게 되는 실수를 하게 됩니다. 너무 많은 내용을 말하면 아직 안 보신 분들에게 스포일러가 되기 때문에 나머지 내용은 영화관에서 ~



영화 관람 후 맛난 저녁식사를 위해 풀잎채로 향했어요~



맛있는 건강식을 먹으며 Culture Day를 마무리했습니다 ~
 
3. 동일 생일자 3명과 함께~
끝으로 세 번째 특별했던 이유는 생일자가 세 분이었다는 것입니다.
오랜 시간 함께 일해오신 김형용 박사님, 신가희 박사님, 그리고,
직원 모두의 생일을 챙겨주시는 장은철씨까지 세 분의 생일을 축하드립니다~

 
마지막으로 단체 컷 찰칵 ~
지금까지 인코 문화 중 하나인 컬처데이에 대한 이야기였습니다.
모두에게 또 하나의 추억이 되었길 바랍니다.

브랜드위원회 제5기 김지인
 

Posted by 人Co

2019/07/12 10:57 2019/07/12 10:57
, , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/318




언제부터인지 우리는 쌀쌀해진 기온이 코끝을 스치면 독감 예방주사를 맞고 겨울을 준비한다. 독감은 일반적인 감기와는 달리 전염성이 매우 크고 폐렴으로 이어지는 경우가 많아 일반인들에게도 다르게 인식되어 있다. 그도 그럴 것이 감기는 서로 다른 여러 종류의 바이러스들로 유발되지만, 독감은 '인플루엔자 바이러스'라는 명확한 질병체가 밝혀져 있고 그 치료제도 개발되어 있다. 그런데 왜 매번 다른 독감 예방접종을 하고, 증상이 조금씩 다를까? 그 이유는 매우 똑똑한 진화를 거듭하며 스스로 변화하고 있기 때문이다.


인플루엔자 바이러스 구조

[그림 1] 인플루엔자 바이러스의 구조
(출처 : 이일하 교수의 생물학 산책, 이일하)

독감 인플루엔자 바이러스는 nucleocapsid (NP)와 matrix (M) 단백질의 차이에 의해 크게 A, B 및 C형으로 구분된다. 이중 잦은 변이를 일으키며 사람에게 질병을 유발하는 것은 A형으로 바이러스 표면에 존재하는 헤마글루티닌(HA)과 뉴라미니데이즈 (NA)의 다양한 조합으로 그 형태를 변화시키고 있다. 현재 밝혀진 헤마글루티닌의 sub-type은 16개(H1~H16), 뉴라미니데이즈의 sub-type은 9개(N1~N9)로 대략적인 조합수를 생각해 봐도 144개의 다른 인플루엔자바이러스가 만들어질 수 있음을 알 수 있다. 그러나 더욱 문제가 되는 부분은 이러한 조합을 통한 변이 발생이 사람만을 숙주로 하는 것이 아니라 조류와 돼지에서도 발생이 되고, 서로 공유되어 더 다양한 변이가 발생할 수 있다는 것이다. 현재까지 보고에 의하면 사람에서는 주로 A/H3N2형, A/H1N1형 및 B형이 유행하고 있는데 변이를 통해 새로운 바이러스 주가 출현할 경우 유병률과 사망률이 많이 증가하는 것으로 보고되고 있다. 때문에, WHO를 중심으로 전 세계 인플루엔자 감시체계가 운영 중이며 그 유전자형을 밝혀 백신주와 처방제를 제시하는 등 유행에 대비하고 있다.


그렇다면 어떻게 올해 유행할 백신주를 제시하는 걸까?

일반적으로 WHO는 매해 2월 해당연도에 유행할 백신주를 제시하고 있는데, 이는 지난해 남반구에서 가장 유행한 A형 바이러스 2종류와 B형 바이러스 1종을 선정하여 북반구 지역의 나라들에 제시한다. 이를 백신화 한 것이 3가 백신이고, 여기에 B형 1종을 추가한 것이 4가 백신이 된다. 참고로, B형은 2개의 sub-type이 존재하는데, 이 중 한 종류의 항체만 가져도 나머지 한 종에 대한 방어를 어느 정도 수행할 수 있으므로 3가 백신만으로도 충분할 수 있다. 또한, 예방 접종 후 항체 형성은 2주, 효과는 6개월 정도 지속된다고 한다.


바이러스의 유전자형은 어떻게 판별되는 것일까?



유행하는 바이러스의 유전자형은 qRT-PCR을 통해 빠르게 확인한다. 이때, NP, M 또는 HA 유전자를 증폭시켜 유전자 염기 서열을 비교 분석 하게 된다. 각 sub-type은 재조합 변이에 따라 서로 유사 정도가 다른데, 그림 2와 같이 크게 두 그룹으로 구분되어 진다. 이러한 유전자 변이 정도에 따르면 H1, H2, H5, H6의 경우 모두 H1에서 변형된 형태로 볼 수 있다. 이러한 정보는 이후 임상학적 표현형이나, 숙주(사람, 조류, 돼지 등)의 기원을 예측할 수 있고, 나아가 예방, 예찰의 자료로 활용된다.


독감 즉 신종플루 치료제 타미플루의 기작은 어떻게 될까?

인플루엔자 바이러스는 숙주세포의 표면에 sialic acid를 포함한 receptor에 부착한 후 8개의 segments로 구성된 바이러스 유전체를 숙주세포의 세포질로 밀어 넣는다. 이때, 세포막 일부가 유입된 유전체 서열의 막을 형성하는 엔도좀을 형성하게 된다. 형성된 엔도좀 내부는 낮은 pH를 유지하게 되는데, 이로 인해 바이러스의 lipid layer, 즉, 껍질이 분해되고 바이러스 핵산이 세포질에 노출되게 된다. 노출된 핵산중 heterotrimeric influenza polymerase (FluPol)를 코딩하는 유전체만이 숙주세포의 핵 안으로 이동하게 된다. 이후 숙주세포의 polymerase CTD (c-terminal domain)를 인지하여 바이러스의 유전자를 역전사시키고 복제시킨다. 절대적으로 숙주 세포의 시스템을 활용하여 바이러스 유전자를 대량 복제시키는 시스템으로 이를 cap-snatching 이라 하며, 이로 인해 숙주 세포의 유전자가 발현되지 않는 것을 host shut-off라 한다.



숙주세포의 시스템을 이용해 다량 생산한 바이러스 단백질들은 다른 세포로의 이동을 위해 virus particle을 형성하고 숙주세포로 부터 떨어져 나와 다른 세포로 확산된다. 이때, 바이러스는 HA와 NA를 표면에 이미 배치하고, 숙주 세포의 표면에 존재하는 sialic acid와 HA가 최종 결합되는 구조를 형성한다. 이후 NA(neuraminidase)는 근처의 HA와 sialic acid 결합을 끊어 세포로부터 분리 되게 한다. 타미플루는 이러한 바이러스 생활사 중 NA의 활성을 억제하여 다른 세포로의 확산을 방지하는 방법으로 바이러스에 대응하고 있어야 한다. 바이러스의 증식은 일반적으로 감염 후 48시간 이내에 모두 이뤄진다. 따라서 타미플루의 복용은 감염 후 48시간 이내에 이뤄져야 NA 활성을 낮춰 세포 내 확산을 막을 수 있다.

작성 : RDC 신윤희 센터장

Posted by 人Co

2019/03/02 22:44 2019/03/02 22:44
, ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/306



« Previous : 1 : 2 : 3 : 4 : 5 : ... 8 : Next »