[구버전] 人Co BLOG

나만 알고 싶은 OmicsBox

Posted at 2021/04/30 17:17
Filed under 제품소식

'유전체 데이터는 점차 쌓여가고···쌓여가는 데이터 처리는 해야겠고···이왕 처리하는 거 효율적으로, 내가 원하는 방향으로 처리하고 싶은데···심도 있는 분석은 또 어떻게 진행해야 하는 걸까···' 이런 의문 품어보신 적 다들 있으시죠?! 있을 겁니다! 저 또한 그랬으니까요!

제 경우에는 OmicsBox라는 솔루션이 저의 이러한 의문을 해소해주었습니다. 제가 OmicsBox를 처음 접한 건 바야흐로 대학원 시절. 그 당시에는 OmicsBox로 리뉴얼 되기 전인 Blast2GO 버전이었습니다. 저는 그 당시 De Novo Transcriptome 분석을 진행했었고, BLAST 분석 이후의 후속 분석인 Functional Analysis(GO, KEGG, InterProScan)를 Blast2GO를 이용하여 진행했었습니다.

만약 그 당시의 저에게 Blast2GO가 없었다면, 저는 아마 졸업을 못 했을 겁니다. (생각만 해도 끔찍하네요.)
서론이 길었네요

자, 그럼 이렇게 저를 무사히 졸업시켜주는데 일조했던 OmicsBox(구 Blast2GO)! 과연 어떤 기능을 하는 생물정보 솔루션인지 이제부터 차근차근 알아볼까요?

나만 알고 싶은 OmicsBox

OmicsBox 기능을 알아보기 전에 OmicsBox는 무엇인지에 대해 먼저 알아보겠습니다.

OmicsBox는 새로운 genome 분석을 위한 최고의 생물정보학 플랫폼(Platform)임과 동시에 산업, 학술 및 정부 연구기관의 생물학자를 위한 사용자 친화적인 생물정보학 데스크톱 애플리케이션(Desktop application)입니다. 이러한 OmicsBox는 기능 유전체학의 선두주자로서 세계적으로 인정받고 있으며, 이는 7,000개 이상의 과학 연구 인용으로 입증되었습니다. 또한, OmicsBox는 genomics, transcriptomics, metagenomics의 NGS 데이터 분석에 최적화(de novo 파트)되어 있으며, 필요에 따라 데이터 분석에 필요한 다양한 모듈(Module)을 결합하여 사용할 수 있습니다.

[그림 1]. OmicsBox OverView

(https://www.biobam.com/wp-content/uploads/2019/03/OmicsBox_Brochure_2019_A5.pdf)

아래는 OmicsBox의 주요 기능을 나열해 봤는데요,
클라우드 플랫폼(Cloud platform)을 활용한 애플리케이션(Application) 고속 실행 및 견고하고 안전한 백엔드(Back-end) 제공
Blast 결과의 Gene Ontology mapping
Functional Annotation
InterProScan domain 검색
GO-Slim Reduction
KEGG map mapping
통계 정보 차트
다양한 데이터의 import와 export format 지원
Eukaryote, prokaryote에 알맞은 model을 이용한 유전자 부위 예측
발현값을 이용한 pairwise/time course 별 분석

이뿐만 아니라 OmicsBox는 아래와 같은 강력한 장점도 가지고 있습니다.

Advantages of OmicsBox

Powerful Tables

[그림 2]. Powerful Tables

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

풍부한 사용자 인터페이스(Interface)를 통해 대용량 데이터세트를 쉽게 처리할 수 있고, 모든 테이블은 필터링과 정렬을 할 수 있으며, 가장 중요한 것은 다른 결과 세트와 결합할 수 있다는 것입니다. 또한, 후속 분석 단계의 하위 집합을 쉽게 생성하고 추출할 수 있습니다.

Workflows

[그림 3]. Workflows

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

Workflow manager를 사용하여 생물정보학적 workflow를 생성, 실행 및 저장할 수 있으며, 선택한 분석 단계를 끌어와 workflow를 생성하고 모든 파라미터(Parameter)를 한 곳에서 구성하고 검토할 수 있습니다.

Genome Browser

[그림 4]. Genome Browser

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

Genome Browser는 여러 트랙(Track)을 통해 alignment(.bam), gene annotation(.gff) 및 variant 정보(.vcf)를 결합할 수 있습니다. 그뿐만 아니라 navigation, 필터 및 검색 옵션을 사용하여 쉽고 탐색적인 방법으로 결과를 확인할 수 있습니다.

Omics Cloud Platform

[그림 5]. Omics Cloud Platform

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

클라우드 플랫폼(Cloud platform)은 대부분의 무거운 작업이 수행되는 OmicsBox에 견고하고 안전하며 자동 확장이 가능한 백엔드(Back-end)를 제공합니다. 또한, 이 시스템을 사용하면 표준 PC에서 매우 까다로운 생물정보학 애플리케이션(Application)을 고속으로 실행할 수 있습니다.

자 어떤가요? 전반적으로 OmicsBox에 대해 간략히 알아보았는데, 글을 읽다 보니 내 데이터를 어떻게 처리하면 좋을지 구상이 잡히셨나요?

아직 잘 안 잡히셨다고요? 괜찮습니다.

이제부터 설명해 드릴 OmicsBox의 4가지 모듈을 살펴보고 나면 구상이 잘 잡히실 겁니다.

그럼 한번 살펴볼까요?

Four modules of OmicsBox

[그림 6]. Four modules of OmicsBox

(https://www.biobam.com/omicsbox/)

Genome Analysis

Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고, low quality bases를 제거할 수 있습니다.

De Novo Assembly : ABySS를 기반으로 하는 assembly 기능을 통해 reference genome 또는 특정 하드웨어(Hardware) 요구 사항 없이 전체 genome sequence를 재구성할 수 있습니다.

Repeat Masking : 다운스트림(Down-stream) 유전자 예측을 개선하기 위해 RepeatMasker를 사용하여 진핵생물 genome의 반복적이고 복잡성이 낮은 assemble된 DNA sequence를 마스킹(Masking)할 수 있습니다.

Gene Finding : Genome 구조를 특성화하기 위해 원핵생물(Glimmer 사용) 및 진핵생물(Augustus 사용) 유전자 예측을 수행할 수 있으며, 진핵생물 유전자 예측은 RNA-seq 인트론 힌트를 지원합니다.

Genome Browser : 트랙(Track) 형태로 annotation을 시각화하여 genome sequences(.fasta), alignments(.bam), intron-exon structure(.gff) 및 variant data(.vcf)와 결합할 수 있습니다.

Transcriptomics

Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.

De Novo Assembly : Reference genome 없이 de novo transcriptome을 생성하기 위해 Trinity 프로그램을 이용하여 짧은 Reads를 조립할 수 있습니다.

RNA-Seq Alignment : 초고속 유니버설(Universal) RNA-seq aligner인 STAR를 사용하여 RNA-seq 데이터를 reference genome에 alignment 할 수 있습니다.

Quantify Expression : HTSeq 또는 RSEM을 사용하여 reference genome의 유무와 관계없이 gene 또는 transcript 수준에서의 발현을 정량화할 수 있습니다.

Differential Expression Analysis : NOISeq, edgeR 또는 maSigPro와 같이 잘 알려진 다양한 통계 패키지(Package)를 사용하여 실험 조건 간 또는 시간이 지남에 따라 차등적으로 발현된 유전자를 검출할 수 있습니다. 또한, 풍부한 시각화는 결과를 해석하는 데 많은 도움이 됩니다.

Enrichment Analysis : 차등 발현 결과를 functional annotation과 결합함으로써, Enrichment 분석은 과잉 및 과소 표현된 생물학적 기능을 식별할 수 있도록 해줍니다.

Metagenomics

Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.

Taxonomic Classification : Kraken에서 현재의 종(세균, 고세균, 바이러스)을 식별하고, 다단계의 Pie chart인 Krona와 샘플 간의 비교 막대 그래프로 결과를 시각화할 수 있습니다.

Metagenomics Assembly : 클라우드(Cloud)에서 빠르고 쉽게 대규모 데이터세트를 조립하기 위해 MetaSPAdes와 MEGAHIT 중에서 선택할 수 있습니다.

Gene Prediction : 가능 유전자와 단백질을 식별하고 추출하기 위해 일반 Reads에는 FragGeneScan, 조립된 데이터에는 Prodigal을 사용할 수 있습니다.

Functional Interpretation : EggNOG-Mapper 및 PfamScan을 사용하여 높은 처리량의 functional annotation을 얻을 수 있고, 결과를 GO graph 및 chart로 시각적으로 표현하고 비교할 수 있습니다.

Functional Analysis

High-Throughput Blast and InterProScan : CloudBlast 및 CloudInterProScan을 사용하여 선택한 reference 데이터세트에 대해 빠른 sequence alignment 및 domain 검색을 수행할 수 있습니다.

Gene Ontology Mapping : UniProt 및 Gene Ontology Consortia의 최신 데이터베이스에서 사용 가능한 functional annotation을 사용하여 잠재적인 homologous와 domain을 연결할 수 있습니다.

Blast2GO Annotation : Blast2GO 방법론을 사용함으로써, source annotation 품질 및 ontology 계층을 고려하여 가장 신뢰할 수 있는 기능 label을 새로운 sequence 데이터세트에 유연하게 할당할 수 있습니다.

Enrichment Analysis : 서로 다른 enrichment 분석 방법 (Fisher Exact Test 및 GSEA)을 사용하여 과다 및 과소 표현된 분자 기능을 식별할 수 있습니다.

Functional Interpretation : 다양한 시각화를 통해 annotation process를 평가할 수 있을 뿐만 아니라 실험 및 기능 분석 결과의 생물학적 해석을 도울 수 있습니다.

Genome 분석, Transciptome 분석, Metagenome 분석 받고 Functional Annotation 분석까지! NGS 분석 대부분 분야를 섭렵한 OmicsBox, 어떠신 것 같나요? 구상이 어느 정도 잡히시고 있나요? 점점 OmicsBox 매력에 빠져들고 계신가요?

그럼 이쯤에서 이런 질문을 던질 수도 있습니다. "Genome 분석, Transcriptome 분석, Metagenome 분석, Functional Annotation 분석까지 기능은 매우 좋은데 어떻게 이용해야 할지 잘 모르겠어요···"
걱정하지 마세요! 저희에게는 앞서 언급되었던 장점 중 하나인 workflows가 있습니다!

OmicsBox Workflows

Genome Analysis Workflows

Eukaryotic Genome Analysis Workflow
Prokaryotic Genome Analysis Workflow
Long Reads Eukaryotic Genome Analysis Workflow
Long Reads Prokaryotic Genome Analysis Workflow

[그림 7]. Eukaryotic Genome Analysis Workflow

(https://www.biobam.com/genome-analysis/)

Transcriptomics Workflows

De Novo Transcriptome Characterization Workflow
Transcript-level Analysis Workflow
Gene-level Analysis Workflow

[그림 8]. De Novo Transcriptome Characterizatioin Workflow

(https://www.biobam.com/transcriptomics/)

Metagenomics Workflows

Taxonomic Classification Workflow
Functional Annotationi Workflow

[그림 9]. Taxonomic Classification Workflow

(https://www.biobam.com/metagenomics/)

Metagenomics Workflows

[그림 10]. Functional Analysis Workflow

(https://www.biobam.com/functional-analysis/)

Raw data만 넣어주고, 각 단계의 파라미터(Parameter)만 잡아주면~ 자동으로 output까지 산출되는 workflow! 참으로 간단하죠?

OmicsBox workflow만 있으면 어렵던 유전체 데이터 분석이 앞으로는 재미있게 느껴질 수 있습니다.

마치며

이번 포스팅(Posting)에서는 OMICS 데이터 분석을 용이하게 해주는 생물정보학 솔루션 OmicsBox에 대해 알아보았는데요. Genome 분석부터 Functional Annotation 분석까지 많은 기능이 있는 아주 매력적인 솔루션이라고 생각이 됩니다. 더군다나 어떤 기능을 어떻게 사용해야 하는지 잘 모르더라도 강력한 기능인 workflow가 있어서 손쉽게 output을 얻을 수도 있구요. 만약 NGS 데이터 분석이 아직 어렵고 낯설게 느껴지는 분들이 계신다면 이번 포스팅의 주인공인 OmicsBox를 강력! 추천해 드립니다. 후회하지 않으실 거에요

만약 OmicsBox와 친해지고 싶으시다면 consulting@insilicogen.com으로 메일 주세요.
친절히 안내 드리도록 하겠습니다.
마지막으로 긴 글 읽어주셔서 감사드리며, 모두 건강한 나날 보내시길 바랍니다.
감사합니다.

OmicsBox : BIOINFORMATICS MADE EASY

[그림 11]. OmicsBox Logo

(https://www.biobam.com/functional-analysis/)

참고자료

작성 : iLAB 조항철 주임컨설턴트

Posted by 人Co

Tag: biobam, Bioinformatics, OmicsBox, SCH, 생물정보, 소프트웨어, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/380

인실리코젠 창립 15주년

Posted at 2019/10/30 12:48
Filed under 회사소식

날씨가 좋은 2019년 10월 1일, 인실리코젠은 15주년을 맞이하였습니다.

광교 Alleyway의 세상의 모든 아침에서 식사를 하며 추억의 사진과 영상을 찍었습니다.

많은 분들이 웃는 모습으로 행사에 참여해주셔서 감사했습니다.

영상을 같이 보실까요??

브랜드 위원회 : 김지인

Posted by 人Co

Tag: 15주년, Bioinformatics, insilicogen, 세상의 모든 아침, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/328

나만 몰랐던 BLAST 꿀팁

Posted at 2019/09/11 16:26
Filed under 생물정보

19세기의 자전거란 현재와 달라서 금속의 바퀴로 이루어져 쉽게 사고로 이어지곤 했답니다.
이에 영국의 수학자 던롭은 사랑하는 외동아들 조니를 위해 고무 타이어를 발명하게 되고 공기타이어회사 CEO로 큰 부자가 되게 됩니다.
저 역시 필요 때문에 (더 빨리, 더 쉽게 처리하고 칼퇴하고자) 다음의 방법들을 발견하게 되었으니 평행이론에 따라 언젠가는 저도 큰 부자가 될..... 수 있을까요?

발단은 몹시 사소했습니다.
아래 그림처럼 결과를 만들면 매우 있어 보일 것 같았거든요.

<출처 : GraPhlAn 프로그램 위키 페이지>

그런데 내 손에 있는 건 단백질 서열 단 하나, 계통수를 그리기 위한 DB가 아직 구축되어 있지 않은 상황이었어요.
하지만 걱정 없죠. 백종원 대표님께 만능 간장이 있다면 우리에겐 만능 BLAST가 있으니깐요.
BLAST를 통해 맵핑되는 단백질들을 모은 후 이를 이용하여 계통수를 그려보기로 합니다.
BLAST에 대한 기본 설명이나 분석 방법 등은 위키 (Wiki) 기반의 커뮤니티 형성을 통한 생물정보 분야의 집단 지성 창출을 목적으로 운영되는 지식 커뮤니티인 人CoDOM을 참고해주세요.

그런데 여기서 문제 발생!!!
nr에 대한 BLAST를 다 끝내고 보니 (default setting의 tabular format으로 출력) 결과 파일에서 종명을 확인할 수 없었어요.
종명을 확인 못 하면 계통수를 그려도 계통별로 잘 묶였는지 확인도 어렵고 예쁜 색을 입혀줄 수도 없어요.

MH00089;   gi|761546247|ref|YP_009122458.1|   99.06   530   5       0   1   530   1   530   0.0   1045
MH00089;   gi|1314948409|ref|YP_009444547.1|   94.70   528   28      0   3   530   1   528   0.0   995
MH00089;   gi|1079486692|ref|YP_009307015.1|   94.89   528   27      0   3   530   1   528   0.0   991

< BLAST 수행 결과 예시>

종명 확인을 위해서는 NCBI에 GI number (또는 accession)로 검색해보는 수밖에 없는 듯 하여 매우 절망스러웠지요.
실제로 하나 검색에만 최소 클릭 5~6번이 소요되고 10개 넘어가면 웹 크롤링을 해야하는 건지 고민하게 됩니다.
이때 잘 읽은 메뉴얼 하나가 사람을 살립니다.
역시 오랜 역사를 자랑하는 생물정보 산증인 BLAST는 이미 해답을 제시하고 있었던 거죠.

아래와 같이 2단계를 순서대로 수행해 주시면 BLAST 결과에서 종명, taxid (중요), kingdom (계) 정보를 바로 확인할 수 있습니다.

1단계) taxonomy DB 세팅
먼저 nr로부터 계통 정보를 가져올 수 있도록 NCBI에서 제공하는 taxonomy DB를 세팅해 주어야 합니다.
아래와 같이 최신 버전으로 다운로드 후 환경변수에 추가해 주세요.
(이참에 nr DB도 최신 버전으로 변경해주고, 하는 김에 BLAST도 최신화해주는 게 어떨까요?)
참고로 제가 테스트했던 버전은 BLAST+ 2.2.31입니다.

$ wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/taxdb.tar.gz
$ tar zxvf taxdb.tar.gz
$ export BLASTDB=[download 위치]

2단계) BLAST 실행

BLAST 수행 시 결과 파일의 포맷을 6번, 즉 tabular로 지정하고 format specifiers에 staxids(species taxon id)와 sscinames (species scientific name), sskingdoms (species super kindoms)이 포함되도록 적어줍니다.

$ blastp -query query.faa -db nr -outfmt '6 qseqid sseqid pident evalue staxids sscinames scomnames sskingdoms stitle' -num_threads 20 -out query_vs_nr.table

짜잔~ 커맨드라인 하나로 손목 수명이 일주일 연장되었습니다 (감격).
하는 김에 stitle (species name)도 추가하였더니 이제 정말 NCBI 웹사이트 들락날락할 일 없어졌어요.

MH00089;        gi|761546247|ref|YP_009122458.1|        99.06   0.0     1610689 Sarocladium implicatum  Sarocladium implicatum  Eukaryota       cytochrome oxidase subunit I (mitochondrion) [Sarocladium implicatum]
MH00089;        gi|1314948409|ref|YP_009444547.1|       94.70   0.0     29910   Tolypocladium inflatum  Tolypocladium inflatum  Eukaryota       cytochrome c oxidase subunit 1 (mitochondrion) [Tolypocladium inflatum]
MH00089;        gi|1079486692|ref|YP_009307015.1|       94.89   0.0     71617   Tolypocladium ophioglossoides   Tolypocladium ophioglossoides   Eukaryota       cytochrome oxidase subunit 1 (mitochondrion) [Tolypocladium ophioglossoides]

< BLAST 결과 예시>

한계점)
하지만 결과를 보면 박테리아인지 진핵인지와 같이 계 (kingdom)에 대한 정보만 제시하고 있어요.
근연종의 단백질에 잘 맵핑이 된 것인지 전체 계통 정보를 확인하고 싶고 진핵생물 내에서도 딱정벌레목인지 총채벌레목인지 좀 더 세분화하고 싶은데 이 상태로는 너무 부족합니다.

제가 찾은 방법은 NCBI에서 제공하는 텍스트 포맷의 관련 DB에서 taxid 또는 학명(scientific name)으로 검색하는 것입니다.
참고로 최근 1~2년 사이 NCBI taxonomy DB가 업데이트되면서부터 taxid 별 full lineage 정보를 제공하고 있으니 꼭 최신 버전을 받아주세요.
new_taxdump.tar.gz 파일을 다운로드 후 그 안에 있는 fullnamelineage.dmp 파일을 확인하면 정보를 얻을 수 있습니다.

taxid | scientific name | full lineage
1610689 |       Sarocladium implicatum  |       cellular organisms; Eukaryota; Opisthokonta; Fungi; Dikarya; Ascomycota; saccharomyceta; Pezizomycotina; leotiomyceta; sordariomyceta; Sordariomycetes; Hypocreomycetidae; Hypocreales; Hypocreales incertae sedis; Sarocladium;        |

추가 팁 하나 더!)
BLAST 결과 출력시 파일 포맷을 여러 개로 하고 싶을 때가 있어요.

XML은 기본이니깐 꼭 있어야 할 것 같고 파싱하기 귀찮으니 tabular로도 해야 할 것 같고 또 alignment된 거 확인하고 싶으니 pairwise로도 남겨두고 싶을 때 어떻게 해야하는 거죠??

BLAST를 3번 하면 돼요. 하지만 오래 걸린다는 단점이 있어요.
이때 blast_formatter를 사용하시면 됩니다 (작업시간이 1/3로 줄어드는 매직)!!!
몰랐는데 BLAST 설치 디렉토리에 이미 blastp, blastn이랑 같이 자리잡고 있더라구요.
(역시 메뉴얼은 읽으라고 있는 거였어요.)
중요한 점은 처음 BLAST할 때 반드시 asn 포맷으로 출력해 주어야 한다는 것입니다.

$ blastn -db [nt] -query [query] -outfmt 11 -out [output].asn
$ blast_formatter -archive [output].asn -outfmt 5 -out [output].asn.xml
$ blast_formatter -archive [output].asn -outfmt 6 -out [output].asn.tabular
$ blast_formatter -archive [output].asn -outfmt 0 -out [output].asn.pairwise

출력 포맷은 아래를 참고하셔서 원하는 번호를 기재해 주시면 됩니다.

 0 = pairwise,
 1 = query-anchored showing identities,
 2 = query-anchored no identities,
 3 = flat query-anchored, show identities,
 4 = flat query-anchored, no identities,
 5 = XML Blast output,
 6 = tabular,
 7 = tabular with comment lines,
 8 = Text ASN.1,
 9 = Binary ASN.1,
10 = Comma-separated values,
11 = BLAST archive format (ASN.1),
12 = JSON Seqalign output,
13 = JSON Blast output,
14 = XML2 Blast output

<출력 가능한 BLAST 결과 포맷 목록>

이상 새롭지 않을 수 있을, 그리고 정말 저만 알았다면 너무 슬프고 민망할 것 같은 BLAST 꿀팁 소개를 마칩니다.
이 방법 외에도 오조오억 개의 다른 길이 있을 겁니다. 아시는 분은 제보 바랍니다.
당신은 우리와 함께 가시면 안 될까요??? (=스카우트하고 싶어요).

<출처 : 'Mnet 쇼미더머니8 화면캡처' 후 편집>

작성 : RDC 정명희 선임 연구원

Posted by 人Co

Tag: Bioinformatics, insilicogen, 생물정보학, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/324

올겨울 내내 힘들었던 독감, 인플루엔자 바이러스….

Posted at 2019/03/02 22:44
Filed under 생물정보

언제부터인지 우리는 쌀쌀해진 기온이 코끝을 스치면 독감 예방주사를 맞고 겨울을 준비한다. 독감은 일반적인 감기와는 달리 전염성이 매우 크고 폐렴으로 이어지는 경우가 많아 일반인들에게도 다르게 인식되어 있다. 그도 그럴 것이 감기는 서로 다른 여러 종류의 바이러스들로 유발되지만, 독감은 '인플루엔자 바이러스'라는 명확한 질병체가 밝혀져 있고 그 치료제도 개발되어 있다. 그런데 왜 매번 다른 독감 예방접종을 하고, 증상이 조금씩 다를까? 그 이유는 매우 똑똑한 진화를 거듭하며 스스로 변화하고 있기 때문이다.

인플루엔자 바이러스 구조

[그림 1] 인플루엔자 바이러스의 구조

(출처 : 이일하 교수의 생물학 산책, 이일하)

독감 인플루엔자 바이러스는 nucleocapsid (NP)와 matrix (M) 단백질의 차이에 의해 크게 A, B 및 C형으로 구분된다. 이중 잦은 변이를 일으키며 사람에게 질병을 유발하는 것은 A형으로 바이러스 표면에 존재하는 헤마글루티닌(HA)과 뉴라미니데이즈 (NA)의 다양한 조합으로 그 형태를 변화시키고 있다. 현재 밝혀진 헤마글루티닌의 sub-type은 16개(H1~H16), 뉴라미니데이즈의 sub-type은 9개(N1~N9)로 대략적인 조합수를 생각해 봐도 144개의 다른 인플루엔자바이러스가 만들어질 수 있음을 알 수 있다. 그러나 더욱 문제가 되는 부분은 이러한 조합을 통한 변이 발생이 사람만을 숙주로 하는 것이 아니라 조류와 돼지에서도 발생이 되고, 서로 공유되어 더 다양한 변이가 발생할 수 있다는 것이다. 현재까지 보고에 의하면 사람에서는 주로 A/H3N2형, A/H1N1형 및 B형이 유행하고 있는데 변이를 통해 새로운 바이러스 주가 출현할 경우 유병률과 사망률이 많이 증가하는 것으로 보고되고 있다. 때문에, WHO를 중심으로 전 세계 인플루엔자 감시체계가 운영 중이며 그 유전자형을 밝혀 백신주와 처방제를 제시하는 등 유행에 대비하고 있다.

그렇다면 어떻게 올해 유행할 백신주를 제시하는 걸까?

일반적으로 WHO는 매해 2월 해당연도에 유행할 백신주를 제시하고 있는데, 이는 지난해 남반구에서 가장 유행한 A형 바이러스 2종류와 B형 바이러스 1종을 선정하여 북반구 지역의 나라들에 제시한다. 이를 백신화 한 것이 3가 백신이고, 여기에 B형 1종을 추가한 것이 4가 백신이 된다. 참고로, B형은 2개의 sub-type이 존재하는데, 이 중 한 종류의 항체만 가져도 나머지 한 종에 대한 방어를 어느 정도 수행할 수 있으므로 3가 백신만으로도 충분할 수 있다. 또한, 예방 접종 후 항체 형성은 2주, 효과는 6개월 정도 지속된다고 한다.

바이러스의 유전자형은 어떻게 판별되는 것일까?

유행하는 바이러스의 유전자형은 qRT-PCR을 통해 빠르게 확인한다. 이때, NP, M 또는 HA 유전자를 증폭시켜 유전자 염기 서열을 비교 분석 하게 된다. 각 sub-type은 재조합 변이에 따라 서로 유사 정도가 다른데, 그림 2와 같이 크게 두 그룹으로 구분되어 진다. 이러한 유전자 변이 정도에 따르면 H1, H2, H5, H6의 경우 모두 H1에서 변형된 형태로 볼 수 있다. 이러한 정보는 이후 임상학적 표현형이나, 숙주(사람, 조류, 돼지 등)의 기원을 예측할 수 있고, 나아가 예방, 예찰의 자료로 활용된다.

독감 즉 신종플루 치료제 타미플루의 기작은 어떻게 될까?

인플루엔자 바이러스는 숙주세포의 표면에 sialic acid를 포함한 receptor에 부착한 후 8개의 segments로 구성된 바이러스 유전체를 숙주세포의 세포질로 밀어 넣는다. 이때, 세포막 일부가 유입된 유전체 서열의 막을 형성하는 엔도좀을 형성하게 된다. 형성된 엔도좀 내부는 낮은 pH를 유지하게 되는데, 이로 인해 바이러스의 lipid layer, 즉, 껍질이 분해되고 바이러스 핵산이 세포질에 노출되게 된다. 노출된 핵산중 heterotrimeric influenza polymerase (FluPol)를 코딩하는 유전체만이 숙주세포의 핵 안으로 이동하게 된다. 이후 숙주세포의 polymerase CTD (c-terminal domain)를 인지하여 바이러스의 유전자를 역전사시키고 복제시킨다. 절대적으로 숙주 세포의 시스템을 활용하여 바이러스 유전자를 대량 복제시키는 시스템으로 이를 cap-snatching 이라 하며, 이로 인해 숙주 세포의 유전자가 발현되지 않는 것을 host shut-off라 한다.

숙주세포의 시스템을 이용해 다량 생산한 바이러스 단백질들은 다른 세포로의 이동을 위해 virus particle을 형성하고 숙주세포로 부터 떨어져 나와 다른 세포로 확산된다. 이때, 바이러스는 HA와 NA를 표면에 이미 배치하고, 숙주 세포의 표면에 존재하는 sialic acid와 HA가 최종 결합되는 구조를 형성한다. 이후 NA(neuraminidase)는 근처의 HA와 sialic acid 결합을 끊어 세포로부터 분리 되게 한다. 타미플루는 이러한 바이러스 생활사 중 NA의 활성을 억제하여 다른 세포로의 확산을 방지하는 방법으로 바이러스에 대응하고 있어야 한다. 바이러스의 증식은 일반적으로 감염 후 48시간 이내에 모두 이뤄진다. 따라서 타미플루의 복용은 감염 후 48시간 이내에 이뤄져야 NA 활성을 낮춰 세포 내 확산을 막을 수 있다.

작성 : RDC 신윤희 센터장

Posted by 人Co

Tag: Bioinformatics, insilicogen, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/306

[人Co PEOPLE] 바이오 빅데이터의 심연을 탐구하는 4인

Posted at 2017/08/04 07:39
Filed under 회사소식

여러분의 직장생활, 행복하신가요?

직장인이라면, 인생 1/3 이상의 시간을 회사에서 보낸다 해도 과언이 아닌데요, 표정이 어둡고, 열의가 보이지 않는 상태로 오랜 시간 직장생활을 하고 있다면, 행복하지 않은 삶으로도 연결되는 것이죠.

조직 내에서 인정받는 일원이 되고, 리더가 되며, 전문가가 되는 방법… 각종 직장생활 처세술서에 나오는 행동양식은 결론적으로 모두 유사합니다. 회사의 원리와 원칙부터 이해하고 행동하는 공통점이 있습니다. 적응력, 조정력, 소통, 열정과 역량 등도 빠지지 않는 키워드들이죠. 중요한 건 신뢰와 진정성이 빠지면 금세 들통 나기 마련이라는 것!

이번 기회에 소개하고자 하는 (주)인실리코젠 R&D Center 4인은 제가 입사해서 오랜 시간 人Co인으로 함께한 분들이며, 굳건히 각 분야의 리더로 성장하신 분들입니다. 이분들의 생각을 짧게나마 들어보는 시간을 가졌습니다. 자, 그럼 살짝 들어볼까요? ^^

학창 시절부터 시베리아나 몽골 초원과 같은 가보지 못한 곳에 대한 동경이 있습니다. 기계공학에서 출발하여 생물정보학이라는 분야로 옮겨오면서 생소하고 처음 길을 걷는 것이라 즐겁게 받아들였습니다. 이러한 경험을 과학자와 나누면서 그 대가를 받는 것도 고객과 저, 서로가 생소했던 것 같습니다. 이제는 산업의 한 분야로 인정받아 많이 자연스러운 환경이 된 듯합니다.

대학 복학생 때(1997년 즈음), 처음 생물정보학이라는 단어를 접하고는 나를 위한 분야라고 생각했습니다. 컴퓨터에 관심이 많으면서, 동시에 분자생물학을 좋아했던 사람이라면 당연히 생각했을 겁니다. 당시 학교에서 배울 수 없었기 때문에 학회, 세미나 등을 찾아 들으러 다녔던 것이 이 분야로의 시작이었던 것 같습니다. 지금이 2017년이니까 20년은 됐네요. 그동안 생물정보학 분야가 정말 넓음에 막막하기도 했고, 돈 벌기 어려운 분야인데 할 수 있을까 두렵기도 했습니다. 요즘은 그 응용, 실무 분야가 확실히 많아졌다고 느낍니다.

다른 사람보다 생물정보라는 분야에 더 늦게 합류하였고, 생물정보라는 분야라기보다 데이터 과학이라고 생각되는 이 분야에 BIT가 아닌 BT 전공자로서 심각한 적응기를 겪었다 할 수 있습니다. 2008년부터 특별히 비정규화되어 있고, 개별 데이터가 많이 존재하는 식품 분야의 데이터 세상에 발을 디디면서 그야말로 혼돈과 혼란의 시간을 겪었습니다. 그럼에도 불구하고, 뒤돌아 가지 않고, 10년이 지난 지금까지 데이터 과학이라는 이 분야에 서 있는 것을 보면, 이 길을 가야만 해서 이곳에 발을 디디게 된 게 아닌가 생각됩니다.

분자생물학을 전공하고 animal cell culture를 하던 저에게 우연한 전화 한 통이 생물정보를 시작하게 했습니다. 프로모터 연구를 했다는 잊고 있던(브릭에 올려진) 저의 이력서를 보시고 금요일 자정을 넘기던 그 시각, 갑자기 생물정보를 함께 해보지 않겠느냐는 권유로 큰 기대도 망설임도 없이 그냥 그렇게 생물정보를 접하게 됐습니다. 생각해보면, 통계나 프로그래밍에 전혀 문외한이었던 그때부터 15년이 지난 지금까지도 저는 행운이 따랐던 것 같습니다. 늘 주변엔 함께 공부하던 친절하고 똑똑한 분들이 계셨고, 데이터가 쌓여 있었던 터라 크게 다른 생각을 하지 않고 지금까지 오고 있는 듯합니다.

환경부의 연구과제가 기억에 남습니다. 당시에는 거의 최초로 시맨틱스(Semantcis, 意味論)를 적용하여 환경유해물질에 대한 유전체 데이터베이스를 구축하는 주제였습니다. 연구진 중에서 저희에게 데이터를 잘 정리해서 주시던 분이 계셨습니다. 그분이 주신 단편 자료를 차곡차곡 모으고 시맨틱스 모델로 뽑아서 그린 유전자-화학물질-생리활성 네트워크 그림을 논문 초안에 넣어서 보내드렸습니다. 그러고 나서 그분에게서 전화가 왔는데 자기가 중요한 저널에 준비하는 개념을 어떻게 알았느냐고 놀라움과 걱정을 전해주셨습니다. 결국, 그 그림은 중요한 심볼을 모두 제거하고 간략한 현황만 보여주는 식으로 변경되어 논문으로 출판되었습니다. 당시에 그 교수님은 해당 주제로 5년 이상 하면서 찾은 내용이고, 그 아이디어는 저희에게 노출하고 싶지 않았는데, 단편적 데이터의 의미적 연결(시맨틱스)이라는 기술로 동일한 결과를 얻을 수 있었던 것입니다. 이후에 그 교수님은 저희 회사 제품을 꾸준히 사용하는 고객이 되고 저희도 시맨틱스의 잠재성에 확신을 하는 계기가 되었습니다.

2011년 구제역 사태가 가장 기억에 남습니다. 당시, 축산과학원 정보시스템 유지관리 사업 중이었는데, 구제역이라 출입이 통제됐었죠. 급하게 시스템 점검해야 할 일이 있어 전산실에 들어가야 했는데, 그러기 위해서는 정문 옆 임시 샤워시설에서 샤워하고, 자외선 소독하고, 속옷도 갈아입고, 방역복을 입은 채 작업해야 했습니다. 긴급 위급 상황을 절감하면서 서버 앞에서 작업하던 때가 기억나네요. 리눅스 명령 하나하나가 무게감 있던 기억이네요. 전산 관련 업무 하는 분 가운데, 이런 경험 하신 분은 얼마 없을 것 같습니다.

최근 인실리코푸드 시스템이라는 개인의 유전정보에 맞는 식단을 추천해 주는 프로젝트를 수행한 적이 있습니다. 현재 자신의 생활방식, 식습관 등 외형적인 기준에 따라 식단을 추천해 주는 프로그램과 앱 등이 많이 나와 있긴 하지만, 유전정보를 기반으로 사람의 속까지 들여다보며 맞춤 식단을 추천해 주는 프로젝트는 처음이지 않을까 생각됩니다. 다양하고 정리되지 않는 자신의 개인 데이터를 잘 정리할 뿐만 아니라, 최신의 과학적 정보까지 추가하여 최적의 맞춤 식이 정보를 제공할 수 있는 프로젝트를 성공적으로 수행한 뿌듯함과 동시에 아마도 향후에는 더 발전된 시스템으로 확장될 수 있을 것이라는 기대감, 식품 빅데이터라는 키워드를 연상하게 하는 미래를 내다보는 프로젝트인 것 같아 가장 기억에 남습니다.

언론에도 소개됐던 한우 유전체 프로젝트가 기억에 남습니다. 2009년 당시만 해도 국내에 NGS를 이용한 연구가 이제 막 소개되던 때라 데이터를 구경할 기회조차 잘 없던 때인데, 운이 좋았었습니다. 국내에서 처음으로 대용량 데이터를 바탕으로 한우의 단일 염기 변이를 유전체 전반에 걸쳐 분석했고, 그 결과는 논문으로 정리됐는데, 재밌는 사실은 연구분야가 늘 그러하듯 대용량 데이터를 분석해 내기 위해 들인 그 많은 노력이 단순한 호기심을 해결하기 위해 시작됐고 그것으로 귀결된다는 것을 알게 됐다는 것입니다. 당시, 저는 한우의 그 누런 털이 어떤 유전자에 기인해서인지를 찾던 중 CORIN이라는 유전자를 만났고, 그날 옆자리의 동료는 한참을 저에게 꽉 안겨 있었던 기억이 납니다.

생물정보학은 여러 학제간의 경계학문이라고도 합니다. 경계에 있다는 것은 어느 쪽에도 포함되지 않는다는 것으로 해석되기도 하지만, 동시에 경계에 있기에 두 영역의 결합자 역할이기도 합니다. 사람과 사람, 사람과 일에 있어 결합자 또는 풀(glue)과 같은 역할을 하고 싶다고 생각합니다.

어려운 질문이네요. 그렇게 잘하고 있지 못하다고 생각합니다. 다만, 나의 진심과 열정이 드러나도록 대화하고, 이것이 서로 통할 때 이것이 바로 중요한 관계의 진전이 아닐까 느낍니다. 서로 간에 감정적으로 잘 챙기는 부분은 제가 잘하지 못하는 영역이기도 합니다만 늘 잘하고자 노력합니다.

특별히 다른 이들에 비해 인간관계를 잘 관리하고 있다 생각되진 않지만, 인실리코젠의 기본 모토 중 하나인 사람에 대한 진심이 가장 큰 부분이 아닌가 생각됩니다. 진심은 통하고, 그 진심과 진실은 상황과 사람을 변화시킨다는 마음이 아마도 현재까지 함께하는 사람들과 쌓여 온 신뢰가 아닌가 합니다.

저는 아마도 배려를 하기보다는 받는 쪽이었던 것 같습니다. 입사해서 애도 둘이나 낳고, 근근이 지내와서 특별히 뭔가를 하려 하지 않고 감사한 마음으로 지내왔던 것이 비결이라면 비결일 수 있을 것 같습니다. 오히려, 이번 기회를 빌려 주변 지인들에게 다시 한 번 감사하다고 전하고 싶네요.

걱정의 80%는 절대 일어나지 않는 것들이라는 말이 있다고 합니다. 결정의 순간 걱정보다는 도전과 희망에 가중치를 줍니다.

얼마 전부터 자신에게 묻고 있습니다. 이 회사가 내 회사고, 내가 리더이고, CEO라면 어떻게 선택하겠는가. 이 질문에 대한 고민은 우리 회사의 발전과 우리 모두의 성장에 도움이 될 것이라 생각합니다.

지금 현재 가장 하기 힘들고 어려운 것을 선택하는 편입니다. 쉽고 유리한 것은 누구나 할 수 있기에 선택과 결정의 순간이 왔을 때 기회가 아닌 위기가 될 수 있음을 인지하고, 결정하려고 하는 편입니다. 이런 경우를 몇 번 겪으면서 느낀 건 아마도 이런 선택의 기준에 “가장 기본적인 것이 가장 중요하다”는 원칙이 있었던 것 같습니다.

제가 지나온 시간은 대부분 답이 정해져 있었던 것 같습니다. 크게 고민의 기로에 서서 있었던 시간보다는 얼른 해내야 하는 시간이 많았습니다. 생물정보를 처음 시작하고 할 수 있었던 건 그저 빨리 프로그래밍을 공부하는 것이었고, 둘째를 낳고 할 수 있었던 것은 집에서는 아기를 업어주고, 회사에서는 빨리 데이터의 속성을 파악해서 문제를 해결하는 방법밖에 없었습니다. 지금 생각해 보니, 고민하기 보다는 지금의 문제를 신속히 해결하고자 하는 방식이었던 것이 아닌가 합니다.

빠르게 변화하는 기술 유행어를 붙여서 무늬만 새로운 것들이 많습니다. 옥석을 가리고 우리 고객에게 제대로 된 가치를 돌려드릴 수 있는 것이 무엇인지 항상 고민하고 있습니다. 그 외 시간은 아직 아이들이 어려서 주말이라도 아이들과 시간을 보내고 있습니다.

하루가 다르게 새로운 기술이 소개되고 있습니다. 특히 기계학습, 딥러닝 등 유전체 정보에 접목했을 때 더욱 가치 있을 분야에 관심이 많습니다. 최근 유전체 정보와 일부 설문 정보를 결합하면, 훌륭한 맞춤 질병 예측 모델을 만들 수 있을 것 같은 기대감이 있습니다. 새로운 IT 지식을 생물학적 고려하에 응용하는 것에 높은 관심이 있습니다.

데이터 산업이라는 말이 많이 떠오릅니다. 물건을 만들 때 어떤 모양으로 어떻게 만들어서 얼마나 많은 사람이 사용하게 할 것인가를 고민하는 것처럼, 이미 만들어진 데이터를 어떻게 포장하고, 만들고, 정리하면 잘 사용할 수 있을까에 대한 고민은 많이 하게 됩니다. 지금은 식품에 많은 관심을 가지고 식품 데이터를 보고 있지만, 아마도 앞으로는 환경 데이터가 한 걸음 더 나가야 할 데이터 산업의 한 분야가 아닐까 하고 관심을 가지고 있습니다.

'어떻게 하면 쉬지 않을 수 있을까?' 입니다. 토끼와 거북이 이야기에서 빠른 토끼보다 쉬지 않는 거북이가 더 빠른 것을 얘기하는데, 사실 쉬지 않는 시간보다 빠른 것은 없다고 생각하고 있거든요. 조급한 마음일 수 있겠지만, 일정 궤도에 얼른 올려놓고 싶은 것들이 한둘이 아니다 보니, 이것들을 한꺼번에 해결하려면 일차적으로 그 일들을 쉬지만 않고 갈 수 있으면 된다고 생각했습니다. 근데, 그게 참 어렵습니다. 하루를 보내고 한숨 한 번인데, 그렇게 일주일이 금세 지나가고 벌써 7월을 넘어서서, 무서움도 가끔 느껴집니다. 시간이 간다고 그냥 해결되는 일은 많이 없으니까요. 아무튼, 현재는 쉬지 않고 갈 수 있는 현실적인 방법을 찾는 중입니다.

앞에서 언급한 환경부 연구과제에서부터 발표할 때 자주 사용하던 말이 있습니다. “데이터 규모가 문제가 아니라 그 데이터 간의 연결이 문제다”. 4차 산업혁명은 초(超; super)연결의 시대가 될 것으로 생각합니다. IoT 기술과 같이 불편한 정보의 연결을 편리하게 도와주는 것, 빅데이터 분석처럼 사람의 행동에서 숨어 있는 연결고리를 찾는 일들이 많이 생길 것으로 예상합니다. 그중에서 생물정보학을 기반으로 한 바이오 빅데이터는 초연결과 함께 그 인과관계도 동시에 제공할 수 있는 핵심 콘텐츠라고 생각합니다.

우리는 좀 더 건강해질 것이고, 수명은 더 늘어날 것입니다. 이를 가능하게 하는 것이 인실리코젠이 하고 있는 생물정보 연구라고 봅니다. 물론 기초 과학 연구도 중요하지만, 머지않아 실질적 가치로 드러나게 될 것이라고 봅니다. 그 과정에 이바지하고 싶은 욕심이 있습니다.

획기적인 유전체 기반 기술의 발달과 다양한 IT적 활용기술의 접목은 미래 4차 산업혁명의 핵심이 될 것으로 생각됩니다. 특별히 더 많은 유전정보를 확보하여 머신러닝, 인공지능까지 포함한 빅데이터 분석은 국가나 기업에 가장 큰 미래경쟁력이 될 것으로 생각합니다.

작년까지만 해도 유전체 어셈블리를 두고 큰 고민을 했는데, 지금은 PacBio를 비롯한 Hi-C 기술로 고민의 대상에서 제외됐습니다. 많은 문제를 제시하고 빠르게 해결하면서 놀라운 발전을 보이는 생물정보는 빅데이터 생산에도 크게 이바지하고 있지만, 이렇게 쌓인 빅데이터가 다시 생물정보 분야를 발전시키고 있습니다. 인간의 호기심이 사라지지 않는 한 데이터와 생물정보는 늘 앞서거니 뒤서거니 하며 함께 발전할 텐데, 중요한 것은 질문을 던지는 쪽은 항상 빅데이터가 아닌 생물정보를 활용하는 소수의 사람이 될 것이라는 겁니다. 그때를 위해서라도 쉬지 않고 가야겠네요.

많은 바이오 정보 중에서 접근성과 연결성을 갖춘 것들만 미래 산업에 활용될 것으로 생각합니다. 따라서 다양한 접근 경로와 연결 방법에 대한 준비와 경험을 갖추고 예상되는 시나리오와 애플리케이션을 시도하는 것이 중요하다고 생각합니다. 최근에 회사에서 준비하는 식품 바이오 빅데이터 기반의 애플리케이션이나 유전체 연관 분석 플랫폼 등도 그 일환입니다.

기업 운영을 위한 조직력을 갖추고, 기본 연구 역량을 꾸준히 향상하다 보면 곧 건강증진과 수명 연장이라는 실질적 가치를 만들어내는 역할을 할 수 있으리라 봅니다. 지속적인 조직력 강화, 연구 역량 강화를 진행하다 보면 기회가 올 것이고, 그 기회를 잘 이용하면 중요한 가치 생산의 최전선 기업이 될 수 있을 것으로 생각합니다.

인실리코젠은 이미 10년 전부터 데이터의 가치를 알고 데이터의 축척, 연결 그리고 이들을 통합하는 미래 산업인 데이터 산업을 준비해 왔습니다. 이러한 과정을 겪으며, 미래에는 각자가 생산한 파편적 데이터는 하나의 통로가 될 데이터 공장을 통해 다시 꾸려져 우리의 의식주를 관리할 것으로 생각됩니다. 이를 대비하기 위해서는 분야와 경계를 뛰어넘는 한 단계 업그레이드된 데이터 통합을 위한 준비와 데이터의 폭넓은 이해와 의미를 찾는 인재를 발굴하고, 기술을 개발하는 것이 필수적이라 할 것입니다.

사실 제가 하는 분야는 다양한 분야에서 과학적 호기심으로 제기된 문제를 푸는데 생물정보학적 기술로 도움을 드리는 역할을 하고 있습니다. 그래서 전적으로 개개인의 시각이 같을 수 없고, 관심사가 같을 수 없어 같은 방법으로 일괄처리하기 힘든 부분이 있습니다. 따라서 개인의 관심도와 몰입도가 매우 중요한 요소로 작용했는데, 미래에는 예외 처리라고 생각되는 많은 부분이 개인 맞춤이라는 이름으로 자동 처리되도록 할 것입니다. 모든 생물 시스템을 비롯하여 이와 상호작용하는 환경과의 연계에서도 대부분 질문에 빅데이터는 답을 줄 것입니다. 곧 누구에게나 잘 맞춰진 쉬운 데이터가 놓이게 될 텐데, 이런 현실 속에서도 끊임없는 문제를 제기할 수 있고 재밌는 발상이 가능한 인재가 미래를 이끌 것으로 생각합니다.

지금까지 (주)인실리코젠 R&D Center 4인에 대한 인터뷰였습니다. 오랜 시간 함께 하여 호흡도 척척! 정말 훈훈한 분위기로 빅데이터의 심연을 탐구하고 있습니다.

2016년 다보스 포럼(세계경제포럼, World Economic Forum)에서 본격적으로 제기된 제4차 산업혁명! 지금 맞고 있는 이 시대의 일과 직업에 대한 전망 보고서에 의하면, 전문적 기술과 컴퓨터 및 관련 장치를 통한 커뮤니케이션과 정보처리 작업이 능숙한 소수의 ‘스타’들에게 큰 보상을 주게 될 것이라고 합니다.

이러한 추세는 새로운 아이디어와 비즈니스 모델, 상품과 서비스를 제공하는 등 혁신이 주도하는 생태계에 완벽한 적응 능력을 갖춘 사람들이 승자가 된다는 멱 법칙(冪法則, Power Law)의 양상을 띠고 있습니다.

성공신화는 적절한 기술과 가치관을 가진 사람, 즉 자발적으로 동기를 부여하고 노력하는 특성이 있으며 새로운 기술을 보완할 능력이 있는 사람에게만 주어질 이야기입니다. (4차 산업이 이끄는 일의 미래, Design Issue Report, Vol.14)

앞서 인터뷰한 네 분은 한 가지 분야에 충분한 소양을 갖추고 다양한 지식을 두루 겸비한 통섭형 인재! 자기 존중과 타인에 대한 겸손을 갖추고, 융화를 통해 함께 성장하고자 하는 人Co의 핵심 원동력이라 믿어 의심치 않습니다.

작성자 : 브랜딩 이사 정은미

Posted by 人Co

Tag: Bioinformatics, insilicogen, 생물정보학, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/253

식품 빅데이터, 그 의미와 가치

Posted at 2017/03/10 11:10
Filed under 생물정보

식품 빅데이터, 그 의미와 가치
우리 생활 모든 정보가 빅데이터이다

최근 온라인 뉴스 기사에 하루도 빠지지 않고 등장하는 용어가 빅데이터이다. 선뜻 보면 빅데이터가 최근에 떠오른 핫한 용어라 생각할 수 있지만 사실 오래전부터 우리는 이미 빅데이터를 생산하고 있었지만, 그것이 보이지 않아 빅데이터라 부르지 않았을 뿐이다. 생활 빅데이터를 예로 들어보자. 우리는 삼시 세끼 밥을 먹고 잠을 자고 운동도 하고 아프면 병원을 가는 이런 일상들을 반복하면서 라이프로그 정보들을 생산하고 있다. 하지만 생산한다고 해서 데이터가 되는 것이 아니고 그걸 기록하고 축적이 되었을 때 비로소 빅데이터라고 말할 수 있다. 다양한 센서기술들이 탑재된 휴대전화기는 우리 생활 데이터들을 빅데이터 화 시키는 일을 가능케 하고 있으며, 이렇게 축적된 빅데이터를 활용한 산업들이 계속해서 진화하고 있다. 이번 포스팅에서는 수많은 생활 데이터 중에서 먹고 사는 것에 관한 식품 빅데이터에 대해 적어보고자 한다.

식품은 어떤 정보와 가치를 가지고 있나?
식품의 맛 정보

기본적으로 우리가 식품정보라 하면 맛과 영양성분 정보들을 들 수 있다. 맛은 굉장히 주관적인 정보이지만 우리가 맛집을 검색할 때 특정 음식점의 음식 맛을 평가한 블로그 정보들을 보고 찾아가는 경우가 많다. 필자도 맛집 탐방을 취미로 하고 있어서 각종 포털의 블로그 정보들을 활용하고 있다. 이렇다 보니, 많은 음식점에서 블로그 마케팅을 내세워 판매수익을 올리기도 한다. 2013년 외식 트렌드 조사에 따르면, 소비자의 대다수(84.2%)는 모바일기기가 보편화된 후로 외식 생활이 변화했다고 생각하고 있는 것으로 나타났다. 응답자의 53.5%는 모바일 기기를 이용하여 방문할 음식점의 맛 정보들을 수집하여 방문하는 것으로 조사되었다(그림1). 외식문화가 변화하면서 스타트업과 대기업을 막론하고 다양한 기업들이 맛집 앱 시장에 문을 두드리고 있다. 대표적인 애플리케이션으로는 포잉, 다이닝코드, 식신, 망고플레이트들이 있으며 누적 다운로드 10만 이상을 기록하는 성과를 거두고 있다. 이처럼 식품의 맛 정보는 주관적인 정보임에도 불구하고 외식 산업적으로 활용가치가 높은 정보라 할 수 있다.

그림1. 식품의 맛 정보, 변화하고 있는 외식 트렌드
(출처 : 한국농수산식품유통공사, 외식 트렌드 조사, 2013)

식품의 영양성분 및 생리활성 정보

식품의 영양성분 정보에 대해 크게 관심이 있는 일반인들은 드물다. 고작 식품에 강조표시되어 있는 sugar free와 low fat 등의 정보만 가지고 본인의 기호에 맞게 구매하는 정도일 것이다. 하지만 식품을 구성하는 영양성분 정보야말로 건강한 삶을 추구하는 인간에게 근본적인 답을 줄 수 있는 정보이고, 구매자는 식품 영양성분 정보에 대해 알 권리가 있다. 모든 식품에 대해 영양성분을 표시할 필요는 없으나 식약처에서는 식품 영양성분 표시에 대한 기준을 제시하고 식품위생법 시행규칙 제6조 제1항에 따라 영양성분을 표시해야 하는 식품의 종류를 정해놓고 있다. 표시 대상 성분은 열량, 탄수화물, 단백질, 지방, 콜레스테롤, 나트륨, 그 밖에 강조표시를 하고자 하는 영양성분으로 크게 7가지를 표시하도록 되어있다.

그림2. 식품 영양성분 예시(출처 : 서울특별시 어린이 식품안전)

국내외적으로 식품의 영양성분 정보는 정부의 식품 데이터베이스에서 제공받을 수 있다. 우리나라의 경우는 식약처에서 구축한 FANTASY DB(http://www.foodsafetykorea.go.kr)에서 확인할 수 있다. 식품별 영양성분 함량과 영양학적 조언 등의 정보들을 포함하고 있으며(그림3), 현재 약 13,713건의 정보가 등록되어 있는 것으로 확인된다.
미국은 USDA DB(https://ndb.nal.usda.gov/ndb)를 만들어 농업과 식품에 대한 정보들을 제공하고 있으며, 유럽의 경우도 EUROFIR DB(http://www.eurofir.org)를 구축하여 유럽 27개국의 식품정보들을 확인할 수 있는 플랫폼을 제공하고 있다. 국가 차원에서 이러한 식품 데이터베이스를 구축하는 이유는 여러 산업과의 연계뿐만 아니라, 신규 사업을 융성하기 위한 취지로 식품정보들을 제공하고 있다. 실제, 미국 기업 중 일부는 USDA DB를 활용하여 헬스케어, 다어어트, 질환 개선을 위한 다양한 애플리케이션을 개발하고 되고 있으며, 대표적으로 HealthWatch 360, CaloryGuard Pro, Nutrition complete 등이 있다.

그림3. 국내 식품 데이터베이스 (http://www.foodsafetykorea.go.kr)

영양성분 정보가 중요한 이유 중 하나는 대사체 정보를 중심으로 생리활성 정보들과의 연결이 가능하다는 점이다. 예를 들어, 우리나라 전통식품인 김치에 vitamin, carotene, ascorbic acid 등과 같은 성분들이 함유돼 있다고 했을 때, 이러한 정보들을 텍스트마이닝 기법을 활용하여 논문의 생리활성 효능 정보들과 연결하게 되면, 체내에서 식품이 특정 질병에 얼마나 효과적인지를 판단할 수 있는 정보가 될 수 있다(그림4). 이러한 정보들은 건강 기능성 식품 개발에 있어, 건강증진에 도움이 될 수 있는 물질을 효율적으로 탐색하고 선별하는데 활용될 수 있다. 또한, 자신의 질환 감수성에 따라 선별적으로 식품을 섭취할 수 있는 과학적 근거자료를 제시할 수 있다는 점에서 푸드케어 서비스 산업과의 연계가 가능하다.

그림4. 텍스트 마이닝 기법을 이용한 김치의 생리활성 정보 수집예시 (출처:직접 작성)

식품 영양유전체 정보

많은 연구자들이 식품의 영양성분과 유전자 간의 상호작용에 대하여 관심을 두기 시작했다. 과거의 식품 영양학은 각종 영양소의 구조 및 기능을 밝히는데 초점을 맞췄다면 영양 유전체학은 개인의 유전적 특성과 상관관계가 높은 식품을 권장할 수 있는 개인별 맞춤영양학 시대로 접어들고 있다. 이러한 배경에는 사람들이 가진 유전자의 다양성에 따라 영양소 대사가 개개인의 유전적 차이에 따라 다르게 나타난다는 것이 밝혀지고 있다. Cell지에 게재된 한 논문에서는 18~70세 800명을 대상으로 같은 음식 섭취를 하게 하고 혈액 내에 glucose양을 측정한 결과에서 개인별로 glucose를 흡수하는 정도가 다르게 나타나는 것을 보고한 바 있다(그림5). 이러한 결과들은 개개인의 타고난 유전적/표현형적 특성에 따라 식품이 대사되는 정도가 다르게 나타나는 예시라 하겠다.

그림5. 개개인의 특성에 따른 glucose 흡수량 변화 연구 결과
(출처 : Cell, Personalized Nutrition by Prediction of Glycemic Responses 2015)

식품 영양 유전체 정보는 앞으로 유전자와 표현형 그리고 영양성분과의 상관관계가 더욱 과학적으로 규명됨으로써 양질의 정보가 될 것으로 예측하고 있다. 이처럼 축적된 정보들은 건강유지와 질병 예방을 향상할 수 있는 맞춤 의료와 식품 산업을 계속해서 가속하고 있다. 최근 habit이라는 회사는 개인 유전자 검사를 통해 자신에 맞는 식품들을 컨설팅 및 판매하는 서비스를 런칭하였으며 점차 개인 유전자 맞춤화 식품정보를 활용한 헬스케어 서비스들이 증가할 것으로 예측된다.

그림6. 식품 영양 유전체 정보와 맞춤 식품
(출처: R&D 동향, '영양 유전체학의 이해 및 연구동향' 재구성)

영양 유전체 정보를 바탕으로 맞춤형 식품 정보를 제공한 국내 사례로는 한국식품연구원과 (주)인실리코젠에서 개발한 비만 인실리코푸드시스템(http://insilicofood.co.kr)을 들 수 있다. 비만 인실리코푸드 시스템은 개인의 표현형 정보(키, 몸무게, 허리둘레, 신체활동, 컨디션등)와 유전자형 정보를 기반으로 맞춤 식품 정보를 제공하는 시스템이다. 특징적인 부분은 목표 몸무게를 설정하면 현재 표현형 정보를 기반으로 이를 달성하기 위한 식단 구성이 가능하다는 점과 개인 유전자형 정보를 입력하면 유전적으로 비만에 얼마나 위험한지 확인하고 유전자형 정보에 맞는 식품 정보를 제공한다는 점이다. 또한, 한국식품연구원 오믹스 연구결과와 식품 정보를 연결시켜 제공해주기 때문에, 과학적 근거기반의 개인 맞춤 식품 정보 시스템 구축 사례라 하겠다.

그림7. 개인 유전체 정보기반 맞춤 식품 제공 시스템
(출처 : 비만인실리코푸드 시스템 웹사이트)

식품 이력 정보

갑자기 식품 이력 정보가 왜 나오지 하고 의아해할지 모르겠지만, 필자는 식품 빅데이터가 식품 정보의 생산부터 식탁에 올라오기까지의 정보를 포괄하는 의미를 식품 빅데이터라 정의하고자 한다. 식품의 이력 정보는 식품의 생산부터 유통까지의 일련의 정보들을 의미한다. 이러한 정보들은 안심하고 먹을 수 있는 먹거리를 만드는 데 필요한 정보이다. 우리나라는 현재 정부에서 축산물에 대한 이력제 정보 시스템을 운영하고 있다. 해당 시스템을 통해 소의 출생에서부터 도축, 포장처리, 판매에 이르기까지의 정보를 확인할 수 있다. 확인방법은 축산물 상품의 이력제 번호를 모바일/웹 애플리케이션에 검색하면 이력에 대한 정보들을 확인할 수 있다. 이러한 정보들은 위생과 안전에 문제가 발생하면 그 이력을 추적하여 신속하게 대처하기 위한 유용한 정보라 할 수 있다.

그림8. 쇠고기 이력 정보 활용예시

필자는 첫 도입 부분에 식품 데이터를 먹고사는 일이라고 표현했다. 식품 데이터는 단순한 정보의 개념에서 벗어나, 다양한 산업적 활용가치가 많은 정보기 때문이다. 중요한 것은 이렇게 많은 정보들로부터 우리는 어떤 가치를 만들어 낼 것인가이다. 식품빅데이터가 미래에 가져올 파장을 기대하며 이 글을 마무리하려고 한다.

Reference

한국농수산식품유통공사, 외식트렌드 조사, 2013
서울특별시 어린이 식품안전
Cell, Personalized Nutrition by Prediction of Glycemic Responses, 2015
R&D 동향, 영양 유전체학의 이해 및 연구동향

작성자 : R&D센터 DS그룹
이상민 주임 연구원

Posted by 人Co

Tag: Bioinformatics, insilicogen, 빅데이터, 생물정보학, 식품정보, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/237

(주)인실리코젠이 함께한 고추 유전체 프로젝트 연구 결과 - 생명과학 분야 최고 학술지 Nature Genetics (IF 35.2)의 1월 19일자 온라인 판에 게재

Posted at 2014/01/28 22:07
Filed under 회사소식

관련기사
고추 매운맛 유전자, 국내 연구진이 밝혀냈다 2014.01.22 티브이데일리
고추 유전체서열 국내 독자 기술로 완성 2014.01.21 정책브리핑
고추 유전체서열 국내 독자 기술로 완성 2014.01.20 아시아투데이
고추 표준 유전체 염기서열 국내 기술로 완성 2014.01.20 연합뉴스
좀 더 맵고 맛있는 고추 나온다 2014.01.20 동아사이언스

논문바로보기
http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html

'고추' 하면 떠오르는 친근감은 비단 우리나라 뿐만이 아닐 것입니다. 고추는 세계적으로 사랑 받고 있고 영양학적인 가치 또한 우수하여 토마토, 감자와 함께 대표적인 작물 중 하나로 꼽히고 있습니다. 그러나 생물학자들에게는 대중적인 선호도 이외에 토마토, 감자와 함께 고추에서 밝히고자 하는 흥미로운 관심 거리가 있습니다. 서로 닮은 듯 아닌 듯 한 이들 세 작물은 모두 가지과 (Solanaceae)에 속하는 것으로 진화와 육종을 통해 얻어진 공통된 특성과 특이적인 특성을 각각 분자적으로 밝히기에 좋은 모델이 되기 때문인데요, 특히 토마토와 고추의 경우 흥미로운 연구거리가 가득합니다.
첫번째, 토마토의 경우 사과나 바나나와 같이 에틸렌 가스에 의해 후숙성이 촉진되는 climateric fruit 인 반면, 고추는 포도와 같이 후숙성이 촉진 되지 않는 non-climateric fruit으로 같은 가지과 작물로써 서로 비슷한 유전자 세트를 가지면서도 서로 다른 형태의 숙성과정을 거치게 되는 메카니즘은 무엇일까?
두번째, 토마토의 유전체는 약 900Mb정도인데 반해 고추는 약 3Gb에 달하는 거대한 유전체 사이즈를 갖는 이유는 무엇일까?
세번째, 고추의 대중적인 인기의 근간이 되는 매운맛 성분인 캡사이신의 생합성 경로는 어찌 될까? 이 런 모든 질문에 대한 해답이 최근 생물정보 컨설팅 전문기업인 (주)인실리코젠에서도 참여한 서울대 최도일 교수님 연구팀에서 Nature genetics 에 발표한 논문 Genome sequence of the hot pepper provides insights into the evolution of pungency in Capsicum species http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html 에서 모두 해결되었습니다.

논문에 많은 내용들이 있지만 그 중 후숙성 과실인 토마토와 그렇지 않은 고추와의 과실 숙성 메카니즘의 차이를 보여주는 마지막 메인 figure를 살펴보면, ripening 관련 유전자는 두 종 모두에서 보존되어 있으나 그림에서 보여지는 것과 같이 mRNA상의 발현의 차이로 (group I) 표현형의 차이가 유발된 것으로 나타났습니다. 이 중 주요 유전자는 ethylene이 생성되는 과정에 수반되는 유전자들의 발현이 고추에서 모두 저하되어 ethylene 생성이 저하되고 그로 인해 ethylene에의해 repression되는 CCS(capsanthin-capsorubin synthase)의 발현이 tomato에 비해 월등히 높게 나타나고, 결국 pepper-specific carotenoids인 Capsanthin, capsorubin의 합성이 높아 tomato와는 다른 표현형을 나타냈습니다. 반면, tomato에서는 CCS와 ortholog 관계를 갖는 CYC-B(chromoplast-specific lycopene beta-cyclase) 유전자의 발현이 ripening 과정 동안 ethylene의 높은 합성으로 인해 억제됨을 나타냄으로써 그 메커니즘을 밝혔습니다.

Comparative fruit ripening

이 외에도 고추에 많은 비타민 함량의 메커니즘이라던가, 토마토와 고추의 과실이 물러지는 차이의 원인 메커니즘과 같은 유전체 전문가가 아니더라도 흥미를 가질 만한 많은 내용이 담겨 있습니다. 물론 유전체 전문가(?)의 입장에서도 소중한 정보가 가득합니다. 사실 제가 마지막 figure만을 소개한 이유는 이 하나의 figure를 위해 수행되어야 하는 genome assembly(유전체 서열 완성), gene structure분석(유전자의 서열 및 구조, 유전자 기능, 유전체내 전체 유전자 세트), gene family분석(ortholog, paralog분석) , genome expansion분석( repetitive sequence분석), gene expression 분석(transcription factor분석, RNAseq 분석, pathway 분석), genome variant 분석(SNP, indel 분석), phylogeny 분석과 같은 많은 분석이 수반되어야 하고, 이러한 정보는 supplementary information에서 제공하고 있는 table 54개, figure 49개에 고스란히 담겨져 있음을 알려드리고 싶어서 입니다. 이들 데이터는 마지막 figure와 같은 많은 생물학자들에게 실마리를 제공할 리소스 데이터로 제공이 될 것이기에 그 잠재력이 더욱 큽니다.

Gene structure분석 파이프라인

유전자 구조 분석 파이프라인으로 고추 유전체 분석을 위해 고추의 mRNA(RNAseq, ESTs)서열, 단백질 서열, 토마토 및 감자의 단백질 서열, 애기장대, 포도 및 가지과 작물의 단백질 서열을 이용한 Evidence gene modeling과 여러개의 ''ab initio'' gene modeling (gene prediction)이 함께 수행되어 이들의 공통된 유전자 모델을 선정하는 combined gene modeling이 수행되었습니다. - (주)인실리코젠 지원

마지막으로 이번 연구의 가장 큰 성과라면, 순수 국내 연구진의 기술로 이뤄졌다는 점과 생물정보의 학문적 발전입니다. 식물의 유전체에는 유전자 영역 이외에 repeat 영역이 포유류나 균류, 미생물에 비해 매우 많이 존재하기 때문에 실제 유전체 서열을 완성하기에 매우 까다로운 조건을 갖고 있습니다. 단적으로 토마토, 감자의 경우 국제 컨소시엄을 통해 전세계 연구진의 협업에 의해 이뤄진 점만 보더라도 고추 유전체의 완성은 의미가 크다고 할 수 있습니다. 더욱이 유전체 크기가 토마토에 비해 3배이상 커지고 커진 대부분이 repetitive sequence에 해당하는 LTR retrotransposons 임을 감안하면 유전체 서열 어셈블리만 보더라도 많은 노력이 수반됐음을 알 수 있습니다. 실제, 오픈 소스 프로그램(SOAPdenovo, SSPACE, FLAKE)과 상용 프로그램(CLC Assmebly Cell; CLCbio사, 서울대, (주)인실리코젠의 공식 MOU를 통한 지원)이 모두 이용되었으며, 시퀀싱 또한 다양한 플랫폼/디자인으로 여러번의 수정과 시도를 반복하며 현재의 결과를 얻어냈습니다. 뿐만 아니라 유전자 구조 분석 또한 세계적인 수준의 분석이 진행되었으며 genome expansion, gene expression, 진화적론적인 phylogenetic 분석 모두 국내 연구진들의 몰입적인 연구를 수행한 결과라 할수 있습니다.
다시한번, 생물정보 컨설팅을 전문으로 하는 (주)인실리코젠의 입장으로 NGS라는 막강한 도구와 나날이 정신없이 발전하고 있는 생물정보학의 발전을 통해 보다 많은 좋은 소식이 있기를 기대해 봅니다.

Codes사업본부 Research실
선임컨설턴트 신윤희 선임

Posted by 人Co

Tag: Bioinformatics, Comparative genomics, insilicogen, Nature Genetics, NGS, Phylogeny, SNP, 가지과, 고추 유전체, 생물정보학, 유전체, 인실리코젠, 토마토
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/145

숭실대학교, (주) 인실리코젠 인재양성 MOU 체결

Posted at 2011/01/04 19:50
Filed under 회사소식

지난 1월 3일, (주)인실리코젠과 숭실대학교 의생명시스템학부는 맞춤형 생명정보 인재 양성을 위한 MOU를 체결하였습니다.

(왼쪽부터 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부 김상수 교수님)

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 숭실대학교 의생명시스템학부의 학부장님이신 김상수 교수님이 참석하셨으며, 양해각서 체결로 인해 (주)인실리코젠은 5억원 규모의 실습용 생물정보 솔루션과 최신의 생명정보 기술교육 및 현장실습을 지원하기로 하였으며, 숭실대는 최첨단의 하드웨어 시스템과 다양한 인적네트워크를 제공하기로 동의하였습니다.

이번 협정은 국내 기업과 연구기관에서 요구하는 생명정보 실무 교육을 통해 바이오 연구개발에 필요한 현장중심의 인재를 양성하는 것이 목적이며 이러한 산학협동 과정은 국내 최초로 시도되는 사업이라고 생각됩니다. 또한 생명정보 교육을 한 단계 성숙할 수 있는 계기를 마련하였으며, 빠르게 변화하고 있는 생명정보의 지식과 졸업 후 산업현장에서
활용할 수 있는 전문 능력을 갖출 수 있게 되었습니다.

Posted by 人Co

Tag: Bioinformatics, MOU, 산학협동, 생명정보, 생물정보, 숭실대, 의생명시스템학부, 인실리코젠
Response: No Trackback , 1 Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/89

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era

Posted at 2010/03/30 14:53
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
5. Genome Annotation
   6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era

최근 들어 웹 2.0에 대한 논란이 뜨겁다. 비단 IT에서 뿐만 아니라 일상생활에서도 웹 2.0이라는 용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003년 처음 사용하기 시작하면서부터 대중화 된 웹 2.0에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를 웹 1.0으로 보고 있다면, 웹 2.0은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의 발전이다(그림 1)[2].

그림 1. Web 2.0이란?

웹 2.0이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된 사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을 활용하고 있다. 위키라는 개념으로 접근한 웹 2.0은 대영백과사전으로 알려져 있는 브리태니커 백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001년 1월 출범하여 2006년 12월에 기네스북에 인정되기까지 불과 6년의 짧은 기간에 엄청난 정보가 모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운영자가 절대 개입하지 않는다는 원칙하에 모든 방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이 생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고 수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

(주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을 재구성하였다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는 미팅과 관련된 로그 관리 등을 효율적으로 운영하고 있다. 개별 연구자들이 각자 분석업무를 업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정, 지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고 있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서, 인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고 데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는 다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 영역에서도 웹 2.0의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고, 관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를 어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식 자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다. 그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여 보여주는 의미론적 검색 방법을 개발하였으며, 한국인들이 가장 많이 검색하는 네이버에서도 의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

2. http://ko.wikipedia.org/wiki/Web2.0

Posted by 人Co

Tag: Bioinformatics, NGS, 웹 2.0, 위키, 위키피디아, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/65

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics

Posted at 2010/03/29 17:30
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.

3-1. Next Generation Bioinformatics

Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

Tag: Applied Biosystems, Bioinformatics, Illumina, insilicogen, NGS, Roche, Sequencer, 웹 2.0, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/64

Search Results for 'Bioinformatics'

14 POSTS

나만 알고 싶은 OmicsBox

인실리코젠 창립 15주년

나만 몰랐던 BLAST 꿀팁

올겨울 내내 힘들었던 독감, 인플루엔자 바이러스….

[人Co PEOPLE] 바이오 빅데이터의 심연을 탐구하는 4인

식품 빅데이터, 그 의미와 가치

(주)인실리코젠이 함께한 고추 유전체 프로젝트 연구 결과 - 생명과학 분야 최고 학술지 Nature Genetics (IF 35.2)의 1월 19일자 온라인 판에 게재

숭실대학교, (주) 인실리코젠 인재양성 MOU 체결

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era

3-2. Data Management for Web 2.0 Era

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics

3-1. Next Generation Bioinformatics

Categories

Recent Posts

Archives

Tag Cloud

Site Stats