여러분의 직장생활, 행복하신가요?

직장인이라면, 인생 1/3 이상의 시간을 회사에서 보낸다 해도 과언이 아닌데요, 표정이 어둡고, 열의가 보이지 않는 상태로 오랜 시간 직장생활을 하고 있다면, 행복하지 않은 삶으로도 연결되는 것이죠.

조직 내에서 인정받는 일원이 되고, 리더가 되며, 전문가가 되는 방법… 각종 직장생활 처세술서에 나오는 행동양식은 결론적으로 모두 유사합니다. 회사의 원리와 원칙부터 이해하고 행동하는 공통점이 있습니다. 적응력, 조정력, 소통, 열정과 역량 등도 빠지지 않는 키워드들이죠. 중요한 건 신뢰와 진정성이 빠지면 금세 들통 나기 마련이라는 것!
 
이번 기회에 소개하고자 하는 (주)인실리코젠 R&D Center 4인은 제가 입사해서 오랜 시간 人Co인으로 함께한 분들이며, 굳건히 각 분야의 리더로 성장하신 분들입니다. 이분들의 생각을 짧게나마 들어보는 시간을 가졌습니다. 자, 그럼 살짝 들어볼까요? ^^



사용자 삽입 이미지
학창 시절부터 시베리아나 몽골 초원과 같은 가보지 못한 곳에 대한 동경이 있습니다. 기계공학에서 출발하여 생물정보학이라는 분야로 옮겨오면서 생소하고 처음 길을 걷는 것이라 즐겁게 받아들였습니다. 이러한 경험을 과학자와 나누면서 그 대가를 받는 것도 고객과 저, 서로가 생소했던 것 같습니다. 이제는 산업의 한 분야로 인정받아 많이 자연스러운 환경이 된 듯합니다.

사용자 삽입 이미지
대학 복학생 때(1997년 즈음), 처음 생물정보학이라는 단어를 접하고는 나를 위한 분야라고 생각했습니다. 컴퓨터에 관심이 많으면서, 동시에 분자생물학을 좋아했던 사람이라면 당연히 생각했을 겁니다. 당시 학교에서 배울 수 없었기 때문에 학회, 세미나 등을 찾아 들으러 다녔던 것이 이 분야로의 시작이었던 것 같습니다. 지금이 2017년이니까 20년은 됐네요. 그동안 생물정보학 분야가 정말 넓음에 막막하기도 했고, 돈 벌기 어려운 분야인데 할 수 있을까 두렵기도 했습니다. 요즘은 그 응용, 실무 분야가 확실히 많아졌다고 느낍니다.


사용자 삽입 이미지
다른 사람보다 생물정보라는 분야에 더 늦게 합류하였고, 생물정보라는 분야라기보다 데이터 과학이라고 생각되는 이 분야에 BIT가 아닌 BT 전공자로서 심각한 적응기를 겪었다 할 수 있습니다. 2008년부터 특별히 비정규화되어 있고, 개별 데이터가 많이 존재하는 식품 분야의 데이터 세상에 발을 디디면서 그야말로 혼돈과 혼란의 시간을 겪었습니다. 그럼에도 불구하고, 뒤돌아 가지 않고, 10년이 지난 지금까지 데이터 과학이라는 이 분야에 서 있는 것을 보면, 이 길을 가야만 해서 이곳에 발을 디디게 된 게 아닌가 생각됩니다.

사용자 삽입 이미지
분자생물학을 전공하고 animal cell culture를 하던 저에게 우연한 전화 한 통이 생물정보를 시작하게 했습니다. 프로모터 연구를 했다는 잊고 있던(브릭에 올려진) 저의 이력서를 보시고 금요일 자정을 넘기던 그 시각, 갑자기 생물정보를 함께 해보지 않겠느냐는 권유로 큰 기대도 망설임도 없이 그냥 그렇게 생물정보를 접하게 됐습니다. 생각해보면, 통계나 프로그래밍에 전혀 문외한이었던 그때부터 15년이 지난 지금까지도 저는 행운이 따랐던 것 같습니다. 늘 주변엔 함께 공부하던 친절하고 똑똑한 분들이 계셨고, 데이터가 쌓여 있었던 터라 크게 다른 생각을 하지 않고 지금까지 오고 있는 듯합니다.


사용자 삽입 이미지
환경부의 연구과제가 기억에 남습니다. 당시에는 거의 최초로 시맨틱스(Semantcis, 意味論)를 적용하여 환경유해물질에 대한 유전체 데이터베이스를 구축하는 주제였습니다. 연구진 중에서 저희에게 데이터를 잘 정리해서 주시던 분이 계셨습니다. 그분이 주신 단편 자료를 차곡차곡 모으고 시맨틱스 모델로 뽑아서 그린 유전자-화학물질-생리활성 네트워크 그림을 논문 초안에 넣어서 보내드렸습니다. 그러고 나서 그분에게서 전화가 왔는데 자기가 중요한 저널에 준비하는 개념을 어떻게 알았느냐고 놀라움과 걱정을 전해주셨습니다. 결국, 그 그림은 중요한 심볼을 모두 제거하고 간략한 현황만 보여주는 식으로 변경되어 논문으로 출판되었습니다. 당시에 그 교수님은 해당 주제로 5년 이상 하면서 찾은 내용이고, 그 아이디어는 저희에게 노출하고 싶지 않았는데, 단편적 데이터의 의미적 연결(시맨틱스)이라는 기술로 동일한 결과를 얻을 수 있었던 것입니다. 이후에 그 교수님은 저희 회사 제품을 꾸준히 사용하는 고객이 되고 저희도 시맨틱스의 잠재성에 확신을 하는 계기가 되었습니다.

사용자 삽입 이미지
2011년 구제역 사태가 가장 기억에 남습니다. 당시, 축산과학원 정보시스템 유지관리 사업 중이었는데, 구제역이라 출입이 통제됐었죠. 급하게 시스템 점검해야 할 일이 있어 전산실에 들어가야 했는데, 그러기 위해서는 정문 옆 임시 샤워시설에서 샤워하고, 자외선 소독하고, 속옷도 갈아입고, 방역복을 입은 채 작업해야 했습니다. 긴급 위급 상황을 절감하면서 서버 앞에서 작업하던 때가 기억나네요. 리눅스 명령 하나하나가 무게감 있던 기억이네요. 전산 관련 업무 하는 분 가운데, 이런 경험 하신 분은 얼마 없을 것 같습니다.

사용자 삽입 이미지
최근 인실리코푸드 시스템이라는 개인의 유전정보에 맞는 식단을 추천해 주는 프로젝트를 수행한 적이 있습니다. 현재 자신의 생활방식, 식습관 등 외형적인 기준에 따라 식단을 추천해 주는 프로그램과 앱 등이 많이 나와 있긴 하지만, 유전정보를 기반으로 사람의 속까지 들여다보며 맞춤 식단을 추천해 주는 프로젝트는 처음이지 않을까 생각됩니다. 다양하고 정리되지 않는 자신의 개인 데이터를 잘 정리할 뿐만 아니라, 최신의 과학적 정보까지 추가하여 최적의 맞춤 식이 정보를 제공할 수 있는 프로젝트를 성공적으로 수행한 뿌듯함과 동시에 아마도 향후에는 더 발전된 시스템으로 확장될 수 있을 것이라는 기대감, 식품 빅데이터라는 키워드를 연상하게 하는 미래를 내다보는 프로젝트인 것 같아 가장 기억에 남습니다.

사용자 삽입 이미지
언론에도 소개됐던 한우 유전체 프로젝트가 기억에 남습니다. 2009년 당시만 해도 국내에 NGS를 이용한 연구가 이제 막 소개되던 때라 데이터를 구경할 기회조차 잘 없던 때인데, 운이 좋았었습니다. 국내에서 처음으로 대용량 데이터를 바탕으로 한우의 단일 염기 변이를 유전체 전반에 걸쳐 분석했고, 그 결과는 논문으로 정리됐는데, 재밌는 사실은 연구분야가 늘 그러하듯 대용량 데이터를 분석해 내기 위해 들인 그 많은 노력이 단순한 호기심을 해결하기 위해 시작됐고 그것으로 귀결된다는 것을 알게 됐다는 것입니다. 당시, 저는 한우의 그 누런 털이 어떤 유전자에 기인해서인지를 찾던 중 CORIN이라는 유전자를 만났고, 그날 옆자리의 동료는 한참을 저에게 꽉 안겨 있었던 기억이 납니다.


사용자 삽입 이미지
생물정보학은 여러 학제간의 경계학문이라고도 합니다. 경계에 있다는 것은 어느 쪽에도 포함되지 않는다는 것으로 해석되기도 하지만, 동시에 경계에 있기에 두 영역의 결합자 역할이기도 합니다. 사람과 사람, 사람과 일에 있어 결합자 또는 풀(glue)과 같은 역할을 하고 싶다고 생각합니다.

사용자 삽입 이미지
어려운 질문이네요. 그렇게 잘하고 있지 못하다고 생각합니다. 다만, 나의 진심과 열정이 드러나도록 대화하고, 이것이 서로 통할 때 이것이 바로 중요한 관계의 진전이 아닐까 느낍니다. 서로 간에 감정적으로 잘 챙기는 부분은 제가 잘하지 못하는 영역이기도 합니다만 늘 잘하고자 노력합니다.

사용자 삽입 이미지
특별히 다른 이들에 비해 인간관계를 잘 관리하고 있다 생각되진 않지만, 인실리코젠의 기본 모토 중 하나인 사람에 대한 진심이 가장 큰 부분이 아닌가 생각됩니다. 진심은 통하고, 그 진심과 진실은 상황과 사람을 변화시킨다는 마음이 아마도 현재까지 함께하는 사람들과 쌓여 온 신뢰가 아닌가 합니다.

사용자 삽입 이미지
저는 아마도 배려를 하기보다는 받는 쪽이었던 것 같습니다. 입사해서 애도 둘이나 낳고, 근근이 지내와서 특별히 뭔가를 하려 하지 않고 감사한 마음으로 지내왔던 것이 비결이라면 비결일 수 있을 것 같습니다. 오히려, 이번 기회를 빌려 주변 지인들에게 다시 한 번 감사하다고 전하고 싶네요.


사용자 삽입 이미지
걱정의 80%는 절대 일어나지 않는 것들이라는 말이 있다고 합니다. 결정의 순간 걱정보다는 도전과 희망에 가중치를 줍니다.



사용자 삽입 이미지
얼마 전부터 자신에게 묻고 있습니다. 이 회사가 내 회사고, 내가 리더이고, CEO라면 어떻게 선택하겠는가. 이 질문에 대한 고민은 우리 회사의 발전과 우리 모두의 성장에 도움이 될 것이라 생각합니다.



사용자 삽입 이미지
지금 현재 가장 하기 힘들고 어려운 것을 선택하는 편입니다. 쉽고 유리한 것은 누구나 할 수 있기에 선택과 결정의 순간이 왔을 때 기회가 아닌 위기가 될 수 있음을 인지하고, 결정하려고 하는 편입니다. 이런 경우를 몇 번 겪으면서 느낀 건 아마도 이런 선택의 기준에 “가장 기본적인 것이 가장 중요하다”는 원칙이 있었던 것 같습니다.

사용자 삽입 이미지
제가 지나온 시간은 대부분 답이 정해져 있었던 것 같습니다. 크게 고민의 기로에 서서 있었던 시간보다는 얼른 해내야 하는 시간이 많았습니다. 생물정보를 처음 시작하고 할 수 있었던 건 그저 빨리 프로그래밍을 공부하는 것이었고, 둘째를 낳고 할 수 있었던 것은 집에서는 아기를 업어주고, 회사에서는 빨리 데이터의 속성을 파악해서 문제를 해결하는 방법밖에 없었습니다. 지금 생각해 보니, 고민하기 보다는 지금의 문제를 신속히 해결하고자 하는 방식이었던 것이 아닌가 합니다.


사용자 삽입 이미지
빠르게 변화하는 기술 유행어를 붙여서 무늬만 새로운 것들이 많습니다. 옥석을 가리고 우리 고객에게 제대로 된 가치를 돌려드릴 수 있는 것이 무엇인지 항상 고민하고 있습니다. 그 외 시간은 아직 아이들이 어려서 주말이라도 아이들과 시간을 보내고 있습니다.

사용자 삽입 이미지
하루가 다르게 새로운 기술이 소개되고 있습니다. 특히 기계학습, 딥러닝 등 유전체 정보에 접목했을 때 더욱 가치 있을 분야에 관심이 많습니다. 최근 유전체 정보와 일부 설문 정보를 결합하면, 훌륭한 맞춤 질병 예측 모델을 만들 수 있을 것 같은 기대감이 있습니다. 새로운 IT 지식을 생물학적 고려하에 응용하는 것에 높은 관심이 있습니다.

사용자 삽입 이미지
데이터 산업이라는 말이 많이 떠오릅니다. 물건을 만들 때 어떤 모양으로 어떻게 만들어서 얼마나 많은 사람이 사용하게 할 것인가를 고민하는 것처럼, 이미 만들어진 데이터를 어떻게 포장하고, 만들고, 정리하면 잘 사용할 수 있을까에 대한 고민은 많이 하게 됩니다. 지금은 식품에 많은 관심을 가지고 식품 데이터를 보고 있지만, 아마도 앞으로는 환경 데이터가 한 걸음 더 나가야 할 데이터 산업의 한 분야가 아닐까 하고 관심을 가지고 있습니다.

사용자 삽입 이미지
'어떻게 하면 쉬지 않을 수 있을까?' 입니다. 토끼와 거북이 이야기에서 빠른 토끼보다 쉬지 않는 거북이가 더 빠른 것을 얘기하는데, 사실 쉬지 않는 시간보다 빠른 것은 없다고 생각하고 있거든요. 조급한 마음일 수 있겠지만, 일정 궤도에 얼른 올려놓고 싶은 것들이 한둘이 아니다 보니, 이것들을 한꺼번에 해결하려면 일차적으로 그 일들을 쉬지만 않고 갈 수 있으면 된다고 생각했습니다. 근데, 그게 참 어렵습니다. 하루를 보내고 한숨 한 번인데, 그렇게 일주일이 금세 지나가고 벌써 7월을 넘어서서, 무서움도 가끔 느껴집니다. 시간이 간다고 그냥 해결되는 일은 많이 없으니까요. 아무튼, 현재는 쉬지 않고 갈 수 있는 현실적인 방법을 찾는 중입니다.


사용자 삽입 이미지
앞에서 언급한 환경부 연구과제에서부터 발표할 때 자주 사용하던 말이 있습니다. “데이터 규모가 문제가 아니라 그 데이터 간의 연결이 문제다”. 4차 산업혁명은 초(超; super)연결의 시대가 될 것으로 생각합니다. IoT 기술과 같이 불편한 정보의 연결을 편리하게 도와주는 것, 빅데이터 분석처럼 사람의 행동에서 숨어 있는 연결고리를 찾는 일들이 많이 생길 것으로 예상합니다. 그중에서 생물정보학을 기반으로 한 바이오 빅데이터는 초연결과 함께 그 인과관계도 동시에 제공할 수 있는 핵심 콘텐츠라고 생각합니다.

사용자 삽입 이미지
우리는 좀 더 건강해질 것이고, 수명은 더 늘어날 것입니다. 이를 가능하게 하는 것이 인실리코젠이 하고 있는 생물정보 연구라고 봅니다. 물론 기초 과학 연구도 중요하지만, 머지않아 실질적 가치로 드러나게 될 것이라고 봅니다. 그 과정에 이바지하고 싶은 욕심이 있습니다.

사용자 삽입 이미지
획기적인 유전체 기반 기술의 발달과 다양한 IT적 활용기술의 접목은 미래 4차 산업혁명의 핵심이 될 것으로 생각됩니다. 특별히 더 많은 유전정보를 확보하여 머신러닝, 인공지능까지 포함한 빅데이터 분석은 국가나 기업에 가장 큰 미래경쟁력이 될 것으로 생각합니다.

사용자 삽입 이미지
작년까지만 해도 유전체 어셈블리를 두고 큰 고민을 했는데, 지금은 PacBio를 비롯한 Hi-C 기술로 고민의 대상에서 제외됐습니다. 많은 문제를 제시하고 빠르게 해결하면서 놀라운 발전을 보이는 생물정보는 빅데이터 생산에도 크게 이바지하고 있지만, 이렇게 쌓인 빅데이터가 다시 생물정보 분야를 발전시키고 있습니다. 인간의 호기심이 사라지지 않는 한 데이터와 생물정보는 늘 앞서거니 뒤서거니 하며 함께 발전할 텐데, 중요한 것은 질문을 던지는 쪽은 항상 빅데이터가 아닌 생물정보를 활용하는 소수의 사람이 될 것이라는 겁니다. 그때를 위해서라도 쉬지 않고 가야겠네요.


사용자 삽입 이미지
많은 바이오 정보 중에서 접근성과 연결성을 갖춘 것들만 미래 산업에 활용될 것으로 생각합니다. 따라서 다양한 접근 경로와 연결 방법에 대한 준비와 경험을 갖추고 예상되는 시나리오와 애플리케이션을 시도하는 것이 중요하다고 생각합니다. 최근에 회사에서 준비하는 식품 바이오 빅데이터 기반의 애플리케이션이나 유전체 연관 분석 플랫폼 등도 그 일환입니다.

사용자 삽입 이미지
기업 운영을 위한 조직력을 갖추고, 기본 연구 역량을 꾸준히 향상하다 보면 곧 건강증진과 수명 연장이라는 실질적 가치를 만들어내는 역할을 할 수 있으리라 봅니다. 지속적인 조직력 강화, 연구 역량 강화를 진행하다 보면 기회가 올 것이고, 그 기회를 잘 이용하면 중요한 가치 생산의 최전선 기업이 될 수 있을 것으로 생각합니다.


사용자 삽입 이미지
인실리코젠은 이미 10년 전부터 데이터의 가치를 알고 데이터의 축척, 연결 그리고 이들을 통합하는 미래 산업인 데이터 산업을 준비해 왔습니다. 이러한 과정을 겪으며, 미래에는 각자가 생산한 파편적 데이터는 하나의 통로가 될 데이터 공장을 통해 다시 꾸려져 우리의 의식주를 관리할 것으로 생각됩니다. 이를 대비하기 위해서는 분야와 경계를 뛰어넘는 한 단계 업그레이드된 데이터 통합을 위한 준비와 데이터의 폭넓은 이해와 의미를 찾는 인재를 발굴하고, 기술을 개발하는 것이 필수적이라 할 것입니다.

사용자 삽입 이미지
사실 제가 하는 분야는 다양한 분야에서 과학적 호기심으로 제기된 문제를 푸는데 생물정보학적 기술로 도움을 드리는 역할을 하고 있습니다. 그래서 전적으로 개개인의 시각이 같을 수 없고, 관심사가 같을 수 없어 같은 방법으로 일괄처리하기 힘든 부분이 있습니다. 따라서 개인의 관심도와 몰입도가 매우 중요한 요소로 작용했는데, 미래에는 예외 처리라고 생각되는 많은 부분이 개인 맞춤이라는 이름으로 자동 처리되도록 할 것입니다. 모든 생물 시스템을 비롯하여 이와 상호작용하는 환경과의 연계에서도 대부분 질문에 빅데이터는 답을 줄 것입니다. 곧 누구에게나 잘 맞춰진 쉬운 데이터가 놓이게 될 텐데, 이런 현실 속에서도 끊임없는 문제를 제기할 수 있고 재밌는 발상이 가능한 인재가 미래를 이끌 것으로 생각합니다.


지금까지 (주)인실리코젠 R&D Center 4인에 대한 인터뷰였습니다. 오랜 시간 함께 하여 호흡도 척척! 정말 훈훈한 분위기로 빅데이터의 심연을 탐구하고 있습니다.
2016년 다보스 포럼(세계경제포럼, World Economic Forum)에서 본격적으로 제기된 제4차 산업혁명! 지금 맞고 있는 이 시대의 일과 직업에 대한 전망 보고서에 의하면, 전문적 기술과 컴퓨터 및 관련 장치를 통한 커뮤니케이션과 정보처리 작업이 능숙한 소수의 ‘스타’들에게 큰 보상을 주게 될 것이라고 합니다.
이러한 추세는 새로운 아이디어와 비즈니스 모델, 상품과 서비스를 제공하는 등 혁신이 주도하는 생태계에 완벽한 적응 능력을 갖춘 사람들이 승자가 된다는 멱 법칙(冪法則, Power Law)의 양상을 띠고 있습니다.
성공신화는 적절한 기술과 가치관을 가진 사람, 즉 자발적으로 동기를 부여하고 노력하는 특성이 있으며 새로운 기술을 보완할 능력이 있는 사람에게만 주어질 이야기입니다. (4차 산업이 이끄는 일의 미래, Design Issue Report, Vol.14)
앞서 인터뷰한 네 분은 한 가지 분야에 충분한 소양을 갖추고 다양한 지식을 두루 겸비한 통섭형 인재! 자기 존중과 타인에 대한 겸손을 갖추고, 융화를 통해 함께 성장하고자 하는 人Co의 핵심 원동력이라 믿어 의심치 않습니다.

작성자 : 브랜딩 이사 정은미

Posted by 人Co

2017/08/04 07:39 2017/08/04 07:39
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/253

식품 빅데이터, 그 의미와 가치

식품 빅데이터, 그 의미와 가치
우리 생활 모든 정보가 빅데이터이다

최근 온라인 뉴스 기사에 하루도 빠지지 않고 등장하는 용어가 빅데이터이다. 선뜻 보면 빅데이터가 최근에 떠오른 핫한 용어라 생각할 수 있지만 사실 오래전부터 우리는 이미 빅데이터를 생산하고 있었지만, 그것이 보이지 않아 빅데이터라 부르지 않았을 뿐이다. 생활 빅데이터를 예로 들어보자. 우리는 삼시 세끼 밥을 먹고 잠을 자고 운동도 하고 아프면 병원을 가는 이런 일상들을 반복하면서 라이프로그 정보들을 생산하고 있다. 하지만 생산한다고 해서 데이터가 되는 것이 아니고 그걸 기록하고 축적이 되었을 때 비로소 빅데이터라고 말할 수 있다. 다양한 센서기술들이 탑재된 휴대전화기는 우리 생활 데이터들을 빅데이터 화 시키는 일을 가능케 하고 있으며, 이렇게 축적된 빅데이터를 활용한 산업들이 계속해서 진화하고 있다. 이번 포스팅에서는 수많은 생활 데이터 중에서 먹고 사는 것에 관한 식품 빅데이터에 대해 적어보고자 한다.

식품은 어떤 정보와 가치를 가지고 있나?
식품의 맛 정보

기본적으로 우리가 식품정보라 하면 맛과 영양성분 정보들을 들 수 있다. 맛은 굉장히 주관적인 정보이지만 우리가 맛집을 검색할 때 특정 음식점의 음식 맛을 평가한 블로그 정보들을 보고 찾아가는 경우가 많다. 필자도 맛집 탐방을 취미로 하고 있어서 각종 포털의 블로그 정보들을 활용하고 있다. 이렇다 보니, 많은 음식점에서 블로그 마케팅을 내세워 판매수익을 올리기도 한다. 2013년 외식 트렌드 조사에 따르면, 소비자의 대다수(84.2%)는 모바일기기가 보편화된 후로 외식 생활이 변화했다고 생각하고 있는 것으로 나타났다. 응답자의 53.5%는 모바일 기기를 이용하여 방문할 음식점의 맛 정보들을 수집하여 방문하는 것으로 조사되었다(그림1). 외식문화가 변화하면서 스타트업과 대기업을 막론하고 다양한 기업들이 맛집 앱 시장에 문을 두드리고 있다. 대표적인 애플리케이션으로는 포잉, 다이닝코드, 식신, 망고플레이트들이 있으며 누적 다운로드 10만 이상을 기록하는 성과를 거두고 있다. 이처럼 식품의 맛 정보는 주관적인 정보임에도 불구하고 외식 산업적으로 활용가치가 높은 정보라 할 수 있다.

그림1. 식품의 맛 정보, 변화하고 있는 외식 트렌드
(출처 : 한국농수산식품유통공사, 외식 트렌드 조사, 2013)


식품의 영양성분 및 생리활성 정보

식품의 영양성분 정보에 대해 크게 관심이 있는 일반인들은 드물다. 고작 식품에 강조표시되어 있는 sugar free와 low fat 등의 정보만 가지고 본인의 기호에 맞게 구매하는 정도일 것이다. 하지만 식품을 구성하는 영양성분 정보야말로 건강한 삶을 추구하는 인간에게 근본적인 답을 줄 수 있는 정보이고, 구매자는 식품 영양성분 정보에 대해 알 권리가 있다. 모든 식품에 대해 영양성분을 표시할 필요는 없으나 식약처에서는 식품 영양성분 표시에 대한 기준을 제시하고 식품위생법 시행규칙 제6조 제1항에 따라 영양성분을 표시해야 하는 식품의 종류를 정해놓고 있다. 표시 대상 성분은 열량, 탄수화물, 단백질, 지방, 콜레스테롤, 나트륨, 그 밖에 강조표시를 하고자 하는 영양성분으로 크게 7가지를 표시하도록 되어있다.


그림2. 식품 영양성분 예시(출처 : 서울특별시 어린이 식품안전)

국내외적으로 식품의 영양성분 정보는 정부의 식품 데이터베이스에서 제공받을 수 있다. 우리나라의 경우는 식약처에서 구축한 FANTASY DB(http://www.foodsafetykorea.go.kr)에서 확인할 수 있다. 식품별 영양성분 함량과 영양학적 조언 등의 정보들을 포함하고 있으며(그림3), 현재 약 13,713건의 정보가 등록되어 있는 것으로 확인된다.
미국은 USDA DB(https://ndb.nal.usda.gov/ndb)를 만들어 농업과 식품에 대한 정보들을 제공하고 있으며, 유럽의 경우도 EUROFIR DB(http://www.eurofir.org)를 구축하여 유럽 27개국의 식품정보들을 확인할 수 있는 플랫폼을 제공하고 있다. 국가 차원에서 이러한 식품 데이터베이스를 구축하는 이유는 여러 산업과의 연계뿐만 아니라, 신규 사업을 융성하기 위한 취지로 식품정보들을 제공하고 있다. 실제, 미국 기업 중 일부는 USDA DB를 활용하여 헬스케어, 다어어트, 질환 개선을 위한 다양한 애플리케이션을 개발하고 되고 있으며, 대표적으로 HealthWatch 360, CaloryGuard Pro, Nutrition complete 등이 있다.


그림3. 국내 식품 데이터베이스 (http://www.foodsafetykorea.go.kr)

영양성분 정보가 중요한 이유 중 하나는 대사체 정보를 중심으로 생리활성 정보들과의 연결이 가능하다는 점이다. 예를 들어, 우리나라 전통식품인 김치에 vitamin, carotene, ascorbic acid 등과 같은 성분들이 함유돼 있다고 했을 때, 이러한 정보들을 텍스트마이닝 기법을 활용하여 논문의 생리활성 효능 정보들과 연결하게 되면, 체내에서 식품이 특정 질병에 얼마나 효과적인지를 판단할 수 있는 정보가 될 수 있다(그림4). 이러한 정보들은 건강 기능성 식품 개발에 있어, 건강증진에 도움이 될 수 있는 물질을 효율적으로 탐색하고 선별하는데 활용될 수 있다. 또한, 자신의 질환 감수성에 따라 선별적으로 식품을 섭취할 수 있는 과학적 근거자료를 제시할 수 있다는 점에서 푸드케어 서비스 산업과의 연계가 가능하다.


그림4. 텍스트 마이닝 기법을 이용한 김치의 생리활성 정보 수집예시 (출처:직접 작성)


식품 영양유전체 정보
 
많은 연구자들이 식품의 영양성분과 유전자 간의 상호작용에 대하여 관심을 두기 시작했다. 과거의 식품 영양학은 각종 영양소의 구조 및 기능을 밝히는데 초점을 맞췄다면 영양 유전체학은 개인의 유전적 특성과 상관관계가 높은 식품을 권장할 수 있는 개인별 맞춤영양학 시대로 접어들고 있다. 이러한 배경에는 사람들이 가진 유전자의 다양성에 따라 영양소 대사가 개개인의 유전적 차이에 따라 다르게 나타난다는 것이 밝혀지고 있다. Cell지에 게재된 한 논문에서는 18~70세 800명을 대상으로 같은 음식 섭취를 하게 하고 혈액 내에 glucose양을 측정한 결과에서 개인별로 glucose를 흡수하는 정도가 다르게 나타나는 것을 보고한 바 있다(그림5). 이러한 결과들은 개개인의 타고난 유전적/표현형적 특성에 따라 식품이 대사되는 정도가 다르게 나타나는 예시라 하겠다.


그림5. 개개인의 특성에 따른 glucose 흡수량 변화 연구 결과
(출처 : Cell, Personalized Nutrition by Prediction of Glycemic Responses 2015)

식품 영양 유전체 정보는 앞으로 유전자와 표현형 그리고 영양성분과의 상관관계가 더욱 과학적으로 규명됨으로써 양질의 정보가 될 것으로 예측하고 있다. 이처럼 축적된 정보들은 건강유지와 질병 예방을 향상할 수 있는 맞춤 의료와 식품 산업을 계속해서 가속하고 있다. 최근 habit이라는 회사는 개인 유전자 검사를 통해 자신에 맞는 식품들을 컨설팅 및 판매하는 서비스를 런칭하였으며 점차 개인 유전자 맞춤화 식품정보를 활용한 헬스케어 서비스들이 증가할 것으로 예측된다.

그림6. 식품 영양 유전체 정보와 맞춤 식품
(출처: R&D 동향, '영양 유전체학의 이해 및 연구동향' 재구성)

영양 유전체 정보를 바탕으로 맞춤형 식품 정보를 제공한 국내 사례로는 한국식품연구원과 (주)인실리코젠에서 개발한 비만 인실리코푸드시스템(http://insilicofood.co.kr)을 들 수 있다. 비만 인실리코푸드 시스템은 개인의 표현형 정보(키, 몸무게, 허리둘레, 신체활동, 컨디션등)와 유전자형 정보를 기반으로 맞춤 식품 정보를 제공하는 시스템이다. 특징적인 부분은 목표 몸무게를 설정하면 현재 표현형 정보를 기반으로 이를 달성하기 위한 식단 구성이 가능하다는 점과 개인 유전자형 정보를 입력하면 유전적으로 비만에 얼마나 위험한지 확인하고 유전자형 정보에 맞는 식품 정보를 제공한다는 점이다. 또한, 한국식품연구원 오믹스 연구결과와 식품 정보를 연결시켜 제공해주기 때문에, 과학적 근거기반의 개인 맞춤 식품 정보 시스템 구축 사례라 하겠다.



그림7. 개인 유전체 정보기반 맞춤 식품 제공 시스템
(출처 : 비만인실리코푸드 시스템 웹사이트)


식품 이력 정보

갑자기 식품 이력 정보가 왜 나오지 하고 의아해할지 모르겠지만, 필자는 식품 빅데이터가 식품 정보의 생산부터 식탁에 올라오기까지의 정보를 포괄하는 의미를 식품 빅데이터라 정의하고자 한다. 식품의 이력 정보는 식품의 생산부터 유통까지의 일련의 정보들을 의미한다. 이러한 정보들은 안심하고 먹을 수 있는 먹거리를 만드는 데 필요한 정보이다. 우리나라는 현재 정부에서 축산물에 대한 이력제 정보 시스템을 운영하고 있다. 해당 시스템을 통해 소의 출생에서부터 도축, 포장처리, 판매에 이르기까지의 정보를 확인할 수 있다. 확인방법은 축산물 상품의 이력제 번호를 모바일/웹 애플리케이션에 검색하면 이력에 대한 정보들을 확인할 수 있다. 이러한 정보들은 위생과 안전에 문제가 발생하면 그 이력을 추적하여 신속하게 대처하기 위한 유용한 정보라 할 수 있다.


그림8. 쇠고기 이력 정보 활용예시

필자는 첫 도입 부분에 식품 데이터를 먹고사는 일이라고 표현했다. 식품 데이터는 단순한 정보의 개념에서 벗어나, 다양한 산업적 활용가치가 많은 정보기 때문이다. 중요한 것은 이렇게 많은 정보들로부터 우리는 어떤 가치를 만들어 낼 것인가이다. 식품빅데이터가 미래에 가져올 파장을 기대하며 이 글을 마무리하려고 한다.


Reference

  • 한국농수산식품유통공사, 외식트렌드 조사, 2013
  • 서울특별시 어린이 식품안전
  • Cell, Personalized Nutrition by Prediction of Glycemic Responses, 2015
  • R&D 동향, 영양 유전체학의 이해 및 연구동향



작성자 : R&D센터 DS그룹
이상민 주임 연구원

Posted by 人Co

2017/03/10 11:10 2017/03/10 11:10
, , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/237





일정

일시 : 2016년 10월 20(목)~ 10월 21(금)

장소 : KT인재개발원 1연수관 202호

내용

R의 기본 이론을 확립하고 실습을 통한 생물정보 기초 분석 능력을 습득할 수 있습니다.

(자세한 프로그램 내용은 http://kobicedu.labkm.net 참고)



신청방법

신청기간 : 2016년 10월 10(월) ~ 2016년 10월 12(수)

선발인원 : 30

교육대상 :

  1) 분석에 앞서 기초적인 R 초급 교육이 필요한 연구원 및 대학원생 등

  2) 모든 교육 일정에 참석이 가능한 교육생 (2일 일정 필수 참석)

선발안내 : 2016년 10월 13일(목) ~ 2016년 10월 14일(금)

교육비 : 무료 (중식 무료제공)

준비물 : 유무선 인터넷이 가능한 개인 노트북

신청방법

  - 온라인 신청 http://kobicedu.labkm.net

문의

  - ㈜인실리코젠 (031-278-0061, edu@insilicogen.com)

  - 문의게시판 이용 http://kobicedu.labkm.net/labboard/board/QnA



Posted by 人Co

2016/10/05 12:40 2016/10/05 12:40
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/224


관련기사
고추 매운맛 유전자, 국내 연구진이 밝혀냈다 2014.01.22 티브이데일리
고추 유전체서열 국내 독자 기술로 완성 2014.01.21 정책브리핑
고추 유전체서열 국내 독자 기술로 완성 2014.01.20 아시아투데이
고추 표준 유전체 염기서열 국내 기술로 완성 2014.01.20 연합뉴스
좀 더 맵고 맛있는 고추 나온다 2014.01.20 동아사이언스

논문바로보기
http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html

'고추' 하면 떠오르는 친근감은 비단 우리나라 뿐만이 아닐 것입니다. 고추는 세계적으로 사랑 받고 있고 영양학적인 가치 또한 우수하여 토마토, 감자와 함께 대표적인 작물 중 하나로 꼽히고 있습니다. 그러나 생물학자들에게는 대중적인 선호도 이외에 토마토, 감자와 함께 고추에서 밝히고자 하는 흥미로운 관심 거리가 있습니다. 서로 닮은 듯 아닌 듯 한 이들 세 작물은 모두 가지과 (Solanaceae)에 속하는 것으로 진화와 육종을 통해 얻어진 공통된 특성과 특이적인 특성을 각각 분자적으로 밝히기에 좋은 모델이 되기 때문인데요, 특히 토마토와 고추의 경우 흥미로운 연구거리가 가득합니다.
첫번째, 토마토의 경우 사과나 바나나와 같이 에틸렌 가스에 의해 후숙성이 촉진되는 climateric fruit 인 반면, 고추는 포도와 같이 후숙성이 촉진 되지 않는 non-climateric fruit으로 같은 가지과 작물로써 서로 비슷한 유전자 세트를 가지면서도 서로 다른 형태의 숙성과정을 거치게 되는 메카니즘은 무엇일까?
두번째, 토마토의 유전체는 약 900Mb정도인데 반해 고추는 약 3Gb에 달하는 거대한 유전체 사이즈를 갖는 이유는 무엇일까?
세번째, 고추의 대중적인 인기의 근간이 되는 매운맛 성분인 캡사이신의 생합성 경로는 어찌 될까? 이 런 모든 질문에 대한 해답이 최근 생물정보 컨설팅 전문기업인 (주)인실리코젠에서도 참여한 서울대 최도일 교수님 연구팀에서 Nature genetics 에 발표한 논문 Genome sequence of the hot pepper provides insights into the evolution of pungency in Capsicum species http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html 에서 모두 해결되었습니다.


논문에 많은 내용들이 있지만 그 중 후숙성 과실인 토마토와 그렇지 않은 고추와의 과실 숙성 메카니즘의 차이를 보여주는 마지막 메인 figure를 살펴보면, ripening 관련 유전자는 두 종 모두에서 보존되어 있으나 그림에서 보여지는 것과 같이 mRNA상의 발현의 차이로 (group I) 표현형의 차이가 유발된 것으로 나타났습니다. 이 중 주요 유전자는 ethylene이 생성되는 과정에 수반되는 유전자들의 발현이 고추에서 모두 저하되어 ethylene 생성이 저하되고 그로 인해 ethylene에의해 repression되는 CCS(capsanthin-capsorubin synthase)의 발현이 tomato에 비해 월등히 높게 나타나고, 결국 pepper-specific carotenoids인 Capsanthin, capsorubin의 합성이 높아 tomato와는 다른 표현형을 나타냈습니다. 반면, tomato에서는 CCS와 ortholog 관계를 갖는 CYC-B(chromoplast-specific lycopene beta-cyclase) 유전자의 발현이 ripening 과정 동안 ethylene의 높은 합성으로 인해 억제됨을 나타냄으로써 그 메커니즘을 밝혔습니다.


Comparative fruit ripening



이 외에도 고추에 많은 비타민 함량의 메커니즘이라던가, 토마토와 고추의 과실이 물러지는 차이의 원인 메커니즘과 같은 유전체 전문가가 아니더라도 흥미를 가질 만한 많은 내용이 담겨 있습니다. 물론 유전체 전문가(?)의 입장에서도 소중한 정보가 가득합니다. 사실 제가 마지막 figure만을 소개한 이유는 이 하나의 figure를 위해 수행되어야 하는 genome assembly(유전체 서열 완성), gene structure분석(유전자의 서열 및 구조, 유전자 기능, 유전체내 전체 유전자 세트), gene family분석(ortholog, paralog분석) , genome expansion분석( repetitive sequence분석), gene expression 분석(transcription factor분석, RNAseq 분석, pathway 분석), genome variant 분석(SNP, indel 분석), phylogeny 분석과 같은 많은 분석이 수반되어야 하고, 이러한 정보는 supplementary information에서 제공하고 있는 table 54개, figure 49개에 고스란히 담겨져 있음을 알려드리고 싶어서 입니다. 이들 데이터는 마지막 figure와 같은 많은 생물학자들에게 실마리를 제공할 리소스 데이터로 제공이 될 것이기에 그 잠재력이 더욱 큽니다.

Gene structure분석 파이프라인

유전자 구조 분석 파이프라인으로 고추 유전체 분석을 위해 고추의 mRNA(RNAseq, ESTs)서열,  단백질 서열, 토마토 및 감자의 단백질 서열, 애기장대, 포도 및 가지과 작물의 단백질 서열을 이용한 Evidence gene modeling과 여러개의 ''ab initio'' gene modeling (gene prediction)이 함께 수행되어 이들의 공통된 유전자 모델을 선정하는 combined gene modeling이 수행되었습니다. - (주)인실리코젠 지원


마지막으로 이번 연구의 가장 큰 성과라면, 순수 국내 연구진의 기술로 이뤄졌다는 점과 생물정보의 학문적 발전입니다. 식물의 유전체에는 유전자 영역 이외에 repeat 영역이 포유류나 균류, 미생물에 비해 매우 많이 존재하기 때문에 실제 유전체 서열을 완성하기에 매우 까다로운 조건을 갖고 있습니다. 단적으로 토마토, 감자의 경우 국제 컨소시엄을 통해 전세계 연구진의 협업에 의해 이뤄진 점만 보더라도 고추 유전체의 완성은 의미가 크다고 할 수 있습니다. 더욱이 유전체 크기가 토마토에 비해 3배이상 커지고 커진 대부분이 repetitive sequence에 해당하는 LTR retrotransposons 임을 감안하면 유전체 서열 어셈블리만 보더라도 많은 노력이 수반됐음을 알 수 있습니다. 실제, 오픈 소스 프로그램(SOAPdenovo, SSPACE, FLAKE)과 상용 프로그램(CLC Assmebly Cell; CLCbio사, 서울대, (주)인실리코젠의 공식 MOU를 통한 지원)이 모두 이용되었으며, 시퀀싱 또한 다양한 플랫폼/디자인으로 여러번의 수정과 시도를 반복하며 현재의 결과를 얻어냈습니다. 뿐만 아니라 유전자 구조 분석 또한 세계적인 수준의 분석이 진행되었으며 genome expansion, gene expression, 진화적론적인 phylogenetic 분석 모두 국내 연구진들의 몰입적인 연구를 수행한 결과라 할수 있습니다.
다시한번, 생물정보 컨설팅을 전문으로 하는 (주)인실리코젠의 입장으로 NGS라는 막강한 도구와 나날이 정신없이 발전하고 있는 생물정보학의 발전을 통해 보다 많은 좋은 소식이 있기를 기대해 봅니다.

(사진 : 연구에 함께 참여한 (주)인실리코젠 Codes 사업본부 구성원분들)


Codes사업본부 Research실
선임컨설턴트 신윤희 선임


Posted by 人Co

2014/01/28 22:07 2014/01/28 22:07

지난 3월 11일, (주)인실리코젠CLC bio사, 그리고 서울대학교 식물유전체육종연구소와의 NGS 데이터 분석을 위한 기술적인 정보 교환과 공동 연구 개발 및 컨설팅을 위한 프로모션 등의 내용에 대하여 MOU를 체결하였습니다.

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 서울대학교 식물유전체육종연구소의 소장님이신 고희종 교수님, CLC bio사의 아시아 마케 총괄 담당을 맡은 Wayne Hsu가 CEO인 Thomas Knudsen를 대신하여 참석하였으며, Next Generation Sequencing 기술을 바탕으로 한 식물의 게놈 분석을 위하여 그 동안 수행했던 프로젝트의 다양한 경험들과 기술적인 능력들을 공유하기로 동의하였습니다.

사용자 삽입 이미지
왼쪽부터 CLC bio사의 Wayne Hsu, 서울대학교 고희종 교수님, (주)인실리코젠의 최남우 대표이사님


서울대학교 식물유전체육종연구소는 막대한 양의 NGS genome 데이터 분석에 중요한 기술적인 문제를 해결할 수 있는 강력한 파트너들을 갖게 됨으로서, CLC bio사의 NGS 데이터 분석을 위한 생물적보학 솔루션과 (주)인실리코젠의 고품질의 컨설팅 서비스를 모두 지원 받을 수 있게 되었고 또한 국내에서 뿐만 아니라 국제적으로 생물정보학과 식물 과학 분야에서 중요한 경쟁력을 갖게 될 것으로 생각됩니다.


사용자 삽입 이미지
이번 MOU 행사는 한국과 아시아의 NGS를 이용한 유전체 연구에 새로운 장을 마련한 것으로, (주)인실리코젠CLC bio사서울대학교의 NGS 분석 관련한 프로젝트를 성공시키는데 최선의 지원을 해줄 것을 약속하였습니다.



Posted by 人Co

2010/04/12 17:52 2010/04/12 17:52

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

 2-1-1. SNP (Single Nucleotide Polymorphism) Analysis


 인간 유전체 상에 가장 많이 존재하는 형태의 다형성은 유전체상의 특정 염기서열 하나의 변화이며, 흔히 SNP(Single Nucleotide Polymorphism) 또는 단일염기다형성이라고 부른다. 한 논문에서는 SNP를 검출하는 방법을 다섯 가지로 요약해 나타냈다(표 2)[3]. 이러한 방법들의 공통된 특징은 유전자 또는 염색체 부위를 증폭한 산물에 대한 염기서열을 분석하고 여러 염기서열을 정렬하여 염기서열 차이로서 SNP 존재 여부를 확인하는 것이다. 이러한 관점으로 볼 때 정렬되는 서열이 많을수록 통계적으로도 안정적이며 명확한 variation을 분석할 수 있게 된다. 따라서 제한된 시간 동안 가장 많은 서열을 생산할 수 있는 NGS는 이에 가장 부합하는 분석 도구가 될 것이다.

사용자 삽입 이미지

또한 HapMap project에서 발표한 human 유전체의 SNP 분포를 확인해 보면 공개된 SNP의 약 34.1%에 해당하는 SNP가 30bp 안에 군집하여 분포한다는 것이다(그림 2)[8]. 이는 종전의 마이크로어레이 방식에서 NGS 방식의 SNP 탐색으로의 전환이 매우 필수적임을 시사한다. 그 이유는 마이크로어레이에 심어질 프로브 서열 내에 또 다른 SNP가 포함될 가능성이 매우 높으며 이러한 SNP는 고정되어 있는 프로브 서열로 인해 탐색이 되지 않는 치명적인 제한점을 NGS 방식의 시퀀싱을 통해 매우 효율적으로 해결할 수 있기 때문이다.

사용자 삽입 이미지
그림 2. Human Genome의 SNP 분포.
30bp 내에 많은 SNP이 군집을 이루며 모여 있다.

 Variation 분석에 적합하도록 시퀀싱이 수행되고 나면 실제 많은 reads를 이용한assembly가 수행되고 그 결과를 바탕으로 서열을 비교하여 variation 부분을 탐색하게 된다. 그 중 SNP 분석의 경우, 시퀀싱 중에 일어난 오류에 기인한 mis-match인지 variation으로 인한 mismatch 인지를 구별하기 위한 여러 가지 파라미터를 설정하게 된다. Mismatch frequency 및 coverage(해당 위치의 서열 coverage)를 중심으로 잠재적인 SNP를 선별하게 된다. 이때, 조금 더 정확한 SNP를 구별하기 위해 viewer를 통해 서열 퀄리티를 확인하는 경우도 발생하게 되는데, 다양한 플랫폼에서 생성된 reads들은 고유의 포맷을 유지하고 있고 대부분의 open source로 제공되는 프로그램들은 특정 플랫폼의 데이터만을 다루도록 하고 있어 이를 확인하기에는 어려움이 따른다. 또한 특정 SNP가 cSNP 인지 여부나 더 나아가 단백질 서열까지 변화되는 synonymous SNP 인지 여부를 판단하기에는 생물정보학자의 도움이 절실히 요구된다. 그러나 이러한 과정 모두를 해결해 줄 수 있는 프로그램들이 계속해서 개발되어지고 있다. 그 중 CLC NGS Cell과 CLC Genomics Workbench는 NGS 데이터의 assembly와 사용자 편의의 인터페이스를 통해 분석된 SNP의 아미노산 서열 변화 확인을 위한 translation 분석, SNP 검증을 위한 PCR 프라이머 디자인, in-silico 클로닝 등의 통합 분석을 생물정보 전문가가 아닌 일반 연구자들 스스로 진행할 수 있도록 하고 있다. 뿐만 아니라 assembly를 수행할 때 reference 서열을 이미 annotation이 완료된 ‘.gbk’ 데이터로 진행할 수 있어, SNP로 생각되는 유전자의 위치 및 이미 등록된 SNP 정보들까지도 표시하여 함께 확인할 수 있기 때문에 NGS 기술을 이용한 SNP 분석에 추천할 만한 분석 파이프라인이라고 하겠다(그림 3).

사용자 삽입 이미지
그림 3. SNP 탐색을 위한 CLC Genomics Workbench



다음 연재에서는 SNP(Single Nucleotide Polymorphism) 이외에 정상 표현형인 인간의 유전체에 존재하면서 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높은 유전자 복제수(Copy number) 변이 분석법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/17 14:37 2010/02/17 14:37

프로그래밍언어 파이썬(Python)과 웹프레임워크 장고(Django)는 당사 KM팀의 주요 개발 환경입니다. LabKM을 비롯한 다양한 프로젝트들이 파이썬과 장고를 이용하여 구현되었고, 개발중에 있습니다. 파이썬은 그 넓은 활용성과 다양한 적용분야와 활용사례에도 불구하고 국내에는 잘 알려지지 않았는데, 마침 파이썬이 어떤 언어인지 좀 알려달라는 고객분의 요청이 있어 간략히 소개하고자 합니다.

파이썬에 관하여,

파이썬은 동적형결정 객체지향 언어로 빠른 생산성과 다양한 라이브러리를 보유한 프로그래밍 언어입니다. 구글 내부에서 가장 많이 사용하는 언어로도 알려져 있습니다. 생물정보분야 및 각종 과학기술분야에 관련 라이브러리들이 잘 갖추어져 있어서, 과학기술용 어플리케이션을 만드는데 용이합니다.

개괄적인 설명은 위키피디아를 참조하시면 좋습니다.
 * 국문 : 파이썬
 * 영문 : Python

파이썬에 관련된 아래 포스팅들을 보시면, 실무경험자의 다양한 평가들을 확인할 수 있습니다.
 * 파이썬, 이슈에서 벗어나 대세로 자리매김
 * 프로그래밍 지형도를 바꾸는 파이썬
 * 파이썬을 배워야 하는 이유
 * 지식관리팀 주 개발환경 파이썬, 장고
 * 장고(Django)로 쉽고 빠른 웹개발

생물정보분야에도 많이 사용됩니다. 다음의 자료들을 확인해보세요.
 * 생물학 + 전산학 = 생물정보학 :
 * Python programming for Bioinformatics :
 * Python for Bioinformatics (서적)

인실리코젠에서 구축한 시스템 사례들도 있습니다.
 * 국립문화재연구소 고대유전자원정보시스템  (since 2009-11)
 * 국방부조사본부  6-25전사자유전자정보검색시스템 (본부 내부, 2009-11)
 * 가축유전자원시험장 가축유전자원종합관리시스템 (since 2009-01)
 * KIST 독성유전체분석시스템 (since 2009-02)
 * 대한환경위해성보건과학회 온라인논문투고 및 학회홈페이지 (since 2008-10)
 * 대한독성유전단백체학회 온라인논문투고 및 학회홈페이지 (since 2007-06)

인실리코젠 KM팀은 생물정보(과학기술용) 파이썬 라이브러리를 발전시키고 기술을 축적하며, 다양한 사용자의 요구사항의 반영이 용이하도록 준비함으로써 수준높은 웹 어플리케이션을 구현하고자 합니다. 많은 성원을 부탁드립니다.

Posted by 人Co

2010/02/12 17:17 2010/02/12 17:17
, ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/39

[Quipu Issue Paper] Assembly Ⅱ - De novo assembly

연재 순서

  1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 두 번째 연재로 NGS Assembly 중에 De novo assenbly에 대해 알아보도록 하겟습니다.

 1-1-2. De novo assembly    


 Human genome project 이후 다양한 종에서 Whole Genome Sequencing(WGS)이 진행되고 있다. 고전적인 방법으로 BAC library를 제작하여 샷건 시퀀싱으로 진행되던 방식이 NGS 시대에 들어 새롭게 진화하였다. 일예로 Dr. Andreas는 ‘Corynebacterium kroppenstedtii’의 유전체 시퀀싱을 단 7.5 시간 만에 수행하고 자동화된 genome annotation 파이프라인을 통해 단 3일 만에 논문으로 발표하였다[13]. 그러나 아쉽게도 미생물을 제외한 대부분의 종에서는 아직까지 NGS를 이용한 de novo assembly로 유전체 시퀀싱을 완성한 팀은 없다. 짧은 reads의 제한적인 정보로 복잡한 유전체 구조를 모두 밝히기엔 어려움이 따른다. 따라서 reference가 없는 새로운 종을 시퀀싱 할 경우에는 짧은 reads를 생성하는 Solexa나 SOLiD보다는 Roche 454를 이용한 long reads 시퀀싱이 유용하다. 2009년 10월 현재 Roche 454의 GS Titanium의 경우 평균 read 길이가 350bp에 달하고 최대 700bp까지 시퀀싱을 수행한다고 한다[8]. 단, 유전체 구조상 반복 서열 영역과 같은 서열상의 정보로만 분석 되지 않는 부분은 paired-end reads의 fragment size를 다양하게 디자인하여 long reads와 함께 분석 하여야 한다. 이렇게 de novo assembly의 경우 long reads와 short paired-end reads를 동시에 처리할 수 있어야 하므로 assembler 또한 이들 모두를 처리할 수 있어야 한다.

사용자 삽입 이미지

대표적인 de novo assembler로 Velvet(Solexa bundle program)[9], Newbler(454 bundle program)[10], ABySS[11], CLC NGS Cell, 그리고 고전적인 프로그램인 Phrap을 들 수 있다. 이들 assembler의 특징에 대해 좀 더 자세히 살펴보기 위해 다음의 몇 가지 조건을 기준으로 살펴보았다. 단, phrap의 경우 NGS reads의 특성상 대량의 데이터를 처리하기엔 메모리와 속도 면에서 비교하기가 어려울 만큼 효율적이지 않은 점을 고려하여 이후 비교 분석에서는 제외하였다.

사용자 삽입 이미지
  최근 de novo assembler의 개발이 가속화 되면서 human 유전체를 대상으로 de novo assembly에 성공한 사례가 발표 되었다. CLC NGS Cell[12]과 ABySS[11]가 그 주인공으로 Illumina의 paired-end reads를 분석에 이용하여 38X의 human 유전체를 완성 하였다고 밝혔다. 그 두 프로그램의 결과를 비교해 보면 표 4와 같다. CLC NGS Cell은 최근 2.0에서 3.0 beta 버전으로 업그레이드되면서 de novo assembly에 놀라울 만큼의 결과를 향상 시켰다[12]. 단적으로 38X나 되는 많은 데이터를 de novo assembly로 분석하는데 단 78시간(CPU time)밖에 소요되지 않았다는 것만으로도 매우 놀라운 일이다(표 4).

 이는 ABySS와 비교했을 때 약 172배가 빨라진 결과이다[12]. 뿐만 아니라 분석된 contig의 품질을 살펴보면 100bp 이상 되는 contig는 ABySS 보다 많으며 최대 contig 길이 면에서 1.7배 긴 contig를 생성하고 있다. N50 또한 서로 비슷한 결과를 보여 주고 있어 단순히 빠른 속도만을 내세우는 프로그램이 아닌 분석 결과에 대한 정확성 면에서도 믿음을 주고 있다. 이를 한 번 더 검증하기 위해 짧은 유전체를 대상으로 Velvet과의 정확성 테스트를 다시 수행하였다. 그 결과 Velvet의 부정확한 assembly에 비해 CLC NGS Cell은 모두 정확한 assembly를 수행하였음을 확인 할 수 있었다(표 5)[12].

비슷한 결과로 Shizosaccharomyces pombe 132, Fungi 유전체를 대상으로 테스트한 결과에서도 CLC NGS Cell이 Velvet 보다는 좋은 결과를 보였다(표 6)
. 마지막으로 long reads와 short reads를 동시에 분석하여 복잡한 유전체 구조를 분석 할 때 서로 다른 데이터 플랫폼이 함께 분석되어야 한다. 이를 위해 GS titanium과 Illumina 데이터(Solexa)를 다양한 비율로 구성한 테스트 세트를 이용하여 분석하였다(표 7).

사용자 삽입 이미지
  분석 결과 long reads 구성이 많을수록 긴 contig를 구성하는 것을 확인할 수 있었다. 그러나 여기서 보여지진 않았으나 반복서열 영역과 같은 시퀀싱이 쉽지 않은 영역의 데이터를 long reads 보다는 short reads에서 확인할 수 있었다. 따라서 두 가지 플랫폼의 장점을 모두 수용할 수 있는 assembler를 선택하여 분석의 정확성을 높이는 것이 좋을 듯하다.

사용자 삽입 이미지




 1-1-3. Workflow


 NGS 데이터의 분석 단계는 크게 pre-processing, assembly, 그리고 assembly를 이용한 이차 분석으로 나눠진다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired reads 그리고 unpaired reads들의 정보를 assembly 단계에 적용하기 위한 작업을 수행한다. 대부분의 assembler는 대용량의 데이터 처리를 위해 index 파일을 자체 프로그램에 맞게 생산하는 단계를 거치거나, 다양한 플랫폼에서 생산된 데이터를 특정 포맷의 입력 포맷으로 전환하는 과정을 수행한다. 그러나 이러한 과정은 자칫 시퀀싱 자체의 raw 정보를 유실하는 경우가 발생할 수 있으므로 assembler의 기능을 면밀히 살펴 최대한 정보를 그대로 보존할 수 있는 assembler를 선택하는 것이 좋다. 그중 CLC NGS Cell은 대부분의 시퀀싱 raw 파일을 입력 포맷으로 지원하므로 이러한 정보 손실을 줄여 줄 수 있는 이점이 있다. 더욱이 zip file 형태의 파일을 바로 입력 포맷으로 지원하므로 분석 단계에서의 파일 관리가 수월한 점도 장점이라 하겠다.

 다음으로 assembly 과정에 대해 알아보자. NGS reads의 assembly는 제한적인 computing power를 고려하여 데이터를 여러 개로 분리하여 반복 수행하게 된다. 이후 이들 assembly 결과를 하나로 합치는 과정을 통해 전체적인 assembly을 완성한다. 대부분의 프로그램이 한 번의 명령어 수행으로 contig 서열 혹은 assembly 파일을 얻을 수 있다.
그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

 마지막으로 assembly 결과를 이용한 다양한 이차정보 분석이다. SNP와 같은 variation 분석, assembly 결과를 보여주는 그래픽 인터페이스 그리고 assembly quality 정보 분석이 주로 수행된다. 그 중 assembly quality는 reference assembly의 경우 assembly에 참여된 reads의 coverage와 fold로 나타낼 수 있으며 de novo assembly의 경우 N50 및 fold value가 지표가 될 수 있다. 이러한 분석 역시 간단한 명령어 수행으로 대부분의 프로그램에서 수행하고 있다(그림 3).


사용자 삽입 이미지
그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

또한 그림 4는 alignment 결과와 그에 따른 SNP evidence를 그래픽 인터페이스를 통해 보여주고 있다. CLC NGS Cell은 reference assembly 수행 시 유전자 구조 및 기능 정보를 담고 있는 NCBI의 genbank 포맷의 파일을 reference 파일로 입력 받을 수 있는데, 이를 이용하게 되면 assembly 수행 후 결과를 CLC Genomics Workbench를 통해 유전자 위치와 alignment 된 reads 정보를 따로 그래픽 인터페이스를 제작하지 않고도 쉽게 확인 할 수 있다. 또한 SNP 정보를 함께 CLC Genomics Workbench를 통해 확인할 수 있어 바로 프라이머를 제작하는 등의 차후 분석이 가능하도록 돕고 있다.

사용자 삽입 이미지
그림 4. CLC Genomics Workbench를 이용한 alignment view 와 SNP view. Reference assembly 수행 시 annotation 정보가 있는 .gbk 파일을 이용하여 분석한 후 assembly 파일을 Genomics Workbench를 통해 확인하면 유전자의 위치와 함께 alignment reads의 상세정보를 확인 할 수 있다. 아울러 SNP 정보 중 cSNP의 경우 translation 정보를 활용하여
non-synonymous/synonymous SNP를 구분하여 분석 할 수 있다.



다음주 연재에서는 Assembly에 이어서 Assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행하는 variation study에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
 2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
 3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
 4. CLC NGS Cell : http://www.clcbio.com
 5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
 6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
 7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 8. Roche 454 : http://www.454.com/
 9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
 10. Newbler : 454 bundle program
 11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
 12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
 13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
 14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
 16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
 18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.










                         

Posted by 人Co

2010/02/12 08:54 2010/02/12 08:54
, , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/37

연재 순서

  1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 첫 번째 연재로 NGS Assembly 중에 Reference assenbly에 대해 알아보도록 하겟습니다.

1. Next Generation Sequencing?



 1-2. Assembly


 Next Generation Sequencing(NGS)으로 인한 무제한적인 서열 데이터 생산은 이후 생물정보학적 분석의 가장 큰 도전 과제가 되었다. 일차적으로 많은 양의 데이터 관리부터 분석과정 마다의 computing 속도가 문제로 제기 되었다. 그중 가장 첫 번째 단계가assembly이다. NGS 서열의 assembly는 그 목적에 따라 크게 reference assembly와 de novo assembly로 구분 지어진다. Reference assembly의 경우 variation 및 epigenetics 연구에 주로 이용되고 de novo assembly의 경우 기존의 genome project에서 진행하던 whole genome sequencing에 이용되고 있다. 세부적인 내용을 다음에서 알아보자.


  1-2-1. Reference assembly


 Re-sequencing을 통한 기존의 reference 서열과의 비교로 유전체 상의 variation 연구를 목적으로 진행하는 시퀀싱은 주로 single reads를 얻는 시퀀싱 보다는 paired-end 시퀀싱이 수행된다. 그 이유는 다양한 질병 관련 유전자의 SNP 및 CNV 분석을 위해서는 single reads 보다는 paired-end reads가 더 유용하기 때문이며, 이들 데이터는 앞서 언급한 다양한 플랫폼에서 생산되고 있다. 이렇게 생산된 NGS 데이터를 분석할 수 있는 프로그램은 오픈 소스로 제공 되는 것과 그렇지 않은 것들로 여러 개가 존재한다. 그 중 오픈 소스로 제공하는 SOAP[1], MAQ[2] 그리고 ZOOM[3]은 paired-end short read에 최적화 되어 있고, Newbler는 long reads인 454 reads에 최적화 되어 있다. 이렇게 대부분 특정 NGS 플랫폼에서 생산된 데이터만을 다룰 수 있도록 고정화되어 있는 것에 반해 CLC bio사의 CLC NGS Cell[4]은 언급된 모든 플랫폼의 데이터를 분석할 수 있는 장점이 있다[14]. 이들 프로그램에 대하여 좀 더 자세히 알아보자.

 NGS assembly 프로그램을 평가하는데 있어 가장 큰 이슈는 분석 속도와 결과의 정확성, 그리고 그 외 분석의 용이성을 들 수 있다. 이들에 대한 비교 분석을 위해 표 1에서 보여 지는 paired-end의 short reads을 대상으로 여러 가지 분석을 수행하였다. 이러한 분석은 64-bit Xeon E5420 CPUs에 32 GB memory system에서 수행되었다[1].

사용자 삽입 이미지
첫 번째인 분석 속도에서는 CLC NGS Cell이 가장 빠른 것으로 평가 되었다(표 2)[5].
SIMD 기술을 이용한 병렬 데이터 처리로 속도 면에서 월등히 높은 성능을 나타내었다. 그 외 SOAP의 경우 reference 서열을 2-bit로 전환하여 index 파일을 이용한 연산 처리로 좋은 결과를 보이고 있다(2009.11 현재 SOAP의 경우 업그레이드를 통해 분석 속도가 많이 향상 되었다).

사용자 삽입 이미지
  특히, Maq의 경우 Illumina와 SOLiD의 paired-end reads를 대상으로 human 유전체에 맵핑할 경우 CPU time으로 10 시간 동안 백만 개 paired-end reads를 assembly 할 수 있다고 밝혔다[2]. 같은 시험을 위해 자체적으로 SOLiD reads를 대상으로 CLC NGS Cell을 이용하여 분석했을 때 CPU time으로 5시간 28분에 분석이 완료됨을 확인하였다.  두 번째로 NGS read의 alignment 비율 및 정확성을 살펴보았다. 최근 논문 PLoS ONE에 기재된 ‘Mapping Accuracy of Short Reads from Massively Parallel Sequencing and the Implications for Quantitative expression Profiling’에서는 BLAT[15], SSAHA2[16], Bowtie[17], SeqMap[18], MAQ, CLC NGS Cell을 대상으로 다양한 종의 데이터로 프로그램의 정확성을 다각도로 분석한 결과를 발표 하였다[6]. 그 결과 그림 1에서 보여 지는 것과 같이 SSAHA2와 CLC NGS Cell이 높게 평가되었다. 이 중 SSAHA2는 Sanger institute에서 개발된 프로그램으로 현재 SOLiD data를 제외한 모든 플랫폼의 데이터를 분석할 수 있다[7]. 기본적으로 Smith-Waterman alignment를 수행하며 2-bit로 전환하여 정확한 assembly를 수행한다. 그 다음 CLC NGS Cell은 모든 플랫폼의 데이터를 처리함과 동시에 SSAHA2와 같이 안정적으로 reads 길이에 관계없이 정확한 assembly를 수행하고 있다. 또한 특이할만한 점은 yeast, drosophila, arabidopsis 그리고 human을 대상으로 한 다양한 데이터로 short reads와 long reads(>50bp)에 대한 프로그램 성능을 비교 하였음에도 불구하고(MAQ: short read만이 분석 가능), 프로그램별로 일관성 있는 결과를 보여주고 있다는 것이다. 각기 다른 종과 read 길이로 약간의 차이는 보이나 전반적으로 동일한 분석 패턴을 보이고 있어, 이는 곧 데이터의 특성보다는 프로그램별 알고리즘의 차이가 분석 결과에 더 많은 영향을 미치는 것으로 해석된다. 따라서 NGS를 이용한 분석에서 다양한 프로그램을 이용하여 분석 파이프라인을 구축하는 것 보다는 사전에 충분한 테스트를 통해 동일한 알고리즘으로 구성된 프로그램을 이용하는 것이 결과의 안정성과 정확성을 높일 수 있는 하나의 방법이 될 수 있겠다.      

NGS를 이용한 연구에서 특히 re-sequencing을 하는 경우 대부분 유전체 상의 variation 연구를 목적으로 진행된다. 따라서 re-sequencing된 데이터는 기존의 reference 서열과는 다른 variation을 가지는 특성이 있으므로 이를 고려한 assembly 알고리즘이 필요하다.


사용자 삽입 이미지

그림 1. 프로그램별 다양한 데이터 셑으로 구성된 reference assembly 시험 결과. 회색바는 alignment 된 비율, 붉은색바는 부정확한 alignment를 각각 나타낸다

사용자 삽입 이미지

그림 2. Reads의 다양한 mutation 비율에 따른 mapping의 정확성 시험. Drosophila genome과 transcripts를 reference로 하여 reads의 mutation 비율을 각각 3%, 6%, 9%로 조정하여 mappping을 수행. 회색바는 alignment된 reads의 비율을 의미하며 붉은색 바는 부정확하게 alignment된 비율을 나타낸다.

그림 2에서는 각 프로그램별 variation을 고려한 assembly 결과를 보여주고 있다[6]. Drosophila의 transcripts와 유전체 서열을 각각 reference로 하고 mutation 비율이 각기 다른 NGS reads를 맵핑하여 프로그램의 정확성을 확인 하였다. 이도 역시 CLC NGS Cell과 SSAHA2가 가장 우수한 결과를 보이고 있다. 그러나 CLC NGS Cell의 경우 mutation 비율에 상관없이 안정적인 정확성을 보이고 있는 반면, SSAHA2는 mutation 비율이 커짐에 따라 정확성이 떨어지는 문제점을 들어내고 있다. 따라서 SSAHA2를 이용할 경우 사전에 데이터의 특성을 미리 파악하여 적절히 이용하는 것이 좋을 듯하다.

마지막으로 분석의 용이성을 여러 가지 측면으로 살펴보았다. NGS 분석을 목적으로 개발된 MAQ, SOAP, 그리고 CLC NGS Cell은 모두 웹에서 다운로드가 가능하다. 이 중 CLC NGS Cell은 압축만 해제하면 바로 실행할 수 있는 바이너리 파일을 제공하고 있고, SOAP과 MAQ은 각각 압축 해제 후 compile을 통해 쉽게 설치가 가능하다.

이 후 분석에 필요한 입력 데이터 형식은 CLC NGS Cell이 가장 호환성이 좋아 FASTA, FASTQ, csfasta(SOLiD), Scarf, Sff의 모든 형식의 파일을 입력 받을 수 있었으며 SOAP과 MAQ은 각각 프로그램에 맞는 형식이 따로 존재하여, 이들 형식으로 전환할 수 있는 프로그램을 따로 제공하고 있는 실정이다. 이때 paired-end reads의 경우 분석 결과의 신뢰성과 정확성을 높이기 위해 assembly 수행 전에 서열이 쌍으로 존재하는지 여부를 체크하게 되는데, 이를 점검할 수 있는 프로그램을 CLC NGS Cell과 MAQ은 제공하고 있다. 이는 분석자에게 NGS reads의 전처리 과정을 수월하게 진행할 수 있게 하는 편의성도 고려된 것이다.

Reference 서열 또한 CLC NGS Cell은 FASTA 형식과 genbank 형식의 파일을 바로 입력 받을 수 있는 장점을 가지고 있으며, 나머지 프로그램은 각각의 형식으로 전환할 프로그램을 제공하여 한 번의 분석 단계를 더 수행하도록 되어있다. 그 외 분석에 필요한 옵션사항은 약간의 차이를 보일뿐 큰 차이는 없었으나, 다음 분석을 위한 assembly 결과 파일의 데이터 호환성에서는 CLC NGS Cell과 MAQ이 SOAP보다는 우위를 나타내었다. 마지막으로 NGS 분석 프로그램에서 중요하게 체크해야 할 사항 중에 하나는 assembly 과정을 나눠 진행하고 이후에 결과를 하나로 합쳐 볼 수 있는 기능이 있는지를 살펴보는 것이다.

제한된 computing power로 이처럼 큰 사이즈의 유전체 서열과 NGS reads를 분석해야 하므로 한 번에 데이터를 분석 한다는 것은 매우 어려운 일이다. 따라서 가능한 분산 처리로 데이터를 나눠 분석하고 이들을 통합할 수 있는 기능이 있어야만 한다. 다행히 이러한 기능은 CLC NGS Cell(join_assemblies)과 MAQ(mapmerge)에서 제공을 하고 있었다. 이들 각각의 특징은 표 3에서 자세히 확인할 수 있다.

사용자 삽입 이미지

다음 연재에서는 Reference assembly에 이어서 NGS Assembly 중에 de novo assembly에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.


참고문헌


 1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
 2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
 3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
 4. CLC NGS Cell : http://www.clcbio.com
 5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
 6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
 7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 8. Roche 454 : http://www.454.com/
 9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
 10. Newbler : 454 bundle program
 11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
 12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
 13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
 14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
 16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
 18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.



Posted by 人Co

2010/02/09 11:17 2010/02/09 11:17

사용자 삽입 이미지
안녕하십니까?

생물정보 컨설팅 전문기업 (주)인실리코젠입니다.
저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 있습니다. Frederick Sanger에 의해서 시퀀싱 기술이 개발된 이후 오랜 기간 동안 많은 종의 유전정보가 밝혀져 왔습니다. Human Genome Project가 완성되었으며, 아직도 수많은 동물, 식물, 미생물에 대한 시퀀싱이 전 세계에 걸쳐 진행되고 있습니다. 최근에는 생산성을 획기적으로 개선한 Next Generation Sequencing (NGS) 기술이 개발되어 기존에 비해 시간과 비용을 비약적으로 줄일 수 있게 되었습니다. NGS 기술은 단순히 시퀀싱의 방법만을 바꿔놓은 것이 아니라 유전체 연구의 새로운 토대를 만들어가고 있습니다. 하지만 아직도 NGS 기술이 기존의 분석 방법에서 어떠한 변화를 가져오는 것인지, 어떠한 분석 전략이 필요한 것인지 궁금해하는 연구자분들도 많은 것이라 생각됩니다. 'NGS 시대의 분석 전략 2'라는 제목으로 발간된 Quipu Issue Paper 2호에서는 앞서 말씀드린 NGS에 대한 기본적인 이해를 도울 수 있도록 다양한 변화를 습득하고 하고 계시는 연구에 조금이나마 도움이 되기를 바랍니다. 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.

기술 소식지 연재는 블로그를 통해 2월 8일부터 시작되어 약 9주에 걸쳐 진행될 예정입니다. 연재 순서는 아래와 같습니다.

많은 관심 부탁드립니다.
감사합니다.

연재 순서

  1. Assembly
  2. Variation study
  3. Expression study
  4. Epigenomics
  5. Genome Annotation
  6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
  8. Semantic Network for Integrated Biology Data
  9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis



(주)인실리코젠 Codes팀
Tel : 031-278-0061 / E-mail : codes@insilicogen.com

Posted by 人Co

2010/02/05 09:18 2010/02/05 09:18
, , , , , ,
Response
No Trackback , 1 Comment
RSS :
https://www.insilicogen.com/blog/rss/response/35