역사를 보면, 인류는 어떤 상황 속에서도 교육을 항상 지속하여 왔습니다.
그러한 교육에 대한 열정이 있었기에 현재의 문명을 이룰 수 있었다고 생각합니다.

COVID-19 상황이 지속되는 가운데 (주)인실리코젠은 철저한 방역지침을 준수하며, 생물정보 인재양성 프로그램을 진행하였습니다. 7월 6일부터 8월 14일까지 6주간 진행된 프로그램의 생생한 후기 함께 보겠습니다.





























작성 : 人CoINTERNSHIP 제11기 수료생
이가희, 이솔휘, 이주연, 진종현, 황성경

Posted by 人Co

2020/08/26 09:00 2020/08/26 09:00
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/355

[Fig.1] 인실리코젠 IX팀
(출처:(주)인실리코젠)

올해 인실리코젠의 Descign(Design+Science+Management)팀 명칭이 IX팀으로 개편되었습니다. IX는 다양한 기술을 통합(Integration)하여 상호작용(Interaction)적인 서비스와 혁신적인(Innovation) 사용자 경험을 디자인하는 부서로 변화하였습니다. 금일 준비한 포스트도 부서의 방향성과 어울리는 콘텐츠로 준비하였습니다.

사용성 테스트의 니즈

[Fig.2] Usability Testing Illustration

편리한 시스템과 서비스를 디자인할 때 필요한 요소 중 하나는 사용성 테스팅(Usability Testing) 입니다. 테스팅은 예측하지 못했던 문제나 유저(User)들의 어려움을 찾아낼 수 있도록 도와주는 데 큰 역할을 합니다. 그럼 언제 사용성 테스트를 진행하는 것이 좋을까요? 일반적으로 디자인(기획) 단계에서 구상한 아이디어를 프로토타입 하여 진행합니다. 테스트 과정 중에 문제를 미리 발견하여 기업이 투여 시간과 비용적인 손실을 최소화할 수 있게 도와주기 때문입니다. 현재 이를 도와주는 다양한 테스팅 방법들이 존재합니다. 그중 Wizard of Oz(WOZ) 테스팅 기법을 소개해 드리려 합니다.

Wizard of Oz(WOZ) 테스팅은 어떤 건가요?


[Fig.3] Wizard of Oz Film

누구나 한 번쯤은 오즈의 마법사(Wizard of OZ) 영화를 보셨을 것입니다. 이쯤 되면 테스팅 방법과 오즈의 마법사 스토리와의 연관성에 대해 궁금증이 생기실 듯합니다. 극 중 마법사인 오즈는 자신의 진짜 모습(서커스에서 마술하는 사람)을 복화술로 숨기고 엄청난 대마법사인 것처럼 모두를 속입니다. 마법사 오즈처럼 Wizard of Oz 테스팅도 사용자들이 실제 개발되지 않은 서비스를 실존하는 서비스처럼 착각하게 하여 테스팅을 진행하는 방법입니다. 아래 IBM의 ‘The listening type writer’ 일러스트 이미지를 보시면 조금 더 이해가 되실 겁니다. 사용자가 컴퓨터 마이크에 “Dear Henry”라고 말을 하면 커튼 뒤에 또 다른 사람(wizard)이 직접 사용자의 말을 듣고 타이핑을 해줍니다. 이를 모르는 사용자로서는 컴퓨터가 출력해주었다고 생각하며 편리한 기능이라고 생각할 것입니다.

[Fig.4] Wizard of Oz Prototyping

어떻게 활용되나요?

WOZ 방법론은 가설을 빠르게 검증할 수 없는 AI(인공지능) 프로젝트에서 많이 활용되며 데이터가 없거나 기술이 완벽하지 않은 상황에서도 테스트를 진행할 수 있습니다. 또한, 시스템에 대한 사용자의 반응을 확인하며 반복적인 테스트를 통해 사용자 경험을 점진적으로 발전시킬 수 있습니다. 테스팅을 진행하기 전 명심해야 할 부분은 얻고자 하는 인사이트가 무엇인지 결정하는 것과 테스트 시 사용자들이 느끼기에 그럴듯하게(Believable) 프로토타입을 제작해야 합니다. 그리고 너무 복잡한 인터페이스 보다는 간단한 형태의 기능을 테스트하는 것이 효율적입니다.

인실리코젠에서는 생물정보를 활용하여 다양한 시스템을 개발하고 있습니다. 사용자 친화적이며 효율적으로 서비스를 디자인 및 개발을 하기 위하여 WOZ 방법론에 대해 알아보았습니다. 향후 직접 프로젝트에 적용해본 후 그 효과나 장단점에 대해서 알려드리겠습니다.

출처

[Reference 1] "Wizard of Oz testing – a method of testing a system that does not yet exist.", 2020년 6월 10일 접속, https://www.simpleusability.com/inspiration/2018/08/wizard-of-oz-testing-a-method-of-testing-a-system-that-does-not-yet-exist/

[Reference 2] "Making the machine believable: Wizard of Oz-ing AI applications.", 2020년 6월 12일 접속, https://uxdesign.cc/making-the-machine-believable-wizard-of-oz-ing-ai-applications-293cfbb0f244

[Reference 3] "[인공지능 in IT] 인공지능 UX 디자인 – 디자인 프로세스로 사용자 경험 설계하기.", 2020년 6월 12일 접속, https://www.donga.com/news/article/all/20190515/95530568/1

작성 : IX Team 김지인 주임 UX/UI 디자이너

Posted by 人Co

2020/06/22 14:14 2020/06/22 14:14
, , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/349

 
최근 여러 분야에서 딥러닝에 대한 관심이 많아지고 있습니다.
생물정보 분야에서는 MRI나 CT 같은 의료 이미지로 학습한 뒤, 질병을 진단하는 연구가 많이 진행되고 있습니다. 그렇다면 이미지를 이용한 딥러닝은 어떤 방식으로 진행될까요?

이미지 딥러닝은 어떠한지 알고 싶어도 코드 위주의 설명이 많아, 코드가 익숙하지 않은 분들은 시작부터 벽이 세워진 느낌이 드셨을 거예요.
코드가 익숙하신 분이시든 그렇지 않은 분이시든 이미지 딥러닝의 입문자분들께 개념 잡는 것에 대해 조금이나마 도움이 되셨으면 하여 알고리즘 개념 설명 위주로 이 글을 준비하였습니다. 그럼 이미지 딥러닝을 하기 위한 알고리즘에 대해 알아보기에 앞서, 컴퓨터는 이미지 파일을 어떤 방식으로 인식하는지에 대해 알아볼까요?
 
 


우리가 이미지를 인식하는 방식과 컴퓨터가 이미지를 인식하는 방식은 많이 다릅니다. 우리는 이미지를 눈에 보이는 모습을 그대로 받아들이지만, 컴퓨터의 경우는 숫자로 된 형태로 인식합니다. 숫자는 색의 명암을 나타내며, 0에 가까울수록 어두운색이고 255에 가까울수록 밝은색입니다. 그렇다면 색상은 어떻게 표현할까요? 흑백 이미지의 경우에는 1개의 채널로, 컬러 이미지의 경우엔 RGB(R-Red, G-Green, B-Blue) 3개의 채널로 빨강, 초록, 파란색 각각의 명암을 이용하여 이미지의 색상을 표현합니다.


[그림 1] 컬러 이미지의 구조 - Insilicogen (IX Team)

컬러 이미지는 각 픽셀을 채널별로 실수로 표현된 3차원 데이터입니다. 흑백 이미지는 2차원 데이터로, 1개의 채널로만 구성되어 있습니다.
[그림 2] 컬러 이미지의 3차 구조
위의 그림처럼 높이가 4 pixel, 폭이 4 pixel의 이미지일 경우,
 
컬러 이미지 데이터의 shape은 (4, 4, 3)
흑백 이미지 데이터의 shape은 (4, 4, 1)
 
로 표현합니다.
 
컴퓨터가 이미지를 어떤 방식으로 인식하는지에 대해 간단하게 알아봤습니다. 그럼 이제 이미지 딥러닝에선 어떤 알고리즘이 주로 사용되는지 알아볼까요? 딥러닝을 이용하여 이미지를 분류할 때에는 주로 CNN(Convolutional Neural Network) 알고리즘이 많이 사용되고 있습니다. 그렇다면, 이 CNN 알고리즘이 나오기 이전에는 어떻게 학습을 했을까요?
 

  
 
CNN 알고리즘 이전에는 Fully-connected Multi-layered Neural Network의 학습 방식을 이용하여 이미지 딥러닝을 수행했습니다.
 
[그림 3] Fully-connected Multi-layered Neural Network
형상을 가졌는지에 대해 알 수 없고, 각각의 픽셀을 1차원적으로 보게 됩니다. 이러한 학습 방식으로 인하여 이미지의 크기가 커져서 픽셀의 수가 많아진다거나 은닉층(Hidden layer)의 수가 증가하면 학습시간 및 학습해야 하는 매개변수(Parameter)의 수가 기하급수적으로 증가하게 됩니다. 또한, 이미지가 살짝 회전되었거나 gif처럼 이미지가 움직이는 상태라면 이를 같은 이미지라고 인식하지 못하므로, 조금이라도 변화가 생길 때마다 새로운 입력으로 이미지 데이터를 처리해 주어야 합니다. 그럼 이미지를 분류하기 위해 Fully-connected 학습 방식처럼 이미지의 모든 픽셀이 꼭 중요할까요? 그렇지 않습니다. 이미지의 특성을 찾는 데에 중요하게 작용하는 픽셀이 있지만, 단순히 배경인 부분이라 픽셀 정보를 가지고 있지 않더라도 이미지를 구분하는 데 큰 영향을 주지 않기 때문입니다. 이미지 분류를 하는 데 중요하지 않은 픽셀은 제거하고 학습을 하기 위해 고안된 알고리즘이 바로CNN(Convolutional Neural Network)입니다.
 

 
 
그렇다면 CNN 알고리즘은 어떠한 구조를 이루고 있을까요?
 
 
[그림 3] CNN 알고리즘의 구조
 
CNN은 크게 이미지의 특징을 추출하는 부분과 클래스를 분류하는 부분으로 나뉩니다. 특징 추출 영역은 합성곱층(Convolution layer)과 풀링층(Pooling layer)을 여러 겹 쌓는 형태(Conv+Maxpool)로 구성되어 있습니다. 그리고 이미지의 클래스를 분류하는 부분은 Fully connected(FC) 학습 방식으로 이미지 분류를 합니다.
 

 
 
합성곱이란, 주어진 이미지 데이터를 합성곱 필터(Convolution filter)를 통해 이미지 분류에 중요하게 작용할 feature들을 추출하는 데 사용됩니다. CNN 알고리즘 이전에 사용되었던 FC 알고리즘과 달리, 이미지의 형태를 유지하기 때문에 합성곱층을 지나더라도 인접한 픽셀에 대한 정보를 알 수 있습니다. 그렇다면, 합성곱에서 사용되는 합성곱 필터는 무엇일까요? 우선, CNN에서 필터는 커널(Kernel)이라고도 합니다. 필터는 이미지의 공용 매개변수(weight)로 작용하며, 주어진 이미지를 슬라이딩하면서 이미지의 feature들을 찾아냅니다. 여기서 공용 매개변수라고 하는 이유는 합성곱을 진행할 때, 하나의 이미지에 대해서 하나의 필터가 사용되기 때문입니다. 일반적으로 (3, 3)이나 (4, 4)와 같은 정사각 행렬로 정의가 되고, 주어진 이미지를 지정된 간격(Stride)만큼 순회합니다. 그럼 합성곱 필터를 이용하여 합성곱 연산은 어떤 방식으로 진행되는지 알아보기 위해, 아래의 그림으로 설명하겠습니다.
 
 
[그림 5] Convolution 연산
 
위의 그림에서 주어진 이미지 데이터의 크기는 6x6이고, 필터의 크기는 3x3입니다. 이미지를 순회하는 간격(stride)은 1입니다. 연산은 이미지와 필터가 서로 겹쳐지는 부분은 곱을, 각각의 곱은 합하는 방식으로 진행됩니다. 위의 그림에서 Result 아래에 적힌 연산을 참고하시면 이해가 더 쉬우실 거예요.
 
Fig6.Convolution_layer.gif
 
위의 그림은 합성곱 연산이 진행되는 방식입니다. 이 그림 역시 필터가 이미지를 순회하는 간격은 1입니다. 이처럼 합성곱을 진행하여 얻어진 결과를 피처맵(Feature Map, 위의 그림에서는 오른쪽의 분홍색)을 만듭니다. 여기서 피처맵은 주어진 이미지에서 특징들을 추출한 것이고, 액티베이션맵(Activation Map)이라고도 합니다. 피처맵은 여러 가지의 의미로 사용되지만, 액티베이션맵은 주로 합성곱층의 최종 출력 결과를 의미합니다.

합성곱층에서 필터와 스트라이드의 작용으로 이미지(피처맵)의 크기는 입력 데이터보다 작아지게 됩니다. 그렇다면 합성곱층을 지나면 이미지가 자꾸 줄어드는데, 계속 반복적으로 합성곱층을 지나면 이미지가 없어지지 않을까? 라는 생각이 들게 되죠. 이를 방지하는 방법이 패딩(Padding)입니다. 패딩은 입력 데이터의 외각에 지정된 픽셀만큼 특정 값으로 채워 넣는 것을 의미하고, 보통 0으로 값을 채워 넣습니다.
 

 
 
위의 그림을 보면, 3x3 이미지의 외각에 0이 채워진 것을 볼 수 있습니다.
 
 

 
[그림 8] Pooling
지금까지 합성곱에 대해서 알아보았습니다. CNN 알고리즘에서 이미지 특징을 추출하는 부분에서 합성곱층 다음으로 나오는 층은 풀링층(Pooling layer)입니다. 합성곱층의 출력 데이터(액티베이션 맵)를 입력으로 받아, 출력 데이터의 크기를 줄이거나 특정 데이터를 강조하는 용도로 사용됩니다. 풀링층을 처리하는 방법으로는 Max, Average, Min Pooling이 있습니다. 정사각 행렬의 특정 영역 안에 값의 최댓값, 평균 혹은 최솟값을 구하는 방식이고, 주로 Max Pooling을 사용합니다. 앞의 합성곱처럼 인접한 픽셀값만을 사용한다는 것은 비슷하지만, 합성곱처럼 곱하거나 더하는 연산 과정이 없어서 학습이 필요한 부분이 없고 입력 데이터의 변화에 영향을 적게 받습니다. 이는 최댓값, 평균값, 최솟값 중 하나를 구하는 것이기 때문에, 입력 데이터가 조금 변하더라도 풀링의 결과는 크게 변하지 않습니다.
  

 
 
앞에서 설명해드렸던 바와 같이, CNN은 크게 특징 추출(Feature extraction) 부분과 분류(Classification) 부분으로 나뉩니다. 특징 추출은 합성곱층과 풀링층이 반복적으로 수행되고, 분류는 앞에서 추출된 Feature들이 Fully-connected layer 학습 방식을 이용하여 어떤 이미지인지 분류합니다.
 
참고) 학습시킬 이미지가 부족하시다면! 이미지 학습을 위한 open data source
 
이미지 분류하기 위해 이미지를 학습시킬 때, 하나의 클래스(ex. 강아지 클래스, 고양이 클래스)당 최소 1,000장이 필요합니다. 학습을 많이 시키면 많이 시킬수록 이미지를 분류하는 정확도는 당연히 올라갑니다. 그렇다면, 이미지 학습을 하기 위해서 많은 양의 이미지 데이터가 필요하겠죠? 딥러닝이 활성화되면서 공개 이미지를 수집하는 데이터베이스가 많아졌고, 대표적으로 ImageNet과 Kaggle 등이 있습니다. 이미지를 학습하는 데 필요한 이미지 데이터를 공개적으로 제공하는 사이트이므로, 아래 사이트를 들어가시면 이미지 딥러닝 활용에 여러 방면으로 도움이 될 것입니다. :)
 

[그림 9] ImageNet
(http://www.image-net.org/)


[그림 10] Kaggle
(https://www.kaggle.com/)


CNN 알고리즘에 대해서 더 자세하게 설명해 드리고 싶었지만, 그러면 본 취지에 맞지 않을 것 같았어요. 제가 생각하기에 이미지 딥러닝의 입문자분들께 가장 필요한 부분 위주로 이 글을 작성하였습니다. 이 글에 적힌 것들을 바탕으로 궁금한 부분이 생길 때마다 조금씩 조금씩 자료를 찾다 보면, 깨닫지 못한 사이에 이미지 딥러닝에 대해 많이 알게 되실 거예요. 조금이나마 도움이 되셨길 바라며, 너무 두려워하지 마시고 힘내시길 바랍니다. :D
 
 

Posted by 人Co

2020/06/01 19:28 2020/06/01 19:28
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/346

인실리코젠 창립 15주년

날씨가 좋은 2019년 10월 1일, 인실리코젠은 15주년을 맞이하였습니다.
광교 Alleyway의 세상의 모든 아침에서 식사를 하며 추억의 사진과 영상을 찍었습니다.
많은 분들이 웃는 모습으로 행사에 참여해주셔서 감사했습니다.
영상을 같이 보실까요??


브랜드 위원회 : 김지인

Posted by 人Co

2019/10/30 12:48 2019/10/30 12:48
, , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/328

나만 몰랐던 BLAST 꿀팁



19세기의 자전거란 현재와 달라서 금속의 바퀴로 이루어져 쉽게 사고로 이어지곤 했답니다.
이에 영국의 수학자 던롭은 사랑하는 외동아들 조니를 위해 고무 타이어를 발명하게 되고 공기타이어회사 CEO로 큰 부자가 되게 됩니다.
저 역시 필요 때문에 (더 빨리, 더 쉽게 처리하고 칼퇴하고자) 다음의 방법들을 발견하게 되었으니 평행이론에 따라 언젠가는 저도 큰 부자가 될..... 수 있을까요?

발단은 몹시 사소했습니다.
아래 그림처럼 결과를 만들면 매우 있어 보일 것 같았거든요.



 
그런데 내 손에 있는 건 단백질 서열 단 하나, 계통수를 그리기 위한 DB가 아직 구축되어 있지 않은 상황이었어요.
하지만 걱정 없죠. 백종원 대표님께 만능 간장이 있다면 우리에겐 만능 BLAST가 있으니깐요.
BLAST를 통해 맵핑되는 단백질들을 모은 후 이를 이용하여 계통수를 그려보기로 합니다.
BLAST에 대한 기본 설명이나 분석 방법 등은 위키 (Wiki) 기반의 커뮤니티 형성을 통한 생물정보 분야의 집단 지성 창출을 목적으로 운영되는 지식 커뮤니티인 人CoDOM을 참고해주세요.

그런데 여기서 문제 발생!!!
nr에 대한 BLAST를 다 끝내고 보니 (default setting의 tabular format으로 출력) 결과 파일에서 종명을 확인할 수 없었어요.
종명을 확인 못 하면 계통수를 그려도 계통별로 잘 묶였는지 확인도 어렵고 예쁜 색을 입혀줄 수도 없어요.

 
MH00089;   gi|761546247|ref|YP_009122458.1|   99.06   530   5       0   1   530   1   530   0.0   1045
MH00089;   gi|1314948409|ref|YP_009444547.1|   94.70   528   28      0   3   530   1   528   0.0   995
MH00089;   gi|1079486692|ref|YP_009307015.1|   94.89   528   27      0   3   530   1   528   0.0   991
< BLAST 수행 결과 예시>
 

종명 확인을 위해서는 NCBI에 GI number (또는 accession)로 검색해보는 수밖에 없는 듯 하여 매우 절망스러웠지요.
실제로 하나 검색에만 최소 클릭 5~6번이 소요되고 10개 넘어가면 웹 크롤링을 해야하는 건지 고민하게 됩니다.
이때 잘 읽은 메뉴얼 하나가 사람을 살립니다.
역시 오랜 역사를 자랑하는 생물정보 산증인 BLAST는 이미 해답을 제시하고 있었던 거죠.

아래와 같이 2단계를 순서대로 수행해 주시면 BLAST 결과에서 종명, taxid (중요), kingdom (계) 정보를 바로 확인할 수 있습니다.

1단계) taxonomy DB 세팅
먼저 nr로부터 계통 정보를 가져올 수 있도록 NCBI에서 제공하는 taxonomy DB를 세팅해 주어야 합니다.
아래와 같이 최신 버전으로 다운로드 후 환경변수에 추가해 주세요.
(이참에 nr DB도 최신 버전으로 변경해주고, 하는 김에 BLAST도 최신화해주는 게 어떨까요?)
참고로 제가 테스트했던 버전은 BLAST+ 2.2.31입니다.

$ wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/taxdb.tar.gz
$ tar zxvf taxdb.tar.gz
$ export BLASTDB=[download 위치]
<taxonomy DB 세팅 방법>

2단계) BLAST 실행

BLAST 수행 시 결과 파일의 포맷을 6번, 즉 tabular로 지정하고 format specifiers에 staxids(species taxon id)와 sscinames (species scientific name), sskingdoms (species super kindoms)이 포함되도록 적어줍니다.

$ blastp -query query.faa -db nr -outfmt '6 qseqid sseqid pident evalue staxids sscinames scomnames sskingdoms stitle' -num_threads 20 -out query_vs_nr.table
<BLAST 수행 방법>

짜잔~ 커맨드라인 하나로 손목 수명이 일주일 연장되었습니다 (감격).
하는 김에 stitle (species name)도 추가하였더니 이제 정말 NCBI 웹사이트 들락날락할 일 없어졌어요.

MH00089;        gi|761546247|ref|YP_009122458.1|        99.06   0.0     1610689 Sarocladium implicatum  Sarocladium implicatum  Eukaryota       cytochrome oxidase subunit I (mitochondrion) [Sarocladium implicatum]
MH00089;        gi|1314948409|ref|YP_009444547.1|       94.70   0.0     29910   Tolypocladium inflatum  Tolypocladium inflatum  Eukaryota       cytochrome c oxidase subunit 1 (mitochondrion) [Tolypocladium inflatum]
MH00089;        gi|1079486692|ref|YP_009307015.1|       94.89   0.0     71617   Tolypocladium ophioglossoides   Tolypocladium ophioglossoides   Eukaryota       cytochrome oxidase subunit 1 (mitochondrion) [Tolypocladium ophioglossoides]
< BLAST 결과 예시>

한계점)
하지만 결과를 보면 박테리아인지 진핵인지와 같이 계 (kingdom)에 대한 정보만 제시하고 있어요.
근연종의 단백질에 잘 맵핑이 된 것인지 전체 계통 정보를 확인하고 싶고 진핵생물 내에서도 딱정벌레목인지 총채벌레목인지 좀 더 세분화하고 싶은데 이 상태로는 너무 부족합니다.

제가 찾은 방법은 NCBI에서 제공하는 텍스트 포맷의 관련 DB에서 taxid 또는 학명(scientific name)으로 검색하는 것입니다.
참고로 최근 1~2년 사이 NCBI taxonomy DB가 업데이트되면서부터 taxid 별 full lineage 정보를 제공하고 있으니 꼭 최신 버전을 받아주세요.
new_taxdump.tar.gz 파일을 다운로드 후 그 안에 있는 fullnamelineage.dmp 파일을 확인하면 정보를 얻을 수 있습니다.


taxid | scientific name | full lineage
1610689 |       Sarocladium implicatum  |       cellular organisms; Eukaryota; Opisthokonta; Fungi; Dikarya; Ascomycota; saccharomyceta; Pezizomycotina; leotiomyceta; sordariomyceta; Sordariomycetes; Hypocreomycetidae; Hypocreales; Hypocreales incertae sedis; Sarocladium;        |
<taxid 또는 학명(scientific name)을 이용한 계통 정보 검색 결과>

추가 팁 하나 더!)
BLAST 결과 출력시 파일 포맷을 여러 개로 하고 싶을 때가 있어요.


XML은 기본이니깐 꼭 있어야 할 것 같고 파싱하기 귀찮으니 tabular로도 해야 할 것 같고 또 alignment된 거 확인하고 싶으니 pairwise로도 남겨두고 싶을 때 어떻게 해야하는 거죠??


BLAST를 3번 하면 돼요. 하지만 오래 걸린다는 단점이 있어요.
이때 blast_formatter를 사용하시면 됩니다 (작업시간이 1/3로 줄어드는 매직)!!!
몰랐는데 BLAST 설치 디렉토리에 이미 blastp, blastn이랑 같이 자리잡고 있더라구요.
(역시 메뉴얼은 읽으라고 있는 거였어요.)
중요한 점은 처음 BLAST할 때 반드시 asn 포맷으로 출력해 주어야 한다는 것입니다.

$ blastn -db [nt] -query [query] -outfmt 11 -out [output].asn
$ blast_formatter -archive [output].asn -outfmt 5 -out [output].asn.xml
$ blast_formatter -archive [output].asn -outfmt 6 -out [output].asn.tabular
$ blast_formatter -archive [output].asn -outfmt 0 -out [output].asn.pairwise
<BLAST 포맷 변환 방법>

출력 포맷은 아래를 참고하셔서 원하는 번호를 기재해 주시면 됩니다.


 0 = pairwise,
 1 = query-anchored showing identities,
 2 = query-anchored no identities,
 3 = flat query-anchored, show identities,
 4 = flat query-anchored, no identities,
 5 = XML Blast output,
 6 = tabular,
 7 = tabular with comment lines,
 8 = Text ASN.1,
 9 = Binary ASN.1,
10 = Comma-separated values,
11 = BLAST archive format (ASN.1),
12 = JSON Seqalign output,
13 = JSON Blast output,
14 = XML2 Blast output
<출력 가능한 BLAST 결과 포맷 목록>

이상 새롭지 않을 수 있을, 그리고 정말 저만 알았다면 너무 슬프고 민망할 것 같은 BLAST 꿀팁 소개를 마칩니다.
이 방법 외에도 오조오억 개의 다른 길이 있을 겁니다. 아시는 분은 제보 바랍니다.
당신은 우리와 함께 가시면 안 될까요??? (=스카우트하고 싶어요).
 
<출처 : 'Mnet 쇼미더머니8 화면캡처' 후 편집>
 
작성 : RDC 정명희 선임 연구원
 

Posted by 人Co

2019/09/11 16:26 2019/09/11 16:26
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/324

Special Culture Day 2019 !


 
드디어 본격적인 여름이 시작된 것 같습니다.
이번 Culture Day가 특별했던 이유 3를 공개합니다.
 
1. 블루베리와 함께
심재영 선임님 아버지께서 정성으로 키우신 유기농 블루베리를
직원들의 건강을 위해
사장님께서 선물하셨습니다!! 짜잔~


새콤달콤한 블루베리를 맛보며, 오전 업무를 마치고,
극장으로 고고~~~!
 
2. 인코인턴십 분들과 함께
우리 회사와 특별한 인연으로 만난 13명의 인턴과 함께하였습니다.
 
 
이제 영화 보러 가실까요! 슝!! 아~참!! 팝콘이 빠지면 안 되겠죠?
팝콘 세트 주문 후 들어가겠습니다 ~~
 
 
이번 스파이더맨 파 프롬 홈은 16살 Peter Parker의 히어로로 성장하는 스토리입니다. 청소년인 Peter Parker는 MJ라는 여학생을 좋아합니다. 그래서 단체로 유럽 여행을 갈 때 그녀와 잘 되기 위한 계획을 세웁니다. 그런데 히어로서의 막중한 임무가 주어지게 되고 내적 갈등을 겪습니다. 그때 새로운 히어로, 미스테리오의 꾀에 넘어가 아이언맨이 준 안경을 그에게 주게 되는 실수를 하게 됩니다. 너무 많은 내용을 말하면 아직 안 보신 분들에게 스포일러가 되기 때문에 나머지 내용은 영화관에서 ~



영화 관람 후 맛난 저녁식사를 위해 풀잎채로 향했어요~



맛있는 건강식을 먹으며 Culture Day를 마무리했습니다 ~
 
3. 동일 생일자 3명과 함께~
끝으로 세 번째 특별했던 이유는 생일자가 세 분이었다는 것입니다.
오랜 시간 함께 일해오신 김형용 박사님, 신가희 박사님, 그리고,
직원 모두의 생일을 챙겨주시는 장은철씨까지 세 분의 생일을 축하드립니다~

 
마지막으로 단체 컷 찰칵 ~
지금까지 인코 문화 중 하나인 컬처데이에 대한 이야기였습니다.
모두에게 또 하나의 추억이 되었길 바랍니다.

브랜드위원회 제5기 김지인
 

Posted by 人Co

2019/07/12 10:57 2019/07/12 10:57
, , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/318




언제부터인지 우리는 쌀쌀해진 기온이 코끝을 스치면 독감 예방주사를 맞고 겨울을 준비한다. 독감은 일반적인 감기와는 달리 전염성이 매우 크고 폐렴으로 이어지는 경우가 많아 일반인들에게도 다르게 인식되어 있다. 그도 그럴 것이 감기는 서로 다른 여러 종류의 바이러스들로 유발되지만, 독감은 '인플루엔자 바이러스'라는 명확한 질병체가 밝혀져 있고 그 치료제도 개발되어 있다. 그런데 왜 매번 다른 독감 예방접종을 하고, 증상이 조금씩 다를까? 그 이유는 매우 똑똑한 진화를 거듭하며 스스로 변화하고 있기 때문이다.


인플루엔자 바이러스 구조

[그림 1] 인플루엔자 바이러스의 구조
(출처 : 이일하 교수의 생물학 산책, 이일하)

독감 인플루엔자 바이러스는 nucleocapsid (NP)와 matrix (M) 단백질의 차이에 의해 크게 A, B 및 C형으로 구분된다. 이중 잦은 변이를 일으키며 사람에게 질병을 유발하는 것은 A형으로 바이러스 표면에 존재하는 헤마글루티닌(HA)과 뉴라미니데이즈 (NA)의 다양한 조합으로 그 형태를 변화시키고 있다. 현재 밝혀진 헤마글루티닌의 sub-type은 16개(H1~H16), 뉴라미니데이즈의 sub-type은 9개(N1~N9)로 대략적인 조합수를 생각해 봐도 144개의 다른 인플루엔자바이러스가 만들어질 수 있음을 알 수 있다. 그러나 더욱 문제가 되는 부분은 이러한 조합을 통한 변이 발생이 사람만을 숙주로 하는 것이 아니라 조류와 돼지에서도 발생이 되고, 서로 공유되어 더 다양한 변이가 발생할 수 있다는 것이다. 현재까지 보고에 의하면 사람에서는 주로 A/H3N2형, A/H1N1형 및 B형이 유행하고 있는데 변이를 통해 새로운 바이러스 주가 출현할 경우 유병률과 사망률이 많이 증가하는 것으로 보고되고 있다. 때문에, WHO를 중심으로 전 세계 인플루엔자 감시체계가 운영 중이며 그 유전자형을 밝혀 백신주와 처방제를 제시하는 등 유행에 대비하고 있다.


그렇다면 어떻게 올해 유행할 백신주를 제시하는 걸까?

일반적으로 WHO는 매해 2월 해당연도에 유행할 백신주를 제시하고 있는데, 이는 지난해 남반구에서 가장 유행한 A형 바이러스 2종류와 B형 바이러스 1종을 선정하여 북반구 지역의 나라들에 제시한다. 이를 백신화 한 것이 3가 백신이고, 여기에 B형 1종을 추가한 것이 4가 백신이 된다. 참고로, B형은 2개의 sub-type이 존재하는데, 이 중 한 종류의 항체만 가져도 나머지 한 종에 대한 방어를 어느 정도 수행할 수 있으므로 3가 백신만으로도 충분할 수 있다. 또한, 예방 접종 후 항체 형성은 2주, 효과는 6개월 정도 지속된다고 한다.


바이러스의 유전자형은 어떻게 판별되는 것일까?



유행하는 바이러스의 유전자형은 qRT-PCR을 통해 빠르게 확인한다. 이때, NP, M 또는 HA 유전자를 증폭시켜 유전자 염기 서열을 비교 분석 하게 된다. 각 sub-type은 재조합 변이에 따라 서로 유사 정도가 다른데, 그림 2와 같이 크게 두 그룹으로 구분되어 진다. 이러한 유전자 변이 정도에 따르면 H1, H2, H5, H6의 경우 모두 H1에서 변형된 형태로 볼 수 있다. 이러한 정보는 이후 임상학적 표현형이나, 숙주(사람, 조류, 돼지 등)의 기원을 예측할 수 있고, 나아가 예방, 예찰의 자료로 활용된다.


독감 즉 신종플루 치료제 타미플루의 기작은 어떻게 될까?

인플루엔자 바이러스는 숙주세포의 표면에 sialic acid를 포함한 receptor에 부착한 후 8개의 segments로 구성된 바이러스 유전체를 숙주세포의 세포질로 밀어 넣는다. 이때, 세포막 일부가 유입된 유전체 서열의 막을 형성하는 엔도좀을 형성하게 된다. 형성된 엔도좀 내부는 낮은 pH를 유지하게 되는데, 이로 인해 바이러스의 lipid layer, 즉, 껍질이 분해되고 바이러스 핵산이 세포질에 노출되게 된다. 노출된 핵산중 heterotrimeric influenza polymerase (FluPol)를 코딩하는 유전체만이 숙주세포의 핵 안으로 이동하게 된다. 이후 숙주세포의 polymerase CTD (c-terminal domain)를 인지하여 바이러스의 유전자를 역전사시키고 복제시킨다. 절대적으로 숙주 세포의 시스템을 활용하여 바이러스 유전자를 대량 복제시키는 시스템으로 이를 cap-snatching 이라 하며, 이로 인해 숙주 세포의 유전자가 발현되지 않는 것을 host shut-off라 한다.



숙주세포의 시스템을 이용해 다량 생산한 바이러스 단백질들은 다른 세포로의 이동을 위해 virus particle을 형성하고 숙주세포로 부터 떨어져 나와 다른 세포로 확산된다. 이때, 바이러스는 HA와 NA를 표면에 이미 배치하고, 숙주 세포의 표면에 존재하는 sialic acid와 HA가 최종 결합되는 구조를 형성한다. 이후 NA(neuraminidase)는 근처의 HA와 sialic acid 결합을 끊어 세포로부터 분리 되게 한다. 타미플루는 이러한 바이러스 생활사 중 NA의 활성을 억제하여 다른 세포로의 확산을 방지하는 방법으로 바이러스에 대응하고 있어야 한다. 바이러스의 증식은 일반적으로 감염 후 48시간 이내에 모두 이뤄진다. 따라서 타미플루의 복용은 감염 후 48시간 이내에 이뤄져야 NA 활성을 낮춰 세포 내 확산을 막을 수 있다.

작성 : RDC 신윤희 센터장

Posted by 人Co

2019/03/02 22:44 2019/03/02 22:44
, ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/306

인실리코젠 2018 송년회 2019 시무식

이 또한 추억이 되겠죠?
2018년을 보내는 인실리코젠 송년회와
2019년을 맞는 시무식 장면입니다.
여러분 모두 2018년 한 해 동안 수고하셨고, 소망 이루시는 2019년 되길 바래요~
인실리코젠의 문화를 만들어가는 브랜드위원회분들...
2년 동안 솔선수범하여 활동하시느라 수고하신 4기 분들께 감사하며, 새롭게 활동하실 5기 분들의 활약도 기대할께요~





작성자 : 브랜드위원회, 편집에 도움주신 분 : 김영종

Posted by 人Co

2019/01/07 16:23 2019/01/07 16:23
,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/301

반려견을 위한 유전자 검사

개(Canis lupus familiaris)는 식육목 개과에 속하는 동물로 회색 늑대(Canis lupus)의 아종입니다. 미토콘드리아 DNA 분석 결과 현대의 개와 회색 늑대는 약 10만 년 전에 분화된 것으로 추정하고 있으며, 최근 화석을 이용한 연구에서는 3만 5천 년 전에 분화되었을 것이라고도 합니다. 개과의 늑대, 코요테, 자칼, 개는 서로 자유롭게 교잡할 수 있으며 이들의 잡종 역시 번식력을 유지하기 때문에 개는 "아종" 입니다. 인간이 처음 가축으로 삼으면서 인간과 밀접한 관계를 유지해 왔고, 더 나아가 인간의 소외현상을 개선하고, 공동체 생활의식 향상에도 이바지하면서 "반려견"으로 불리고 있습니다.



현재의 반려견으로 진화하는 과정에서 인간에 의해 계속 "품종 개량"되었습니다. 품종을 공인받기 위해 특정한 특징만을 남기는 과정에서 유전자 병목현상이 있었고, 이로 인해 적절한 유전적 다양성을 확보하지 않으면 유전적으로 취약한 질병을 갖게 되었습니다. 순종 반려견을 선호하는 경향은 근친 교배를 심화시켰고, 유전병이 빈번하게 되었습니다. 대표적인 반려견의 유전병으로 고관절 이형성증(Hip dysplasia), 슬개골 탈구(Patellar Luxation), 퇴행성 골수염(Degenerative Myelopathy), 백내장(Cataract) 등이 있고, 일부는 퇴행성으로 반려견 노년 삶의 질을 크게 떨어뜨리기도 합니다.


(퇴행성 유전질환 가운데 하나인 슬개골 탈구 - 왼쪽 정상)

반려견의 건강 역시 인간과의 삶에 영향을 미치기 때문에 유전병 여부를 사전에 알 수 있다면, 건강 관리, 교배 계획에 참고할 수 있습니다. 특히, 퇴행성 유전 질환의 경우 발병 전 예방하는 조치를 하거나, 발병 초기에 대응하여 증세가 심해지는 것을 방지할 수 있습니다. 이를 위한 반려견 유전자 검사 서비스가 최근 국내외에 소개되기도 했습니다. 직접 고객에게 제공하는(DTC, direct to customer) 인간 유전자 검사 서비스가 각종 규제로 인해 활성화 어려운 것과 비교하여, 반려견 대상은 규제에서 비교적 자유롭다는 장점이 있긴 하지만, 그렇다고 과학적 합리성에 근거하지 않으면 안 되겠지요.

웹에서 검색해 본 국내외 반려견 유전자 검사 서비스 현황입니다.



이들 서비스는 반려견 유전 질환에 대한 검사와 함께 혈통검사, 품종판별 서비스를 제공하기도 합니다. MyDogDNA의 경우에는 "Puppy search engine" 이라는 온라인 서비스를 통해 유전자 검사 결과와 함께 교배 프로그램으로 원하는 형질을 얻을 수 있는 짝을 추천하기도 합니다. 국제적으로 유명한 사료회사 로얄캐닌(Royal Canin)은 혈통정보, 표현형정보, 유전자 검사 결과를 통합하여 맞춤형 사료를 추천하는 고급 서비스를 제공합니다.

이들 서비스는 유전자 검사를 위한 유전좌위(locus)를 어떻게 정했을까요? 생물종별 유전 질환 데이터베이스를 참고했을 것으로 추정됩니다. 인간을 위한 유전 질환 데이터베이스로 OMIM(Online Mendelian Inheritance in Man) 이 있고, 대표적인 NCBI 데이터베이스 가운데 하나입니다. 유사하게 동물을 위한 데이터베이스로 OMIA(Online Mendelian Inheritance in Animal) 가 있습니다. 135여 개의 동물 종에 대한 유전 질환, 연관된 유전자 혹은 유전좌위 정보를 제공하고 있습니다. 예상했던 것처럼 "Dog"의 정보가 가장 많습니다. 반려견에서 원인 유전변이가 알려진 유전형질 혹은 유전 질환은 2018년 8월 현재 243개입니다.


(동물 유전 질환 정보 데이터베이스인 OMIA 홈페이지 http://omia.org)

반려견의 주요한 유전 질환에 대한 새로운 유전좌위를 찾기 위한 전장유전체 연관분석 (GWAS, Genome-wide association analysis) 연구도 활발합니다. 최근 150품종, 4,224개체, 고관절 이형성증을 포함한 7개 복합 질환에 대한 GWAS 연구 결과가 보고되기도 했습니다 (Jessica et al., Complex disease and phenotype mapping in the domestic dog., Nature Communications 2016).

하지만, 아직은 기반 연구가 많이 부족한 상황입니다. 우리와 가장 가까운 생물 종이며, 친구이고, 가족이기도 한 반려견이 유전 질환으로 고생하지 않고, 건강하게 함께 하기 위해서는 더 많은 유전 질환, 종합적인 데이터 분석 연구 등이 필요합니다. GWAS를 비롯한 다양한 연구로 유전 질환과 연관된 유의한 유전변이를 찾아내면 이를 유전자 검사로 확인하여 반려견 유전 질환 여부를 사전에 알 수 있거나, 교배 프로그램에서 관리할 수 있습니다. 퇴행성 유전 질환의 경우 사전에 예방하거나, 초기에 집중 치료함으로 악화되는 것을 막고 반려견 노후 삶 질을 개선할 수 있습니다. 다양한 연구성과로 반려견과 우리의 건강한 삶에 이바지할 수 있기를 희망합니다.

인실리코젠은 반려동물연구사업단에 참여하여 "반려견 퇴행성 조기진단 바이오마커 개발 연구"를 수행하고 있습니다. 본 블로그를 통해 지속적으로 연구 성과를 소개하고자 합니다. 응원 부탁드립니다.


데이터사이언스센터 센터장 김형용



Posted by 人Co

2018/08/27 17:27 2018/08/27 17:27
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/289

여러분의 직장생활, 행복하신가요?

직장인이라면, 인생 1/3 이상의 시간을 회사에서 보낸다 해도 과언이 아닌데요, 표정이 어둡고, 열의가 보이지 않는 상태로 오랜 시간 직장생활을 하고 있다면, 행복하지 않은 삶으로도 연결되는 것이죠.

조직 내에서 인정받는 일원이 되고, 리더가 되며, 전문가가 되는 방법… 각종 직장생활 처세술서에 나오는 행동양식은 결론적으로 모두 유사합니다. 회사의 원리와 원칙부터 이해하고 행동하는 공통점이 있습니다. 적응력, 조정력, 소통, 열정과 역량 등도 빠지지 않는 키워드들이죠. 중요한 건 신뢰와 진정성이 빠지면 금세 들통 나기 마련이라는 것!
 
이번 기회에 소개하고자 하는 (주)인실리코젠 R&D Center 4인은 제가 입사해서 오랜 시간 人Co인으로 함께한 분들이며, 굳건히 각 분야의 리더로 성장하신 분들입니다. 이분들의 생각을 짧게나마 들어보는 시간을 가졌습니다. 자, 그럼 살짝 들어볼까요? ^^



사용자 삽입 이미지
학창 시절부터 시베리아나 몽골 초원과 같은 가보지 못한 곳에 대한 동경이 있습니다. 기계공학에서 출발하여 생물정보학이라는 분야로 옮겨오면서 생소하고 처음 길을 걷는 것이라 즐겁게 받아들였습니다. 이러한 경험을 과학자와 나누면서 그 대가를 받는 것도 고객과 저, 서로가 생소했던 것 같습니다. 이제는 산업의 한 분야로 인정받아 많이 자연스러운 환경이 된 듯합니다.

사용자 삽입 이미지
대학 복학생 때(1997년 즈음), 처음 생물정보학이라는 단어를 접하고는 나를 위한 분야라고 생각했습니다. 컴퓨터에 관심이 많으면서, 동시에 분자생물학을 좋아했던 사람이라면 당연히 생각했을 겁니다. 당시 학교에서 배울 수 없었기 때문에 학회, 세미나 등을 찾아 들으러 다녔던 것이 이 분야로의 시작이었던 것 같습니다. 지금이 2017년이니까 20년은 됐네요. 그동안 생물정보학 분야가 정말 넓음에 막막하기도 했고, 돈 벌기 어려운 분야인데 할 수 있을까 두렵기도 했습니다. 요즘은 그 응용, 실무 분야가 확실히 많아졌다고 느낍니다.


사용자 삽입 이미지
다른 사람보다 생물정보라는 분야에 더 늦게 합류하였고, 생물정보라는 분야라기보다 데이터 과학이라고 생각되는 이 분야에 BIT가 아닌 BT 전공자로서 심각한 적응기를 겪었다 할 수 있습니다. 2008년부터 특별히 비정규화되어 있고, 개별 데이터가 많이 존재하는 식품 분야의 데이터 세상에 발을 디디면서 그야말로 혼돈과 혼란의 시간을 겪었습니다. 그럼에도 불구하고, 뒤돌아 가지 않고, 10년이 지난 지금까지 데이터 과학이라는 이 분야에 서 있는 것을 보면, 이 길을 가야만 해서 이곳에 발을 디디게 된 게 아닌가 생각됩니다.

사용자 삽입 이미지
분자생물학을 전공하고 animal cell culture를 하던 저에게 우연한 전화 한 통이 생물정보를 시작하게 했습니다. 프로모터 연구를 했다는 잊고 있던(브릭에 올려진) 저의 이력서를 보시고 금요일 자정을 넘기던 그 시각, 갑자기 생물정보를 함께 해보지 않겠느냐는 권유로 큰 기대도 망설임도 없이 그냥 그렇게 생물정보를 접하게 됐습니다. 생각해보면, 통계나 프로그래밍에 전혀 문외한이었던 그때부터 15년이 지난 지금까지도 저는 행운이 따랐던 것 같습니다. 늘 주변엔 함께 공부하던 친절하고 똑똑한 분들이 계셨고, 데이터가 쌓여 있었던 터라 크게 다른 생각을 하지 않고 지금까지 오고 있는 듯합니다.


사용자 삽입 이미지
환경부의 연구과제가 기억에 남습니다. 당시에는 거의 최초로 시맨틱스(Semantcis, 意味論)를 적용하여 환경유해물질에 대한 유전체 데이터베이스를 구축하는 주제였습니다. 연구진 중에서 저희에게 데이터를 잘 정리해서 주시던 분이 계셨습니다. 그분이 주신 단편 자료를 차곡차곡 모으고 시맨틱스 모델로 뽑아서 그린 유전자-화학물질-생리활성 네트워크 그림을 논문 초안에 넣어서 보내드렸습니다. 그러고 나서 그분에게서 전화가 왔는데 자기가 중요한 저널에 준비하는 개념을 어떻게 알았느냐고 놀라움과 걱정을 전해주셨습니다. 결국, 그 그림은 중요한 심볼을 모두 제거하고 간략한 현황만 보여주는 식으로 변경되어 논문으로 출판되었습니다. 당시에 그 교수님은 해당 주제로 5년 이상 하면서 찾은 내용이고, 그 아이디어는 저희에게 노출하고 싶지 않았는데, 단편적 데이터의 의미적 연결(시맨틱스)이라는 기술로 동일한 결과를 얻을 수 있었던 것입니다. 이후에 그 교수님은 저희 회사 제품을 꾸준히 사용하는 고객이 되고 저희도 시맨틱스의 잠재성에 확신을 하는 계기가 되었습니다.

사용자 삽입 이미지
2011년 구제역 사태가 가장 기억에 남습니다. 당시, 축산과학원 정보시스템 유지관리 사업 중이었는데, 구제역이라 출입이 통제됐었죠. 급하게 시스템 점검해야 할 일이 있어 전산실에 들어가야 했는데, 그러기 위해서는 정문 옆 임시 샤워시설에서 샤워하고, 자외선 소독하고, 속옷도 갈아입고, 방역복을 입은 채 작업해야 했습니다. 긴급 위급 상황을 절감하면서 서버 앞에서 작업하던 때가 기억나네요. 리눅스 명령 하나하나가 무게감 있던 기억이네요. 전산 관련 업무 하는 분 가운데, 이런 경험 하신 분은 얼마 없을 것 같습니다.

사용자 삽입 이미지
최근 인실리코푸드 시스템이라는 개인의 유전정보에 맞는 식단을 추천해 주는 프로젝트를 수행한 적이 있습니다. 현재 자신의 생활방식, 식습관 등 외형적인 기준에 따라 식단을 추천해 주는 프로그램과 앱 등이 많이 나와 있긴 하지만, 유전정보를 기반으로 사람의 속까지 들여다보며 맞춤 식단을 추천해 주는 프로젝트는 처음이지 않을까 생각됩니다. 다양하고 정리되지 않는 자신의 개인 데이터를 잘 정리할 뿐만 아니라, 최신의 과학적 정보까지 추가하여 최적의 맞춤 식이 정보를 제공할 수 있는 프로젝트를 성공적으로 수행한 뿌듯함과 동시에 아마도 향후에는 더 발전된 시스템으로 확장될 수 있을 것이라는 기대감, 식품 빅데이터라는 키워드를 연상하게 하는 미래를 내다보는 프로젝트인 것 같아 가장 기억에 남습니다.

사용자 삽입 이미지
언론에도 소개됐던 한우 유전체 프로젝트가 기억에 남습니다. 2009년 당시만 해도 국내에 NGS를 이용한 연구가 이제 막 소개되던 때라 데이터를 구경할 기회조차 잘 없던 때인데, 운이 좋았었습니다. 국내에서 처음으로 대용량 데이터를 바탕으로 한우의 단일 염기 변이를 유전체 전반에 걸쳐 분석했고, 그 결과는 논문으로 정리됐는데, 재밌는 사실은 연구분야가 늘 그러하듯 대용량 데이터를 분석해 내기 위해 들인 그 많은 노력이 단순한 호기심을 해결하기 위해 시작됐고 그것으로 귀결된다는 것을 알게 됐다는 것입니다. 당시, 저는 한우의 그 누런 털이 어떤 유전자에 기인해서인지를 찾던 중 CORIN이라는 유전자를 만났고, 그날 옆자리의 동료는 한참을 저에게 꽉 안겨 있었던 기억이 납니다.


사용자 삽입 이미지
생물정보학은 여러 학제간의 경계학문이라고도 합니다. 경계에 있다는 것은 어느 쪽에도 포함되지 않는다는 것으로 해석되기도 하지만, 동시에 경계에 있기에 두 영역의 결합자 역할이기도 합니다. 사람과 사람, 사람과 일에 있어 결합자 또는 풀(glue)과 같은 역할을 하고 싶다고 생각합니다.

사용자 삽입 이미지
어려운 질문이네요. 그렇게 잘하고 있지 못하다고 생각합니다. 다만, 나의 진심과 열정이 드러나도록 대화하고, 이것이 서로 통할 때 이것이 바로 중요한 관계의 진전이 아닐까 느낍니다. 서로 간에 감정적으로 잘 챙기는 부분은 제가 잘하지 못하는 영역이기도 합니다만 늘 잘하고자 노력합니다.

사용자 삽입 이미지
특별히 다른 이들에 비해 인간관계를 잘 관리하고 있다 생각되진 않지만, 인실리코젠의 기본 모토 중 하나인 사람에 대한 진심이 가장 큰 부분이 아닌가 생각됩니다. 진심은 통하고, 그 진심과 진실은 상황과 사람을 변화시킨다는 마음이 아마도 현재까지 함께하는 사람들과 쌓여 온 신뢰가 아닌가 합니다.

사용자 삽입 이미지
저는 아마도 배려를 하기보다는 받는 쪽이었던 것 같습니다. 입사해서 애도 둘이나 낳고, 근근이 지내와서 특별히 뭔가를 하려 하지 않고 감사한 마음으로 지내왔던 것이 비결이라면 비결일 수 있을 것 같습니다. 오히려, 이번 기회를 빌려 주변 지인들에게 다시 한 번 감사하다고 전하고 싶네요.


사용자 삽입 이미지
걱정의 80%는 절대 일어나지 않는 것들이라는 말이 있다고 합니다. 결정의 순간 걱정보다는 도전과 희망에 가중치를 줍니다.



사용자 삽입 이미지
얼마 전부터 자신에게 묻고 있습니다. 이 회사가 내 회사고, 내가 리더이고, CEO라면 어떻게 선택하겠는가. 이 질문에 대한 고민은 우리 회사의 발전과 우리 모두의 성장에 도움이 될 것이라 생각합니다.



사용자 삽입 이미지
지금 현재 가장 하기 힘들고 어려운 것을 선택하는 편입니다. 쉽고 유리한 것은 누구나 할 수 있기에 선택과 결정의 순간이 왔을 때 기회가 아닌 위기가 될 수 있음을 인지하고, 결정하려고 하는 편입니다. 이런 경우를 몇 번 겪으면서 느낀 건 아마도 이런 선택의 기준에 “가장 기본적인 것이 가장 중요하다”는 원칙이 있었던 것 같습니다.

사용자 삽입 이미지
제가 지나온 시간은 대부분 답이 정해져 있었던 것 같습니다. 크게 고민의 기로에 서서 있었던 시간보다는 얼른 해내야 하는 시간이 많았습니다. 생물정보를 처음 시작하고 할 수 있었던 건 그저 빨리 프로그래밍을 공부하는 것이었고, 둘째를 낳고 할 수 있었던 것은 집에서는 아기를 업어주고, 회사에서는 빨리 데이터의 속성을 파악해서 문제를 해결하는 방법밖에 없었습니다. 지금 생각해 보니, 고민하기 보다는 지금의 문제를 신속히 해결하고자 하는 방식이었던 것이 아닌가 합니다.


사용자 삽입 이미지
빠르게 변화하는 기술 유행어를 붙여서 무늬만 새로운 것들이 많습니다. 옥석을 가리고 우리 고객에게 제대로 된 가치를 돌려드릴 수 있는 것이 무엇인지 항상 고민하고 있습니다. 그 외 시간은 아직 아이들이 어려서 주말이라도 아이들과 시간을 보내고 있습니다.

사용자 삽입 이미지
하루가 다르게 새로운 기술이 소개되고 있습니다. 특히 기계학습, 딥러닝 등 유전체 정보에 접목했을 때 더욱 가치 있을 분야에 관심이 많습니다. 최근 유전체 정보와 일부 설문 정보를 결합하면, 훌륭한 맞춤 질병 예측 모델을 만들 수 있을 것 같은 기대감이 있습니다. 새로운 IT 지식을 생물학적 고려하에 응용하는 것에 높은 관심이 있습니다.

사용자 삽입 이미지
데이터 산업이라는 말이 많이 떠오릅니다. 물건을 만들 때 어떤 모양으로 어떻게 만들어서 얼마나 많은 사람이 사용하게 할 것인가를 고민하는 것처럼, 이미 만들어진 데이터를 어떻게 포장하고, 만들고, 정리하면 잘 사용할 수 있을까에 대한 고민은 많이 하게 됩니다. 지금은 식품에 많은 관심을 가지고 식품 데이터를 보고 있지만, 아마도 앞으로는 환경 데이터가 한 걸음 더 나가야 할 데이터 산업의 한 분야가 아닐까 하고 관심을 가지고 있습니다.

사용자 삽입 이미지
'어떻게 하면 쉬지 않을 수 있을까?' 입니다. 토끼와 거북이 이야기에서 빠른 토끼보다 쉬지 않는 거북이가 더 빠른 것을 얘기하는데, 사실 쉬지 않는 시간보다 빠른 것은 없다고 생각하고 있거든요. 조급한 마음일 수 있겠지만, 일정 궤도에 얼른 올려놓고 싶은 것들이 한둘이 아니다 보니, 이것들을 한꺼번에 해결하려면 일차적으로 그 일들을 쉬지만 않고 갈 수 있으면 된다고 생각했습니다. 근데, 그게 참 어렵습니다. 하루를 보내고 한숨 한 번인데, 그렇게 일주일이 금세 지나가고 벌써 7월을 넘어서서, 무서움도 가끔 느껴집니다. 시간이 간다고 그냥 해결되는 일은 많이 없으니까요. 아무튼, 현재는 쉬지 않고 갈 수 있는 현실적인 방법을 찾는 중입니다.


사용자 삽입 이미지
앞에서 언급한 환경부 연구과제에서부터 발표할 때 자주 사용하던 말이 있습니다. “데이터 규모가 문제가 아니라 그 데이터 간의 연결이 문제다”. 4차 산업혁명은 초(超; super)연결의 시대가 될 것으로 생각합니다. IoT 기술과 같이 불편한 정보의 연결을 편리하게 도와주는 것, 빅데이터 분석처럼 사람의 행동에서 숨어 있는 연결고리를 찾는 일들이 많이 생길 것으로 예상합니다. 그중에서 생물정보학을 기반으로 한 바이오 빅데이터는 초연결과 함께 그 인과관계도 동시에 제공할 수 있는 핵심 콘텐츠라고 생각합니다.

사용자 삽입 이미지
우리는 좀 더 건강해질 것이고, 수명은 더 늘어날 것입니다. 이를 가능하게 하는 것이 인실리코젠이 하고 있는 생물정보 연구라고 봅니다. 물론 기초 과학 연구도 중요하지만, 머지않아 실질적 가치로 드러나게 될 것이라고 봅니다. 그 과정에 이바지하고 싶은 욕심이 있습니다.

사용자 삽입 이미지
획기적인 유전체 기반 기술의 발달과 다양한 IT적 활용기술의 접목은 미래 4차 산업혁명의 핵심이 될 것으로 생각됩니다. 특별히 더 많은 유전정보를 확보하여 머신러닝, 인공지능까지 포함한 빅데이터 분석은 국가나 기업에 가장 큰 미래경쟁력이 될 것으로 생각합니다.

사용자 삽입 이미지
작년까지만 해도 유전체 어셈블리를 두고 큰 고민을 했는데, 지금은 PacBio를 비롯한 Hi-C 기술로 고민의 대상에서 제외됐습니다. 많은 문제를 제시하고 빠르게 해결하면서 놀라운 발전을 보이는 생물정보는 빅데이터 생산에도 크게 이바지하고 있지만, 이렇게 쌓인 빅데이터가 다시 생물정보 분야를 발전시키고 있습니다. 인간의 호기심이 사라지지 않는 한 데이터와 생물정보는 늘 앞서거니 뒤서거니 하며 함께 발전할 텐데, 중요한 것은 질문을 던지는 쪽은 항상 빅데이터가 아닌 생물정보를 활용하는 소수의 사람이 될 것이라는 겁니다. 그때를 위해서라도 쉬지 않고 가야겠네요.


사용자 삽입 이미지
많은 바이오 정보 중에서 접근성과 연결성을 갖춘 것들만 미래 산업에 활용될 것으로 생각합니다. 따라서 다양한 접근 경로와 연결 방법에 대한 준비와 경험을 갖추고 예상되는 시나리오와 애플리케이션을 시도하는 것이 중요하다고 생각합니다. 최근에 회사에서 준비하는 식품 바이오 빅데이터 기반의 애플리케이션이나 유전체 연관 분석 플랫폼 등도 그 일환입니다.

사용자 삽입 이미지
기업 운영을 위한 조직력을 갖추고, 기본 연구 역량을 꾸준히 향상하다 보면 곧 건강증진과 수명 연장이라는 실질적 가치를 만들어내는 역할을 할 수 있으리라 봅니다. 지속적인 조직력 강화, 연구 역량 강화를 진행하다 보면 기회가 올 것이고, 그 기회를 잘 이용하면 중요한 가치 생산의 최전선 기업이 될 수 있을 것으로 생각합니다.


사용자 삽입 이미지
인실리코젠은 이미 10년 전부터 데이터의 가치를 알고 데이터의 축척, 연결 그리고 이들을 통합하는 미래 산업인 데이터 산업을 준비해 왔습니다. 이러한 과정을 겪으며, 미래에는 각자가 생산한 파편적 데이터는 하나의 통로가 될 데이터 공장을 통해 다시 꾸려져 우리의 의식주를 관리할 것으로 생각됩니다. 이를 대비하기 위해서는 분야와 경계를 뛰어넘는 한 단계 업그레이드된 데이터 통합을 위한 준비와 데이터의 폭넓은 이해와 의미를 찾는 인재를 발굴하고, 기술을 개발하는 것이 필수적이라 할 것입니다.

사용자 삽입 이미지
사실 제가 하는 분야는 다양한 분야에서 과학적 호기심으로 제기된 문제를 푸는데 생물정보학적 기술로 도움을 드리는 역할을 하고 있습니다. 그래서 전적으로 개개인의 시각이 같을 수 없고, 관심사가 같을 수 없어 같은 방법으로 일괄처리하기 힘든 부분이 있습니다. 따라서 개인의 관심도와 몰입도가 매우 중요한 요소로 작용했는데, 미래에는 예외 처리라고 생각되는 많은 부분이 개인 맞춤이라는 이름으로 자동 처리되도록 할 것입니다. 모든 생물 시스템을 비롯하여 이와 상호작용하는 환경과의 연계에서도 대부분 질문에 빅데이터는 답을 줄 것입니다. 곧 누구에게나 잘 맞춰진 쉬운 데이터가 놓이게 될 텐데, 이런 현실 속에서도 끊임없는 문제를 제기할 수 있고 재밌는 발상이 가능한 인재가 미래를 이끌 것으로 생각합니다.


지금까지 (주)인실리코젠 R&D Center 4인에 대한 인터뷰였습니다. 오랜 시간 함께 하여 호흡도 척척! 정말 훈훈한 분위기로 빅데이터의 심연을 탐구하고 있습니다.
2016년 다보스 포럼(세계경제포럼, World Economic Forum)에서 본격적으로 제기된 제4차 산업혁명! 지금 맞고 있는 이 시대의 일과 직업에 대한 전망 보고서에 의하면, 전문적 기술과 컴퓨터 및 관련 장치를 통한 커뮤니케이션과 정보처리 작업이 능숙한 소수의 ‘스타’들에게 큰 보상을 주게 될 것이라고 합니다.
이러한 추세는 새로운 아이디어와 비즈니스 모델, 상품과 서비스를 제공하는 등 혁신이 주도하는 생태계에 완벽한 적응 능력을 갖춘 사람들이 승자가 된다는 멱 법칙(冪法則, Power Law)의 양상을 띠고 있습니다.
성공신화는 적절한 기술과 가치관을 가진 사람, 즉 자발적으로 동기를 부여하고 노력하는 특성이 있으며 새로운 기술을 보완할 능력이 있는 사람에게만 주어질 이야기입니다. (4차 산업이 이끄는 일의 미래, Design Issue Report, Vol.14)
앞서 인터뷰한 네 분은 한 가지 분야에 충분한 소양을 갖추고 다양한 지식을 두루 겸비한 통섭형 인재! 자기 존중과 타인에 대한 겸손을 갖추고, 융화를 통해 함께 성장하고자 하는 人Co의 핵심 원동력이라 믿어 의심치 않습니다.

작성자 : 브랜딩 이사 정은미

Posted by 人Co

2017/08/04 07:39 2017/08/04 07:39
, , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/253



« Previous : 1 : 2 : 3 : 4 : 5 : ... 6 : Next »