« Previous : 1 : 2 : 3 : 4 : 5 : ... 36 : Next »


우리가 먹고 있는 청양고추, 사실은 독일 바이엘사에 로열티를 주고 종자를 구매 후 작물을 재배하여 섭취하고 있는 현실 알고 계셨나요? 그뿐만 아니라 제주 감귤, 파프리카, 고구마와 양파의 종자도 대부분 해외에서 사들여 먹고 있는 것입니다.
최근 세계적인 유전자 가위 업체들은 항산화·항노화 성분이 기존 콩보다 2배 이상 많은 콩을 개발해 미국 농무부(USDA)로부터 Non-GMO 판정을 받아냈다고 하는데요, 즉, 유전자변형식품이 아니라는 뜻으로 볼 수 있습니다.
이는 이미 선진화된 기술력을 가진 해외 기업들이 우리가 먹고 있는 식량을 좌지우지할 수 있는 여지가 더욱 커졌다는 말이기도 합니다.
다행히 우리나라에서도 디지털 육종 전환 사업이란 것을 통해 육종 기간을 6년에서 3년으로 줄이고 육성 품종의 상품화율을 5%에서 50%로 대폭 끌어올리는 것을 목표로 국내 종자 산업 첨단화를 위한 사업이 진행 중인데요,
이 디지털 육종에 표준화되고 객관화 된 표현형 데이터가 매우 중요합니다.
 
디지털 육종과 표현형 데이터? 다소 생소하게 느껴질 수 있겠지만, 블로그를 통해 그 궁금증 하나둘씩 해결해드리고자 합니다.
오늘 블로그는 종자 산업의 패러다임 변화, 디지털 육종과 표현형 데이터에 대하여 작성해보았습니다.




기후 및 환경 변화 등의 이유로 우수한 신품종을 빠르게 육성하기 위해서는 종묘단계에서 우수한 개체를 선발하는 것이 무엇보다 중요한데 이를 위해 경험 중심의 전통육종[1]에서 빅 데이터 기술과 인공지능기술(AI)로 신속한 의사결정이 이뤄지는 디지털육종[人Co블로그:https://www.insilicogen.com/blog/370]으로 전환이 필수적으로 요구되고 있습니다.

최근 유전자분석 기술(NGS)의 도움으로 유전체 정보는 폭발적으로 증가했으나 표현형[2] 정보의 측정 및 분석기술에 한계가 있다는 점이 육종 기술 도입의 한계로 지적되었습니다.

그러나 최근 RGB, NIR 카메라 및 영상 기술이 발달함에 따라 이를 이용해 크기, 수, 이상 현상 등 작물의 표현형을 정확하고 빠르게 대량으로 수집할 수 있게 되었고, 수집된 데이터를 바탕으로 다양한 기술을 이용해 영상정보(사진, 양상)를 디지털화하고 우수 경제 형질과 연계해 우수한 품종을 선발하는 표현체 이용 기술이 주목을 받고 있습니다.

이러한 표현체 연구는 작물의 형태적 특징을 영상 기술을 통해 수치화 및 객관화하여 분석하는 기술로써 표현형과 연관된 유전자의 연관 관계를 밝혀 그 특성을 이용한 우수 품종 개발을 지원할 수 있는 아주 유용한 방법이라 할 수 있습니다. 즉, 각 개체의 표현형질과 유전적 특성을 미리 알 수 있어 육종 시 원하는 형질을 가진 모본과 부본 간의 교배가 가능하므로 우수 경제 형질을 가진 개체를 선발할 수 있으며 육종 기간 단축을 통해 노력과 시간의 감소 효과를 얻을 수 있습니다.

따라서 전통농업기술과 분자육종, ICT 및 인공지능 등 첨단 기술을 접목한 표현체 연구를 기반으로 차세대 디지털육종 시스템으로 변환을 통해 육종 기간 단축과 우수후보 발굴 등 신품종 개발 효율성을 높일 수 있습니다.



 
[Fig.1] 표현형 자료를 이용한 벼 육종 자료 (출처:A quantitative genomics map of rice provides genetic insights and guides breeding Nature Genetics (2021))
 



 
이러한 표현체 연구를 위해서는 총 4단계의 과정으로 재구성하였습니다.
 

[Fig.2] 표현형 자료 예시
 

  • 데이터베이스 구축 단계
    • 각 재배 및 사육 단계에서 육안 또는 영상, ICT 장비를 이용해 데이터를 체계적으로 수집하는 단계로, 데이터를 수치화하고 객관화시켜 신뢰할 수 있는 표현체 빅데이터를 구축해야 함.
    • 기온, 습도, 날씨 등 다양한 환경 요소를 비롯하여 작물의 성장과 발달 단계에 맞는 정확한 정보(온톨로지)를 통해 수치화하여 수집하는 단계.
  • 지식정보 그래프 구축 단계
    • 수집 데이터를 '노드'-'엣지'의 그래프로 구현하는 단계로 서로의 데이터 관계를 명확하게 정의하여 표현형, 기능, 유전형의 관계를 체계적으로 구축하는 단계.
  • 연관 관계 분석 단계
    • 각 수집 요소에 대하여 알고리즘을 적용하는 단계로 표현형 및 환경정보와 유전형의 연관 관계에 대하여 중요도를 부여하여 특정 표현형에 대한 쿼리 결과의 순위를 제공하는 단계로 이를 뒷받침하는 유전형의 정보도 제공.
  • 맞춤형 분석 단계
    • 데이터베이스를 재구성하거나 탐색을 통해 자신과 가진 데이터를 비교하거나 분석할 수 있는 플랫폼을 제공하는 단계로 특정 표현형에 대한 집단 비교 분석 및 AI 기술 도입을 통해 최적의 교배 지침을 제공하는 단계.

기존 전통육종에서 디지털육종으로의 전환을 유도할 수 있는 표현형 데이터는 유전체 데이터와의 결합과 AI 기술 적용을 통해 새로운 미래 먹거리를 발굴에 활용할 수 있습니다.




그러나 이러한 표현형 데이터는 무엇보다 표준화와 객관화가 중요합니다. 특히 단위는 무척이나 중한데 이를 간과한 사례가 있습니다. 단위가 헷갈려 1,400억 원짜리 우주선이 폭발한 사례[중앙일보]에서 보는 것처럼 주요 단위인 야드와 미터법의 혼동으로 이와 같은 엄청난 피해를 남겼습니다. 표현형을 수집할 때 정확한 용어와 단위 사용은 필수 요소입니다. 이렇게 체계적으로 수집된 표현형 데이터가 유전형 데이터를 만났을 때 진정한 위력을 발휘할 수 있는 것입니다.


[Fig.3] 단위 헷갈려 1,400억짜리 우주선이 폭발[중앙일보]


 

 
이러한 사례를 보자면 "커피는 건강에 좋다?"라는 기사를 통해 확인할 수 있습니다. 커피는 산화방지제가 풍부하고 스트레스를 감소시켜 주며 간 건강에 도움을 준다고 알려졌지만, 과다 섭취하게 되면 골관절염과 비만을 높일 수 있습니다. 해당 연구결과는 'MR-PheWAS분석법'을 이용해 영국 바이오뱅크 내 30만 명의 헬스데이터를 질병정보와 연계 분석하여 얻어진 연구결과입니다. 여기서 MR-PheWAS(MR phenome-wide association studies, MR-PheWAS)분석법이란 의무기록정보 기반 표현체 연관 분석 방법으로 특정 집단 내의 다양한 개체들에서 나타나는 표현형과 유전형과의 연관성을 연구하는 방법으로, 이를 통해 단순히 커피를 마시는 사람과 비교하는 관찰적 기법이 아니라 임상 정보와 연계하여 위와 같은 연구결과를 도출하였습니다. 이러한 분석이 가능한 것은 임상 정보와 같은 방대한 표현형 정보가 바탕이 되었기 때문입니다. 즉, 데이터가 서로 융합이 될 때 더욱더 가치를 발하는 것입니다.
 
 

[Fig.4] 커피는 건강에 좋다? 지나치면 골관절염·비만 위험 키운다[연합뉴스]
(출처:다양한 커피잔[Cyril Saulnier 제공)

표현형 데이터는 말 그대로 야장(野帳)을 디지털화한 것입니다. 단지 기입하고 엑셀로 관리하는 용도가 아니라 적재적소에 활용할 수 이용할 수 있도록 데이터베이스 구축과 데이터의 시계열 분석 및 복합 쿼리를 통해 필요한 정보를 추출할 수 있도록 해야 합니다. 즉 디지털 야장(野帳)을 통해 개체 및 집단에 대한 데이터 분석, 가시화, 통계 분석을 지원할 수 있어야 합니다.
 
 
 
오늘 블로그에서 다루었던 디지털 육종 분야에서의 표현형 데이터는 단순히 아날로그식 기재방법으로 축적하는 것이 아닌, 대량의 표현형 데이터를 상황에 맞게 사용하기 위하여 데이터베이스 구축이 필요할 것입니다.
이를 위해 공공기관과 민간 기업에서 홍수처럼 쏟아지는 많은 양의 데이터를 적절히 관리하고 분석할 수 있도록 빅데이터 구축 사업을 꾸준히 진행하고 있는데요, 디지털 육종을 위한 표현형 데이터도 데이터베이스 구축을 통해 그 활용도와 효용성을 극대화할 수 있을 것입니다.



 
  • 표현형

표현형은 어떤 생명체의 겉으로 관측이 가능한 특정 모습이나 성질을 의미하며 유전형과 반대되는 개념.

멘델의 완두콩 실험을 설명하기 위해 처음 표현되었으며, 현대에 이르러서는 그 개념이 크게 확대되었습니다. 초기 멘델이 형질의 특성을 설명하기 위해 사용된 이 개념은 '유전자형이 곧 표현형으로 드러난다' 는 개념이었으며 완두콩의 '동그랗다'와 '주름지다' 등과 같이 실제 겉으로 드러나는 모양을 표현형이라고 부를 수 있습니다.

표현형은 우리가 흔히 마주할 수 있는 머리카락 색, 눈 색, 키 등과 같은 외향적인 모습뿐만 아니라 특징적인 행동, 발생, 생리학적 특성 또한 포함합니다. 이러한 표현형은 초기 유전형에 의해 결정되며 향후 환경적 요인에 의해 변할 수도 있습니다.

  • 육종의 개념

육종이란 농작물이나 가축을 개량하여 경제(실용) 가치가 더 높은 새로운 품종을 개발하고 증식하여 보급하는 기술입니다. 육종의 목표는 수량 증대와 품질 향상, 내재해성, 내병성, 맛, 향기(풍미), 모양, 사육 환경 등이 다양한 경제 형질로 정해질 수 있습니다.

육종의 대상은 농경을 시작한 이래로 산업적으로 유용한 형질(표현형)을 가진 모든 생물체가 그 대상이었습니다. 경주 능력을 목표한 '서러브레드' 경주마, 우리가 즐겨 먹는 마블링이 우수한 1등급 '한우', 매운맛의 강자 '청양고추', 가난에서 벗어나게 해준 수확량의 제왕 '통일벼', 밀을 대체할 벼 품종 '가루미' 등 동식물을 망라하고 인간에게 유용한 경제 형질을 가진 모든 분야에서 육종이 이루어져 왔습니다.

이렇게 다양한 특징을 가진 농작물 또는 가축을 만드는 것이 전통적인 분리육종만으로는 수십 년 이상을 필요로 하므로 현대 육종방법에서는 최첨단 과학기술을 사용하여 종자 개발을 진행하고 있습니다.

  • 전통육종과 분자육종

전통 육종 - 직접 식물 또는 동물을 교배하고, 재배(사육)하여 선발한 개체를 다시 재배하여 확인 작업을 거쳐 품종화시키는 방법이기에 최소 7년에서 20년 이상의 시간이 소요되며 겉으로 드러난 표현형만을 기준으로 하므로 육종의 목표가 되는 형질 외에 다른 형질의 내재성을 모르는 등 그 한계가 분명합니다.

분자 육종 - 육종기술에 분자 마커를 활용한 분자생물학 기술을 접목한 새로운 육종방법으로 마커를 통해 각 개체의 유전적 특성을 규명하고 효율적으로 우수한 개체를 판별하는 기술입니다. 유용한 형질을 가진 개체를 찾고 교배하는 것은 전통과 같으나 자손 세대의 재배 없이 분자마커를 이용해 원하는 개체를 찾을 수 있으며 많은 시간을 단축하거나 눈으로 확인할 수 없는 경우 등 개체 선발에 도움을 줍니다.

작성 : BS실 이규열 수석개발자
 


 

Posted by 人Co

2021/04/11 14:38 2021/04/11 14:38

人CoDOM Awards 2020, 영예의 수상자는?

 
안녕하세요? 人CoDOM의 네비게이션 MD협의회 입니다.

저희 인실리코젠은 매년 人CoDOM 우수작성자를 선정하는 행사가 있습니다. 올해는 노력상, 인기상 그리고 MD상으로 다양한 기준을 통해 우수작성자를 선정하였습니다. 과연, 영예의 수상자는 누구일까요?
 
 
 
 
수상자를 소개하기 전, 人CoDOM을 알고 계신가요?
이미 많은 분이 사용하고 계시지만, 생소하신 분들을 위해 간략하게 소개 하겠습니다.
 
人CoDOM은 생물정보 1위 기업인 ㈜인실리코젠에서 운영하는 생물정보(Bioinformatics) 분야의 지식 커뮤니티입니다. 人CoDOM의 특징은 위키 문법으로 작성되었기에 생물정보에 관심 있는 분이라면 누구나, 언제든지 작성하고 수정할 수 있다는 것입니다.
 
人CoDOM은 2014년부터 많은 생물정보 전문가와 개발자들의 노력으로 끊임없이 성장하여, 콘텐츠 수가 2,000편이 넘을 뿐만 아니라 월평균 이용자 수가 5만 명에 다다르고 있습니다. 人CoDOM은 크게 Article, Bioinformatics, Data Science 등의 카테고리로 구분되어 있어 관심 분야의 내용을 쉽게 작성하거나 구독하실 수 있습니다.
 
(주)인실리코젠의 모든 멤버들이 유익한 글로 人CoDOM을 빛내주셨습니다. 지난 2020년 한 해 동안 人Co인들이 공유해주신 내용 중, 人CoDOM 발전에 크게 이바지한 훌륭한 콘텐츠를 다양한 기준을 통해 선정해 보았습니다.
 
 
 
人CoDOM Awards 2020 - 노력상
 
첫 번째로 소개해 드릴 상은 노력상입니다.
[정보화사업/사업수행] 콘텐츠를 작성해주신 BS실 박병준 선임님께서 수상하셨습니다. 노력상은 사용자가 원하는 알찬 내용으로 작성해주신 콘텐츠로 선정합니다. 사업을 원활하게 수행하고 싶으시다면 [정보화사업/사업수행] 콘텐츠를 읽어보시는 걸 추천해 드립니다.
 
 
 
<노력상을 수상하신 BS실 박병준 선임님과 최남우 사장님의 기념사진>
 
노력상의 의미를 상을 받고 나셔야 알았네요. (웃음) 제가 人CoDOM을 쓰는 이유는 제가 하는 일을 다른 사람들이 편하게 이해할 수 있었으면 하는 마음으로 작성하고 있습니다. 앞으로도 그런 마음 변치 않고 쉽게 이해할 수 있는 글을 써보도록 노력하겠습니다. 감사합니다.
 
 
人CoDOM Awards 2020 - 인기상
 
두 번째로 소개해 드릴 상은 인기상입니다.
인기상은 [16s rRNA] 콘텐츠를 업데이트한 insilico Lab 조항철 주임님께서 수상하셨습니다. [16s rRNA]은 2020년 한 해 동안 가장 많이 구독된 콘텐츠로 인기상에 선정되었습니다. 미생물 분야에 입문한 연구자라면 필수로 짚고 넘어가야 할 [16s rRNA] 人CoDOM에서 바로 확인하세요.
 
 
 
<인기상을 수상하신 insilico Lab 조항철 주임님과 최남우 사장님의 기념사진>
 
우선 제가 업데이트한 콘텐츠를 방문해주시고, 사랑해주신 모든 분과 콘텐츠 원작자분께 감사의 인사 올립니다. 많이 부족한 내용이었음에도 생물학적으로 기본이 되는 내용이라 많은 분이 방문해주신 것으로 생각됩니다. 이분들 덕분에 상을 받을 수 있었고, 이번 기회를 발판 삼아 앞으로도 많은 분에게 도움이 될 수 있는 콘텐츠를 만들 수 있도록 노력하겠습니다. 다시 한 번 감사의 인사 올리며, 모두 건강한 나날 보내시길 바랍니다. 감사합니다.
 
 
人CoDOM Awards 2020 - MD상
 
마지막으로 소개해 드릴 상은 MD상입니다.
MD상은 작성된 모든 콘텐츠를 MD협의회가 살펴보고 투표한 결과와 함께 각종 측정지표에서 높은 점수를 받은 콘텐츠로 선정하였습니다. 영예의 콘텐츠는 insilico Lab 송하나 선임님께서 업데이트한 [계통수]입니다. 계통수의 정의부터 분석 방법 및 사례까지 알고 싶으시다면 [계통수]를 눌러 보시길 바랍니다.
 
 
 
<MD상을 수상하신 insilico Lab 송하나 선임님과 최남우 사장님의 기념사진>
 
안녕하세요. insilico Lab 송하나입니다. 人CoDOM은 생물정보학을 공부하시는 분들에게 매우 유익한 사이트가 아닐까 싶습니다. 저 또한 人CoDOM을 보며 부족한 부분을 공부했고, 이해한 내용을 바탕으로 연구자들에게 더 편리하게 연구할 수 있는 내용을 공유하고자 작성했는데요, 이 콘텐츠가 우수작으로 선정되어 매우 영광입니다(기본적인 이론의 틀을 잡아주신 초기 작성자분 감사드립니다). 생각지도 못한 선정에 약간은 놀랐지만, 더 좋은 양질의 콘텐츠를 제공해야겠다는 생각이 들었습니다. 人Co인 모두가 생물정보학 분야의 연구자들을 위해 부단히 노력하고 있습니다. 이런 人CoDOM이 널리 알려져 人Co인 뿐만 아니라 모든 연구자도 참여할 수 있기를 바라봅니다.
 
 
<시상식 이후 人CoDOM의 가치와 미래 방향성에 관해 설명하는 최남우 사장님>
 
"우리는 국내 생물정보 1위 기업입니다."
 
학창시절 모두 경험해 보았습니다. 열심히 공부한 친구들이 잘 정리된 노트를 공유하여 주변의 많은 사람에게 선한 영향을 끼치는 것을 발견했을 겁니다. 우리도 人CoDOM을 통해 생물정보 분야의 지식을 공유하여, 현업 연구자들과 미래 바이오 산업을 이끌어갈 인재들에게 도움을 주고 나아가 대한민국 바이오 산업의 발전을 이끄는 선순환 구조를 만들고 있다고 생각합니다. 지금처럼 학습한 지식을 주변과 공유하는 문화를 이어갔으면 합니다.
 
지난 7년 동안 人CoDOM에 2,024편의 콘텐츠가 등록됐습니다. 지금 이 순간도 人CoDOM에는 다양한 글들이 작성되고 있으며, 질적인 면에서도 빠르게 성장하고 있습니다. 앞으로도 기존 콘텐츠 업데이트와 신규 작성글을 통해 양질의 콘텐츠로 가득한 대한민국 대표하는 생물정보 지식의 공유의 장으로 발전했으면 합니다.
 
 
새로운 시작, 새로운 멤버
 
지난 한 해 동안 신규 작성과 기존 글 업데이트 등을 통해 人CoDOM의 우수한 콘텐츠를 만들어주신 모든 분께 이 자리를 빌려 깊이 감사드립니다.
 
 
<최남우 사장님과 신규 출범한 MD협의회 4기 위원들:
(왼쪽부터) 김형민 주임, 이용태 주임, 최남우 사장, 손효정 주임, 전지현 주임>
 
 
2021년에는 새로운 위원으로 구성된 MD협의회 4기가 출범하였습니다.
앞으로 더 나은 콘텐츠 제공과 한층 더 발전된 人CoDOM을 위해 노력하겠습니다.
많은 관심과 성원 부탁드립니다.
 
 
작성 : MD협의회
 

Posted by 人Co

2021/04/02 15:08 2021/04/02 15:08
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/376



유전체학의 발전은 인간의 질병을 이해하는 새로운 문을 열어주고 있으며 혁신적인 정밀 치료에 점점 더 많은 정보를 제공하고 있습니다.
2015년도에 전 세계 시퀀싱 스토리지 용량은 연간 1 페타바이트에 이르렀고, 7개월마다 용량이 두 배씩 지속적해서 증가하고 있습니다. 유전체 데이터는 향후 5년 동안 연간 수백 페타바이트를 생성할 것이며 2025년도까지 연간 스토리지가 거의 1 제타 바이트가 필요할 수도 있습니다. 이렇게 증가하는 질병 유전체 시퀀싱 데이터의 처리, 저장 및 분석에 유용한 솔루션인 Intel Select Solution을 소개하고자 합니다.




지난 3월 4일 저희 인실리코젠의 공식 페이스북을 통해서도 간략하게 소개해드렸었는데요, 당시 자세하게 설명해 드리지 않아 궁금한 점이 많으셨을 거로 생각합니다.
그래서 오늘은 Intel Select Solution - GATK Best Practice에 대해 상세히 설명해 드리고자 합니다.


Intel Select Solution은 컴퓨팅, 스토리지 및 네트워크에 특정 소프트웨어 워크플로우를 최적화하여 검증된 결과를 제공하는 것을 목표로 하여 세계 최고의 데이터 분석을 위한 솔루션 서비스 제공을 목표로 개발되었습니다.

해당 서비스 라인 중 GATK Best Practice는 유전체 분석을 위한 고성능 데이터 분석 컴퓨팅 클러스터 하드웨어 및 최적화된 워크플로우 소프트웨어 시스템입니다. 대용량 유전체 변이 분석을 위해 Intel 기술을 활용하여 GATK 파이프라인을 최적화할 수 있도록 Broad Institute에서 개발하였으며, 복잡한 설정 및 구성을 위한 검증 및 인증을 제공하여 유전체 수준의 데이터 분석을 빠르게 진행할 수 있도록 특별히 설계되었습니다.

더불어 Intel Select Solution - GATK Best Practice의 성능 및 품질은 Intel에서 인증을 받았고, 자사의 생물정보 분석 컨설팅 서비스와 결합하여 "Inco X Intel Select Solution - GATK Best Practice"가 탄생하였습니다.

하드웨어는 소규모에서 초대형 클러스터 슈퍼컴퓨터로 확장할 수 있도록 설계되었습니다. 맞춤형 시스템은 특정 요구 사항을 충족하도록 빠르고 동적으로 구성할 수 있으며, 강력한 최신 API 기반 소프트웨어로 리소스를 검색, 구성 및 모니터링하는 도구가 포함되어 있습니다.


[사진 1] Intel Select Solution - GATK Best Practice_설치된사진


 
  • 1. 최적화되고 효율적인 파이프라인 지원
  • 2. 최적화된 턴키 솔루션
  • 3. 사전 패키지된 WDL(워크플로우 설명 언어) 스크립트
  • 4. 다양한 애플리케이션 지원
  • 5. 간편한 IT 지원
  • 6. 더 많은 유전체 데이터에 액세스 가능
  • 7. 향상된 통계 기능
  • 8. 오픈 소스 소프트웨어
  • 9. 유연한 애플리케이션 구조
  • 10. 구현 용이성
  • 11. 확장성
  • 12. 설치 시간 단축
  • 13. 라이선스 비용이 없는 오픈 소스 소프트웨어
  • 14. 다양한 상용 솔루션도 적용 가능
  • 15. 최적화된 구성으로 최고의 효율성




다음 편에서 자세히 소개하겠지만, 하드웨어 구성과 사양이 궁금하신 분들은 아래 페이지에서 먼저 확인하실 수 있습니다.




유전체 연구는 질병을 이해하고 진단하는 것에 매우 중요한 역할을 합니다. 현재 연구원들이 이러한 기술을 사용하여 대규모 유전체 데이터 저장소를 구축하고 해당 데이터를 이해하게 됨에 따라 유전체 데이터 및 분석이 빠르게 발전하고 있습니다. Intel Select Solution - GATK Best Practice는 질병 유전체 연구를 위한 최고의 유전체 분석 솔루션으로, Broad Institute가 릴리즈 하는 GATK는 Intel Select Solution을 기반으로 구동, 검증, 배포되고 있어 GATK를 사용하여 대용량의 유전체 변이 분석을 하고자 하는 고객이 쉽게 시스템을 구축할 수 있는 장점이 있습니다. 그 결과 유전체 분석을 위해 맞춤화된 하드웨어 및 소프트웨어 솔루션으로 더 빠른 분석 및 최적화된 분석 환경을 제공합니다. 또한, Intel Select Solution - GATK Best Practice의 기본 구성으로 Human Whole Genome Sequencing 25~30 sample 데이터를 하루 만에 분석할 수 있으며, 서버 node를 확장함에 따라 더욱 많은 샘플을 빨리 처리할 수 있는 장점을 갖고 있습니다.





질병 유전체 시퀀싱 데이터의 처리, 저장 및 분석에 유용한 솔루션인 Inco X Intel Select Solution - GATK Best Practice에 관심 있으신 분은 인실리코젠으로 문의해주시고, 또한 후속편으로 Inco X Intel Select Solution - GATK Best Practice 하드웨어 구성사양, 작동원리 및 성능 벤치마킹 정보도 안내할 예정이오니 많은 관심 부탁드립니다.


작성 : iLAB 용승천 선임컨설턴트

Posted by 人Co

2021/03/21 19:45 2021/03/21 19:45
, , , , , ,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/373



우리는 빅데이터와 인공지능이 대세를 이루고 있는 시대에 살고 있습니다. 과거 산업혁명과 비교해서 4차 산업혁명 시대는 다양한 산업 분야와 산업 생태계에서 격세지감을 느낄 정도의 변화가 일어나고 있으며 그중에 바이오 헬스 산업은 향후 핵심적인 융합산업 분야로 주목받고 있습니다. 바이오 헬스 산업의 가장 기본이 되는 데이터 구축을 위해 국가 차원에서 바이오 빅데이터 구축 사업을 통해 바이오 데이터 구축 및 표준화로 미래 기술을 선점할 수 있는 기반을 만들기 위해 노력하고 있습니다. 이러한 기조에 맞춰 인실리코젠도 보건복지부, 과학기술정보통신부, 산업통상자원부가 컨소시움을 이루어 2년 동안 총 2만 명의 임상정보와 유전체 데이터 수집을 목표로 하는 국가 바이오 빅데이터 구축 시범 사업의 일환인 희귀질환 빅데이터 플랫폼 구축 사업 일부에 동참하여 희귀질환 극복을 위한 노력에 일조하고 있습니다. 이번 시간에는 희귀질환을 극복하기 위한 국내외 연구 기관에 관해 이야기하고자 합니다.




우선 희귀질환의 정의는 법률적으로 유병(有病) 인구가 2만 명 이하이거나 진단이 어려워 유병인구를 알 수 없는 질환으로 보건복지부령으로 정한 절차와 기준에 따라 정한 질환을 말합니다. 국내 희귀질환 관련 법률은 개인적/사회적 부담을 감소시키고, 국민의 건강 증진 및 복지 향상에 이바지하는 것을 목적으로 2015년에 희귀질환관리법이 제정되었으며, 국가관리대상 희귀질환 지정은 희귀질환관리법에 따라 유병인구 수, 질환 진단에 대한 기술적 수준, 질환 진단을 위한 인력 및 시설 수준, 질환에 대한 치료 가능성 등을 기준으로 희귀질환관리위원회의 심의를 거쳐 희귀질환으로 지정하게 되어 있습니다. 국내 기준과 달리 미국은 유병인구 20만 명 미만이거나 인구 1,500명당 1명, 유럽은 인구 2,000명당 1명, 일본은 유병인구 5만 명 미만이거나 인구 2,500명당 1명으로 발병하는 질환을 희귀질환으로 정의하고 있으며, 아직 세계적으로 합의된 정의는 없는 상태입니다.

희귀질환 환자의 질병에 대한 이해를 높이고, 질환에 대한 빠른 진단과 치료의 적용, 그리고 치료법 개발을 위해선 질환 데이터베이스 구축이 필수적이었기에, 이전에는 질환 데이터베이스 구축을 주로 희귀질환 관련 기관 및 단체가 주도하여 개발하고 유지되는 경우가 많았으나, 최근엔 국가 혹은 연합 단위로 데이터베이스를 구축하고 다양한 서비스를 제공하는 방향으로 변화하고 있습니다.

다음은 대표 희귀질환 관련 기관과 단체, 그리고 그 데이터베이스에 대한 특성을 말씀드리겠습니다.



  • 미국 국립희귀질환기구(NORD)
NORD는 1982년 희귀 질환 치료법 개발에 대한 재정적 인센티브를 지원하는 것을 골자로 한 희귀질환의 약물에 관한 법률이 미 국회를 통과하여, 이를 주도적으로 이끌었던 희귀질환 환자 지원 단체들이 연합하여 1983년 NORD(National Organization for Rare Disorders)로 조직되어, 현재까지 꾸준한 활동을 펼치고 있습니다. NORD 웹 사이트(https://rarediseases.org)에는 약 1,300여 개의 희귀질환 목록을 유지하고 있으며, 지원 기관들과 치료법 등에 대한 자세한 정보를 포함하고 있습니다.


<그림1. 미국 국립희귀질환기구 (NORD) 웹사이트>
 
  • 미국 유전병 및 희귀질환정보센터
GARD(Genetic and Rare Diseases Information Center)는 미국국립보건원(NIH)과 미국 국립인간게놈연구소(NHGRI)에서 지원받아 운영되는 센터로 희귀질환 환자의 지원, 희귀질환 진단 및 치료지원, 연구자 연결, 연구 및 치료 자금 지원 연결, 희귀질환에 대한 교육 등을 주된 활동으로 하고 있습니다. GARD 사이트(https://rarediseases.info.nih.gov/) 내에 희귀질환의 정보를 서비스하고 있으며, 질환 정보, 유전 여부, 진단 및 치료정보뿐만 아니라 환자를 지원하기 위한 지원기관, 전문가 목록, 질환 관련 콘퍼런스 및 이벤트 일정 등을 제공하고 있습니다.
 

<그림2. 미국 유전병 및 희귀질환정보센터 (GARD) 홈페이지>
 
  • Global Genes
Global Genes(https://globalgenes.org/)는 희귀유전질환 환자와 그 가족을 위한 국제 비영리 단체입니다. 이 기구는 희귀유전질환에 대한 의식을 고양하기 위한 공교육 제공과 소셜 미디어를 통한 지역사회 지원 체계를 구축하고, 치료와 치료법을 찾기 위한 연구 자금 지원을 하고 있습니다. 또한, GARD 등에서 유전정보를 참고하여 정보를 제공하고 있으며, 희귀유전환자와 그 가족에게 질환의 진단 및 치료를 지원받을 수 있는 기관 목록을 함께 제공하고 있습니다.
 

<그림3. Global Genes 홈페이지>
 
  • 유럽희귀질환환자연맹(EURORDIS)
EURORDIS(European Organization for Rare Diseases)는 유럽연합 내에 있는 70개국 837개 희귀병 환자 조직을 대표하는 비영리 기구로 1997년에 설립되었습니다. EURORDIS는 환자, 가족, 환자 그룹을 연결하고 모든 이해당사자를 모아 질환을 연구하고 환자를 대상으로 하는 다양한 서비스를 제공하고 있습니다. 또한 세계희귀질환의 날을 제정하여 국제적인 관심과 이해를 촉구하고 있습니다. 연맹 자체에서 운영하는 데이터베이스는 보유하고 있지 않지만, 대신에 관련 정보는 프랑스 국립보건의학연구소의 Orphanet을 이용하도록 유도하고 있습니다.
 

<그림4. 유럽희귀질환환자연맹 (EURORDIS) 웹사이트>
 
 
  • 스웨덴 희귀질병정보센터(Swedish Information Centre for Rare Diseases)
스웨덴에서는 질병이 인구 1만 명당 1명 미만에 장애를 일으킬 때 희귀질환으로 정의하고 있으며, 이러한 정의를 기반으로 2019년 2월까지 440여 개의 희귀질환에 대한 정보를 제공하고 있으며, 스웨덴 국립 희귀질환연구소(NFSD, https://www.socialstyrelsen.se/)와 스웨덴 대학병원 및 다양한 의료 전문 센터와 연계하여 환자의 진단 및 지표를 지원하고 있습니다.
 

<그림5. 스웨덴 희귀질병정보센터 웹사이트>
 
 
  • 일본 희귀 및 미진단 질환 이니셔티브(IRUD)
일본은 2015년 일본 의료연구개발청(AMED)에서 일본의 희귀 및 난치성 질병 프로젝트의 일환으로 IRUD(the Initiative on Rare and Undiagnosed Disease)를 시작하였고, 2018년 3월까지 3,083명의 환자와 그 가족을 대상으로 총 8,837개의 시료를 수집하여 추출한 엑솜(Exome) DNA 염기서열 해독 정보와 의료 정보를 결합해 희귀질환을 연구하고 있습니다. IRUD는 희귀 및 미진단 질환의 기초 연구에도 큰 도움이 되고 있으며, 확보한 환자 및 가족 엑솜 DNA 정보를 바탕으로 데이터베이스를 만들어 이를 통해 전 세계와 공동 연구를 늘려가고 있습니다. 이제까지 몰랐던 질병 관련 변이나 유전자도 찾아내어 엑솜 외의 DNA 영역까지 모두 해독해 RNA, 후성유전 등 다양한 유전학 영역을 탐구하고 있습니다.
 

<그림6. 일본 희귀 및 미진단 질환 이니셔티브 (IRUD) 웹사이트>
 
 
  • 질병관리청 희귀질환 헬프라인
국내의 경우 질병관리청에서 2012년부터 일부 희귀질환에 대해 전국 단위의 전문가 네트워크를 구성하여 환자 임상자료 및 생체자원을 수집하고 있으며, 이를 통해 희귀질환의 진단, 치료 및 예후 등에 대한 임상정보와 시료를 수집, 분석하여 한국인의 임상적 특성을 규명하고 국내외 관련 전문가들과 정보 공유를 통해 해당 질환의 진료와 치료기술을 개발하고, 환자들의 조기 진단 및 진료의 질 향상에 기여하기 위해 헬프라인을 운영하고 있습니다. 국내 6개 질환 (시신경척수염, 아밀로이드증, 유전성 부정맥, 전신홍반성루푸스, 조직구증식증, 크론병)에 대한 전문가 네트워크를 운영하고 있으며, 2020년 11월 1,014개의 질환에 대한 증상, 원인, 진단, 치료 등의 정보를 제공합니다. 또한, 관련 임상시험 정보 제공을 위해 미국국립보건원의 ClinicalTrials.gov 데이터베이스로 연결을 제공하고 있습니다.
 

<그림7. 질병관리청 희귀질환 헬프라인>
 
  • 한국생명공학연구원 희귀난치질환연구센터
한국생명공학연구원(KRIBB)의 바이오의약연구부 소속 희귀난치질환연구센터는 빅데이터 기반의 희귀난치성 신경계 질환의 정밀, 맞춤의료연구 인프라 구축을 통해 희귀난치성 신경계 질환의 진단과 치료를 위한 원천기술 개발을 목표로 희귀난치성 신경계질환의 임상시료와 임상정보, 유전체 정보를 확보하여 한국인 유전체표준변이지도 작성하고 고급 데이터베이스를 구축하고 있습니다. 현재까지의 연구 성과는 뇌 발달장애 원인 신규 변이 발견 및 동물 모델 개발로 소아간질, 자폐 , 지적장애를 유발하는 TSC 유전성 뇌 발달질환의 in-vivo 동물 모델 제작과 in-vitro 신경줄기세포 배양 시스템을 이용하여 뇌 발달질환 진단 표지자 발굴을 위한 시스템이 구축되었고, 질환 특이적 대용량 NGS 유전체 데이터 생산 및 분석 파이프라인 구축으로 대용량 NGS(Next Generation Sequencing) 유전체 데이터와 다중 이형 바이오 빅데이터 처리, 가공, 분석을 위한 시스템을 구축하였습니다.
 
  • 한국희귀질환재단
한국희귀질환재단(Korean Foundation for Rare Disease)은 시민과 지자체, 기업, 단체 등의 후원과 참여로 이루어지는 순수 공익재단으로, 그 모체가 되는 '한국희귀질환연맹'의 지난 10년 동안의 활동을 통해 파악된 희귀질환 환자와 가족들의 충족되지 못한 욕구와 간절한 염원을 담아 희귀질환찾기, 유전상담 서비스 지원, 효율적인 희귀질환 치료를 위한 R&D 연구 지원, 진단 사업 지원, 자원봉사 네트워크 구축 및 관리 지원, 특수 보육 교육 프로그램 개발 및 지원 사업 등을 보다 전문적이고 효율적으로 제공하기 위해 설립되었습니다.
 

<그림8. 한국희귀질환재단 홈페이지>
 
 

 
이상이 국내외 대표적인 희귀질환 관련 단체에 대한 간략한 설명이었습니다. 위의 단체들은 각기 지역과 국가, 질환에 특화된 환자와 가족을 대상으로 하는 다양한 서비스를 제공하고, 진단과 치료를 위한 지침과 성과를 지속해서 업데이트하고 있습니다. 말라리아의 경우 아프리카에서는 너무나 흔한 질환이지만 북유럽의 경우는 희귀질환인 경우가 있듯이 전 세계가 연구 성과를 공유하고 지속해서 정보를 수집하고 분석한다면 희귀질환 극복의 시기를 앞당길 수 있을 것이라 기대하며 위의 단체와 기관은 설립 목적을 잊지 않고 질환 극복의 그 날까지 계속해서 정진해 나가기를 바라며 이만 희귀질환 관련 기관 소개를 마칩니다.
 
 
작성 : 대전지사 양성진 책임 개발자

Posted by 人Co

2021/02/28 20:23 2021/02/28 20:23
,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/372

연말정산 납부세액 계산방법 소개



대한민국 직장인이라면 매년 진행하는 것이 있습니다. 바로 연말정산입니다.
연말정산을 통해 나온 납부세액이 잘못 나온 게 아닌가 하는 의문을 가진 경험도 한 번쯤은 있으실 겁니다. 번거롭기도 하고 규정과 상황이 항상 똑같을 수 없으므로 직접 납부세액을 계산하는 것은 어려울 수밖에 없습니다.
이 어려움을 조금은 극복하는 데 도움을 드리고자 오늘 블로그는 납부세액을 계산하는 전반적인 흐름을 소개하고자 합니다.
{*} 2021년 02월 기준으로 작성된 내용이므로 연마다 변동사항이 있을 수 있습니다.


[Fig. 1] 연말정산계산흐름도
 
 


1. 총급여액 : 연봉(급여+상여+수당+인정상여)
2. 비과세소득


[Fig. 2] 비과세 소득
 

3. 근로소득공제

총급여액(인정상여 포함)

근로소득공제(공제한도: 2,000만 원)

500만 원 이하

총급여액 * 70%

500만 원 초과 1,500만 원 이하

350만 원 + (총급여액 - 500만 원) * 40% (또는 150만 원 + 총급여액 * 40%)

1,500만 원 초과 4,500만 원 이하

750만 원 + (총급여액 - 1,500만 원) * 15% (또는 525만 원 + 총급여액 * 15%)

4,500만 원 초과 1억 원 이하

1,200만 원 + (총급여액 - 4,500만 원) * 5% (또는 975만 원 + 총급여액 * 5%

1억 원 초과

1,475만 원 + (총급여액 - 1억 원) * 2% (또는 1,275만 원 + 총급여액 * 2%




  • 종합소득공제
    • 기본공제: 1인당 150만 원
    • 인적공제

[Fig. 3] 기본 공제 요건

    • 추가 공제
    • 추가공제 항목

      공제요건

      공제금액

      경로우대자공제

      70세 이상인 경우(1950.12.31. 이전 출생자)

      1인당 연 100만 원

      장애인공제

      장애인인 경우

      1인당 연 200만 원

      부녀자공제

      당해 거주자(종합소득금액이 3천만 원 이하) 본인이
      *배우자가 있는 여성인 경우
      *배우자가 없는 여성으로서 부양가족이 있는 세대주인 경우

      연 50만 원

      한부모소득공제

      배우자 없는 거주자로서 기본공제대상자인 직계비속 또는 입양자 있는 경우

      연 100만 원

    • 연금보헙료공제 : 원천징수의무자(회사)가 급여에서 일괄 공제 (별도 신청 X)
    • 특별소득공제
      • 건강·고용보험료 : 원천징수의무자(회사)가 급여에서 일괄 공제 (별도 신청X)
      • 주택자금 :
      • 공제종류

        주택규모

        공제금액

        한도액

        주택임차자금차입금
        원리금상환공제액

        국민주택 이하
        (주거용 오피스텔 포함)

        원리금 상환액 * 40%

        상환기간 10년 이상 300만 원 한도
        상환기간 15년 이상 연 500만 원 한도
        고정금리 및 비거치식 기준에 따라 변동될 수 있음.

        장기주택저당차입금
        이자상환액 공제

        제한없음(주거용 오피스텔 제외).

        이자상환액

        상환기간 10년 이상 이자상환액
        상환기간 15년 이상 연 500만 원 한도
        고정금리 및 비거치식 기준에 따라 변동될 수 있음.

  • 조특법상 소득공제
  1. 주택마련저축공제
    • 공제한도: 저축불입액 * 40%
    • 한도액: 2,500만 원
  2. 신용카드 등 공제(2020년 한정)

[Fig. 4] 신용카드 세액공제
 
  • 기존 신용카드 등 공제율
  • 구분

    공제율

    신용카드

    15%

    현금영수증·체크카드 등

    30%

    도서·공연·미술관 등

    30%

    전통시장·대중교통

    40%

  • 산출세액 = 과세표준 * 세율
  • 과세표준

    세율

    1,200만 원 이하

    과세표준*6%

    1,200만 원 초과~4,600만 원 이하

    과세표준*15%-108만 원

    4,600만 원 초과~8,800만 원 이하

    과세표준*24%-522만 원

    8,800만 원 초과~1억5천만 원 이하

    과세표준*35%-1,490만 원

    1억5천만 원 3억 원 이하

    과세표준*38%-1,940만 원

    3억 원 초과 5억 원 이하

    과세표준*40%-2,540만 원

    5억 원 초과 10억 원 이하

    과세표준*42%-3,540만 원

    10억 원 초과

    과세표준*45%-6,540만 원




  • 근로소득세액공제
  • 근로소득에 대한 산출세액

    근로소득세액공제

    130만 원 이하

    산출세액 * 55%

    130만 원 초과

    715,000원 + (130만 원 초과 산출세액) * 30%

     


  • 자녀세액공제
    • 기본공제대상 자녀(손자·손녀 제외)로서 7세 이상의 자녀 수에 따라 세액공제
      • 1인: 연 15만 원 / 2인: 연 30만 원 / 3인 이상: 연 30만 원 + 2인 초과 1인당 30만 원
    • 출산·입양공제
      • 첫째 연 30만 원 / 둘째 연 50만 원 / 셋째 이상 연 70만 원
  • 월세세액공제: 세액공제액 = Min(월세액, 750만 원) * 10%특별세액공제
    • 무주택 세대의 세대주인 근로자
    • 총급여액 7천만 원 이하로서(종합소득금액 6천만 원 초과자 제외)
    • 국민주택규모주택 또는 기준시가 3억 원 이하인 주택(주거용 오피스텔, 고시원 포함)에 대한 월세
[Fig. 5] 특별세액공제
 

[Fig. 6] 보험료 세액공제
 

[Fig. 7] 의료비 세액공제
 

 [Fig. 8] 교육비 세액공제
 

[Fig. 9] 기부금 세액공제
 
 

 

결정세액과 기납부세액을 비교하여 (+)인 경우 납부 (-)인 경우 환급

  • 기납부세액: 종합소득공제 중 연금보험료공제, 건강·고용보험료공제 등 매월 원천징수한 세액
 
 

 

이혼 시 재산분할? 위자료 청구? 세금에서는 어떤 것이 더 유리할까요??
재산의 양도로 발생하는 이익(소득)에 대해서 양도소득세가 부과되는데 부부가 이혼하여 재산분할이나 위자료 지급 또한 재산의 양도로 구분이 됩니다.

  1. 재산분할의 경우 : 양도소득세가 부과되지 않습니다.
    • 이혼하면서 재산분할을 원인으로 부동산을 이전하는 경우 양도소득세나 증여세가 부과되지 않습니다.
    • 이혼재산분할은 부부가 공동으로 이룩한 재산에 대한 청산의 관점으로 보기 때문에 재산을 양도하는 것이나 증여하는 것은 아니라고 보기 때문입니다.
  2. 위자료의 경우 : 부동산양도의 경우 양도소득세가 부과됨
    • 위자료를 금전으로 지급하는 경우에는 세금이 문제 되지 않지만, 위자료의 명목으로 부동산을 이전하는 경우 양도소득세가 부과될 수 있습니다.
    • 위자료 명목으로 부동산을 이전하는 것은 일정액 상당의 위자료 지급의무를 소멸시키는 경제적 이익을 얻는 양도에 해당하여 양도소득세가 부과되는 것입니다.

물론 이혼할 일이 없어야겠지만 이런 상황에 세금마저 내야 한다면 억울하겠죠. 사정에 따라 다르겠지만, 부부간 재산을 정리할 때는 세금도 고려해서 본인에게 이익되는 방향으로 진행하시기 바랍니다.

연말정산 절차가 간소화되어가며 직접 연말정산 납부세액을 계산하는 일은 확연히 줄었습니다. 실제 계산을 하기 위함보다는 나의 납부세액이 어떻게 결정되느냐의 전반적인 흐름을 파악하는 것을 통해 놓칠 수 있는 세액공제나 세액감면 등의 혜택을 받을 수 있다고 생각합니다.

 
작성 : MS팀 안종범 연구원

Posted by 人Co

2021/02/20 23:48 2021/02/20 23:48
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/371

교배 육종에서 디지털 육종으로



인류에게 종자는 가장 기본이 되는 일차적 요소로서 오늘날 세계 종자시장 규모는 유례없이 빠른 성장세를 보이고 있습니다.
현재 국내 관계부처에서는 농, 수, 축산 분야에서 아날로그식 교배 육종에서 디지털 육종으로 종자 산업의 패러다임 전환을 예상하고 관련 사업을 적극적으로 지원하고 있는데요, 오늘 블로그는 이러한 디지털 육종에 대해 알아보도록 하겠습니다.




오늘 점심으로는 무엇을 드셨나요? 전주 한정식에 올라온 한끼 메뉴에 영양 많은 강낭콩이 들어간 돌솥밥에 불고기, 조기구이, 호박나물, 잡채, 신선한 굴까지 26개의 반찬이 올라왔습니다. 식자재로 따져 보면 마늘, 파, 고추, 계란 등 아마도 족히 50가지는 넘을 것 같습니다. 우리는 이런 식자재를 마트나 새벽 배송을 통해서 언제나 쉽게 구할 수 있죠. 어떻게 가능했을까요? 너무 쉬운 일이라 고민해볼 여지도 없는 것이겠지만, 이것은 모두 육종 덕분입니다. 곡류를 비롯한 채소류, 육류(소, 돼지, 닭 등), 수산물(넙치, 전복, 고등어)까지 모두 육종을 통해 농장과 양식장에서 생산성 높게 길러지고 있음을 우리는 잘 알고 있습니다.
[Fig. 1] 전주한정식
 
단적인 예로 쌀의 경우 여리고 키가 크며 붉은색 쌀알이던 야생벼에서 현재의 튼실하고 흰 쌀알로 육종되었으며, 콩도 땅에 기어 자라던 야생종에서 현재의 위로 자라는 종으로 육종되어 생산성이 매우 높아지게 되었습니다. 이렇듯 오랜 세월 우리 주변의 동·식물을 우리가 선호하는 형태로 변화시킨 육종은 오늘날 점점 더 가속화, 세분화되고 있습니다. 닭의 경우만 보더라도 계란을 얻으려는 목적의 알을 잘 낳는 닭과 닭고기를 얻으려는 목적의 빠른 성장과 근육이 많은 닭으로 각각 세분화하여 목적에 부합하는 형태로 육종되었습니다.
 
[Fig. 2] 재배벼의 조상인 여러 가지 야생벼와 재배벼
 
[Fig. 3] 야생콩과 재배콩 (출처 Jeong-et-al., 2013)
 
 

 
그럼 육종 방법에 대해 좀 더 자세히 알아보겠습니다.
  • 도입 육종 : 기후나 풍토가 유사한 다른 나라에서 개발된 품종을 국내로 도입하여 검역과 검정평가를 통해 증식시키는 육종으로, 1959년 미국에서 도입한 옥수수가 대표적입니다.
  • 교배 육종 : 서로 다른 우수한 형질을 갖는 개체들을 교배하여 한 개체에서 우수한 형질 모두를 가질 수 있도록 하는 것으로, 대부분의 전통 육종방식이 이에 해당합니다. 육종가들에 의해 수년 동안 반복적인 교배와 표현형에 의한 개체 선발 과정이 수반되는 터라 시간적, 공간적, 비용면에서 효율성이 낮다는 단점이 있습니다.
  • 형질 전환 육종 : 유전자 재조합 방식을 이용해 관심 형질 유전자를 유전체에 도입하는 방식으로 기존의 생명체에서 없던 형질을 갖도록 종을 개량합니다. 흔히 GMO(Genetically Modified Organism)와 LMO(Living Modified Organism)를 들 수 있는데(유전자 재조합을 통해 변형된 생물체를 LMO로 한정하고 이들 생명체를 제조, 가공한 것까지 포함한 것을 GMO로 함), 제초제 내성을 갖는 콩이나 냉해에 강한 딸기, 옥수수 등이 이에 해당합니다. 인류가 섭취해온 이력이 없는 단백질을 포함하고 있어 알레르기 반응을 포함한 알려지지 않은 문제의 가능성 때문에 심리적으로 불편함을 느끼는 이슈가 있습니다.
  • 디지털 육종 : 유전형-표현형에 기반을 둔 선발 육종 방식으로 다양한 표현형을 갖는 집단에서 특정 형질(표현형)을 갖는 개체들만을 유전형을 이용하여 선발하는 방식입니다. 최근 6~8년 걸리던 호박의 새 품종 개발을 3년 이하로 줄일 수 있었던 첨단 육종 기술입니다.


이렇게 간단히 살펴본 육종 기술 가운데, 현재 가장 발전된 기술은 디지털 육종이라 불리는 유전형 기반의 육종입니다.
NGS (Next generation sequencing)라는 대용량 시퀀싱 기술로 유전체 서열을 밝히고, 표현형이 다양한 개체들의 변이 정보를 생산함으로써 표현형과 연관된 유전형을 찾아 마커로 개발하는 방식은 기존의 다른 육종 기술의 단점들을 대부분 보완하고 있습니다.
가장 전통적으로 진행해 오던 교배 육종은 교배된 F1 세대부터 다수의 개체를 키워가며 목표 표현형에 부합되지 않는 개체들을 솎아내며 몇 세대가 될지 모를 목표 형질에 다다를 때까지 교배와 솎아냄을 반복합니다. 그러다 보니 시간적으로나 물리적으로 필요한 재배 환경까지 비용면에서 효율성이 낮았습니다. 게다가 전복과 같이 3년은 키워야 비로소 교배가 가능한 종일 경우, 소처럼 다음 세대의 개체수가 극히 적은 경우 (1마리의 새끼만을 낳는 경우), 과실수와 같이 한세대가 너무 길어 표현형을 확인하는 데 몇 년씩 걸리는 경우들은 교배 육종으로는 한계가 있습니다. 그에 반해 디지털 육종은 현재 관찰 가능한 개체들을 대상으로 선발하기 때문에 공간적, 시간적 제약에서 비교적 자유롭습니다.
형질 전환 육종에서의 이슈는 생명 현상의 대부분이 여러 유전자의 복합적인 상호작용으로 이뤄지기 때문에 유전자 하나를 도입한다고 해서 해당 형질이 바로 얻어지지 않는 단점이 있습니다. 도입된 유전자가 발현되어 단백질이 되었을 때 세포 내의 다른 단백질과 혹은 다른 유전자들과 어떤 상호 작용을 하느냐에 따라 표현형은 다르게 나타날 수 있기 때문입니다. 따라서 목표 유전자를 선택하고 제어하는데 생물학적 메커니즘의 이해가 수반되어야 하는 어려움이 있습니다. 그러나 디지털 육종은 자연적으로 생겨난 개체들 가운데 목표 형질을 갖는 개체를 선발하는 방식이라 유전자 재조합에 대한 불편함 및 생물학적 메커니즘 이해가 필요하지 않습니다.




그럼 디지털 육종에 대한 보다 정확한 이론을 살펴보겠습니다.
디지털 육종에는 필수 요소 3가지가 있습니다. 개체 (샘플), 표현형, 유전형이 그것인데, 모두 앞선 기술들에 비해 수집하는 데 유리합니다.
먼저 개체 확보 면에서 디지털 육종은 현재 관찰이 가능한 모든 개체를 대상으로 합니다. 야생종부터 돌연변이 종까지 제한이 없으며, 동일한 생장 조건이 필요하지도 않습니다. 예를 들어 밤나무의 경우 전국의 수집 가능한 모든 밤나무가 대상이 될 수 있습니다. 나무의 연령이 모두 달라도 괜찮습니다. 호박과 같은 채소류의 경우 일부러 교배를 통해 다양한 개체를 얻었다면 그 또한 모두 가능합니다.

두 번째, 표현형 정보는 현재 확보된 개체들에서 관찰되는 모든 것을 대상으로 할 수 있습니다. 밤나무의 경우 알곡의 크기, 밤나무가 위치한 지역, 수확 시기, 나무의 크기, 한 가지에 달리는 밤송이의 수, 나무의 연령 (가능하다면) 등 현재 시점에서 관찰할 수 있는 모든 것이 표현형으로 정리될 수 있습니다. 이를 좀 더 효율적으로 수집하고자 하는 기술이 Edging computing을 이용한 디지털화된 장비를 이용한 표현형 수집입니다. 온실에 카메라를 설치하고 주기적으로 사진을 촬영하여 호박의 성장 정보를 영상 분석을 통해 처리하는 AI 기술이 접목된 스마트 팜이 이에 해당합니다.

마지막인 세 번째 유전형 생산은, NGS 기술과 생물정보의 발달로 누구나 쉽게 얻을 수 있게 되었습니다. 심지어 오늘 드신 모든 식재료의 유전체가 밝혀져 있다는 사실만 보아도 얼마나 보편화된 기술인지 알 수 있습니다. 이들 3요소가 모두 데이터로 갖춰졌다면 총 4단계의 생물정보 분석을 통해 육종이 이뤄집니다.


[Fig. 4] 육종을 위한 4단계의 생물정보 분석
  • [1단계] 표현형과 연관된 변이 마커 찾기 : GWAS(Genome Wide Association Study)라 불리는 일종의 통계 분석으로 특정 표현형으로 집단을 구분한 후에 구분된 집단과 연관성이 높은 변이를 찾아내는 방법입니다. 이때, 표현형은 꼭 두 개의 집단으로 양분되는 구조가 아니어도 됩니다. 밤 알곡의 크기는 정량적인 수치로 크기에 따라 동일한 패턴으로 유전형이 나타난다면, 해당 변이는 알곡 크기에 연관된 마커로 선택될 수 있습니다. 병 저항성의 경우에도 잎의 60%가 마르는 데 걸리는 시간으로 표현형을 정량화할 수 있습니다.
  • [2단계] 기계학습 : 표현형에 따른 집단의 구분력을 보이는 변이만을 유전형 데이터로 활용하여 표현형-유전형 기계학습을 수행합니다. 이때, 수집된 개체의 75% 정도를 학습 데이터로 활용하고, 나머지 25%는 학습된 기계학습의 정확도 평가를 위해 사용합니다. 밤 알곡의 크기를 예측하기 위한 기계학습을 예로 들면, 1단계에서 선별된 변이 마커가 30개라면, 개체별 30개의 유전형 정보에 따라 측정된 알곡의 크기를 표현형 정보로 학습되도록 합니다. 이후 구축된 예측모델을 이용해 남겨 두었던 25% 개체의 유전형 정보를 넣고 해당 표현형이 예측될 가능성이 얼마나 될지 확률치를 얻게 됩니다. 기계 학습의 평가는 True Positive (정답을 정답으로 예측), False Negative (오답을 오답으로 예측)로 계산되는 Specificity와 Sensitivity로 정리됩니다. 만약 결과가 만족스럽지 못하다면, 기계학습 알고리즘을 변경해 보거나 학습 데이터를 변경해야 합니다. 학습에 이용되는 30개 마커의 유전형 정보는 개체별로 모두 다를 수 있습니다. 이는 마커 개개의 정보력이 약하기 때문인데, 다수의 개체에서 기계학습을 통한 반복적인 학습을 통해 조금씩 다른 유전형임에도 동일한 표현형으로 학습시켜 정확도를 높일 수 있습니다. 또한, 마커 개별의 정보력이 약한 것은 오히려 한두 개의 변이 정보가 소실된다 할지라도 기계학습의 표현형 예측에는 큰 변수가 되지 않아, 기존의 SSR과 같은 분자 마커를 활용한 육종보다 한 단계 진보한 기술이라 할 수 있습니다.
  • [3단계] 확장된 검증 : 구축된 기계학습모델로 더 많은 개체에 적용해 봅니다. 해당 표현형을 예측하는 데 사용되는 마커는 1단계에서 30개로 선별되었고, 이후 미지의 시료에 대해 30개 마커 유전형만을 타입핑하여 표현형을 예측합니다. 이는 여러 출처의 개체로 검증해보는 것이 좋습니다.
  • [4단계] 교배효율 검사 : 기계학습모델 검증이 완료되었다면 최적의 교배 지침을 위한 F1 세대의 표현형 예측 시뮬레이션을 진행합니다. 부·모가 될 개체의 유전형을 기반으로 F1 세대에서 나타날 수 있는 유전형을 무작위 방식 구성합니다. 이때 F1 세대의 개체수는 2,000개체 이상, 유전형은 해당 표현형을 예측하는 마커 수, 앞선 예로 들자면 30개 유전형을 인실리코상에서 데이터로 생산합니다. 이후 2,000 개체의 유전형을 이용해 구축된 기계학습으로 표현형을 예측하여 F1 세대에서 해당 표현형을 가질수 있는 평균 개체수가 어느 정도 되는지 수치화합니다. 이러한 방식으로 F1 세대에서 해당 표현형을 가질 수 있는 개체수가 많은 순서로 교배 조합을 시뮬레이션합니다. 어패류의 경우 교배를 위해 다수의 친어를 수조에 넣어 진행하고, 체외 수정을 하는 종이기 때문에 이러한 교배효율 시뮬레이션은 다음 세대의 육종 효율을 높이는 데 매우 중요합니다.



최근 종자의 중요성이 대두되면서, 육종에 대한 한 차원 발전된 기술의 적용이 범국가적으로 진행되고 있습니다. 디지털 육종이라 불리는 신기술은 이제 표현형-유전형으로 대두되는 데이터 육종으로 진화해 가고 있습니다. 따라서 비록 지금은 정보력이 낮은 표현형 하나하나도 모두 데이터화 하려는 노력이 필요합니다. 육종은 살아있는 생명체에 행해지는 것입니다. 우리가 먹지 않는 사료로 이용되는 옥수수라 할지라도 유전적 변형이 행해지게 되면, 생태에 변화를 초래할 수 있어 매우 조심스럽게 접근해야 하는 분야입니다. 그런 면에서 데이터 육종은 자연스레 발생된 개체들 가운데 유전형을 이용한 선발 방식이라 안정적입니다. 안전하게 자연의 일부로 존재하는 육종을 위해 데이터 육종은 앞으로 더욱 데이터를 쌓아 가야할 것입니다.

작성 : RDC 신윤희 책임 연구원

Posted by 人Co

2021/01/31 00:37 2021/01/31 00:37
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/370

클라우드 네이티브 소개



최근 인공지능, IoT, 5G 등 첨단 IT 기술이 발전하면서 데이터의 양이 빠르게 증가하고 있습니다. 이러한 빅데이터를 다루기 위해서는 이를 저장하고 처리할 수 있는 넉넉한 IT 자원이 필요합니다. 하지만 이를 일반 기업에서 구축하기에는 비용 등의 문제가 많이 발생합니다. 이런 문제를 해결하기 위해 많은 기업이 직접 데이터 센터를 구축하기보다 클라우드를 도입하기를 희망하고 있습니다.

오늘 블로그는 클라우드 환경을 최대한 활용할 수 있도록 애플리케이션을 구축 및 실행하는 방법인 클라우드 네이티브에 대하여 소개하고자 합니다.




기존의 온프레미스 환경과 클라우드 환경은 달라서 애플리케이션을 구축하는 방법을 변경할 필요가 있습니다. 이때 클라우드 환경을 최대한 활용할 수 있도록 애플리케이션을 구축 및 실행하는 방법을 클라우드 네이티브라고 합니다. 즉, 클라우드 네이티브는 클라우드 컴퓨팅에 최적화된 애플리케이션을 개발하기 위한 방법입니다.

클라우드 컴퓨팅 환경의 가장 큰 장점은 민첩성과 확장성입니다. 기존의 온프레미스 환경에서 시스템을 확장하기 위해서는 직접 물리적인 장비 구매와 설치 등의 활동을 해야 하므로 큰 비용과 시간이 들었다면, 클라우드 환경에서는 단지 몇 가지 설정하는 것만으로 빠르게 시스템을 확장할 수 있습니다. 이러한 특징에 의해 클라우드 환경은 온프레미스 환경보다 시스템 변경이 자유롭습니다.

그러나 클라우드 환경 내에서 실행되는 애플리케이션이 기존의 온프레미스 환경에서 사용되는 전통적인 방법으로 개발되었다면, 시스템이 변경될 때마다 애플리케이션의 소스코드나 설정 등을 직접 변경해야 할 것입니다. 클라우드 환경 특성상 시스템의 스펙이 자주 변경될 수 있는데 애플리케이션이 이를 민첩하게 대응하지 못한다면 클라우드 환경의 장점을 제대로 활용하지 못하는 것입니다. 따라서 클라우드 환경을 제대로 활용하기 위해서는 애플리케이션 또한 클라우드 환경에 맞게 개발해야 하는데 이때 사용되는 방법이 클라우드 네이티브입니다.





[Fig. 1] CNCF
CNCF(Cloud Native Computing Foundation)에서 제시하는 클라우드 네이티브 참조 아키텍처에 따르면 클라우드 네이티브한 애플리케이션을 개발하기 위해서는 크게 네 가지 주요 기술이 필요합니다.

[Fig. 2] 대표적인 컨테이너 기술 구현체인 Docker
[Fig. 3] 대표적인 컨테이너 오케스트레이션 기술 구현체인 Kubernetes
(https://kubernetes.io)

첫 번째는 컨테이너 기술입니다. 가상화 기술의 일종으로 이를 활용하면 애플리케이션을 구동 환경까지 가상화하여 패키징 할 수 있습니다. 이를 통해 구동 환경의 일관성을 유지할 수 있으므로 애플리케이션을 안전하게 배포하고 운영할 수 있습니다. 컨테이너 오케스트레이션 기술과 함께 사용하면 컨테이너 배포 및 확장 등을 자동화할 수 있습니다.

[Fig. 4] MSA
(https://www.nginx.com)

두 번째는 MSA(Micro Service Architecture)입니다. 기존의 모놀리틱한 서비스를 여러 마이크로 서비스 블록으로 나누고 RESTful API 등을 통해 서로 상호 작용하도록 구성하는 방법입니다. MSA를 활용하여 서비스를 구축하면 서비스의 복잡도가 감소하고 확장성과 재사용성이 증가합니다.

[Fig. 5] DevOps
(https://www.nginx.com)

세 번째는 DevOps입니다. DevOps는 개발(Development)과 운영(Operations)의 합성어로서, 애플리케이션을 빠른 시간에 개발 및 배포하고 운영하기 위한 방법이자 조직 문화라고 할 수 있습니다. DevOps를 통해 개발 조직, 운영 조직, 품질 조직들은 공동의 목표를 설정하고 이를 달성하기 위한 자동화된 도구 및 시각화된 지표를 활용하여 목표를 달성합니다.

[Fig. 6] CI/CD
(https://www.nginx.com)

네 번째는 CI/CD입니다. 애플리케이션 개발 단계를 자동화하여 애플리케이션을 더 짧은 주기로 고객에게 제공하는 방법입니다. CI/CD는 각각 지속적인 통합(Continuous Integration)과 지속적인 배포(Continuous Delivery)를 뜻합니다. 새로운 코드 통합과 테스트 및 배포에 이르는 애플리케이션 개발 프로세스를 자동화하고 모니터링하는 것이 목표입니다.




위에 언급한 기술들을 적절히 활용한다면 서비스를 여러 애플리케이션으로 분산할 수 있고, 각각의 애플리케이션을 유연하고 민첩하게 배포 및 확장할 수 있게 되므로 클라우드 컴퓨팅 환경을 제대로 활용할 수 있게 됩니다. 이 밖에 더 깊은 내용으로는 12-factors, Cloud Native Landscape 등이 있습니다.

최근 국내외 기업들의 클라우드 전환이 가속화되고 있습니다. IDC(International Data Corporation)에 따르면, 2025년에는 90%의 애플리케이션이 클라우드 네이티브로 구동된다고 합니다. 즉, 클라우드 컴퓨팅이 대세를 넘어 필수가 되어가고 있다는 것입니다. 이를 대비하기 위해서는 클라우드 네이티브 기술의 확보는 선택이 아닌 필수라고 생각됩니다.





작성 : 대전지사 신동훈 개발자

Posted by 人Co

2021/01/17 16:48 2021/01/17 16:48
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/369

코로나19로 인해 변화된 직장 문화


2020년 가장 큰 이슈는 당연 코로나19일 것입니다. 2020년이 마무리되어 가는 이 시점에 아직도 코로나19의 확산세를 꺾지 못하고 있는데요, 코로나19는 우리의 일상에 많은 변화를 주었을 뿐 아니라 직장 문화도 변화시켰습니다.

아래의 설문조사 결과와 같이 많은 기업의 근무형태와 사무실 환경, 채용 방식 등이 변함을 알 수 있는데요,


[Fig.1] 코로나19로 인한 기업 문화의 변화
(http://biz.khan.co.kr/khan_art_view.html?artid=202012170945001&code=920100)

이처럼 우리 인실리코젠의 문화도 많은 변화가 있었습니다. 그럼 그 변화를 한번 알아볼까요?





[Fig.2] 키오스크를 설치하여 활용하고 있는 인실리코젠의 직원

저희 인실리코젠에서는 코로나 이슈 발생 직후 체온 측정과 손 소독이 가능한 키오스크를 구매하여 회사 입구에 비치하였습니다. 분명 바이러스 예방 차원에서 구매한 이유가 가장 컸지만, 해당 키오스크 화면을 활용해 사내 직원들이나 회사에 방문하는 외부 인사들에게 메시지를 전달하는 창구로도 적극적으로 활용하고 있습니다. 덕분에 밋밋했던 회사 입구의 분위기가 많이 바뀐 모습입니다^^
키오스크의 화면은 아래와 같이 평상시, 회사기념일, 크리스마스, 새해 인사, 외부인 환영인사 명언 등 주제별로 다르게 적용되고 있는데요. 이러한 디자인은 모두 인실리코젠의 IX팀에서 적극적으로 아이디어를 내어 제작하고 있습니다.


[Fig.3] 키오스크에 적용되고 있는 주제별 화면 디자인




코로나19가 확산함에 따라 인실리코젠에서 가장 먼저 시작한 것은 시차 출근제입니다. 사람 간 비말을 통해 감염되는 문제를 막기 위해 시행한 제도입니다. 우리 사무실은 29층의 고층에 있어 엘리베이터를 필수로 이용해야만 하죠. 마스크는 당연히 착용하지만, 엘리베이터라는 폐쇄된 좁은 공간을 통해 코로나19의 감염이 우려됨에 따라 사람이 몰리지 않는 시간을 이용하여 출·퇴근을 하고 있습니다.




[Fig.4] 재택근무 시행으로 한적해진 사무실

바이러스가 활기를 치는 겨울이 다가오면서 무증상자로 인해 코로나19 확산세가 증가하고, 이에 따라 사회적 거리두기 단계가 격상하면서 시차 출근제와 함께 재택근무도 병행하고 있습니다. (저 역시 워킹맘으로서 재택근무를 통해 업무를 하고 있는데요,) 회의가 필요할 땐 Webex 라는 화상회의 플랫폼을 이용하여 온라인 회의를 진행하기도 합니다. 이전부터 사용해오던 Webex가 요즘 회사 내에서 가장 빛을 발하고 있는 플랫폼이라고 해도 과언이 아닐 것 같네요;




[Fig.5] 코로나19 이슈 이후로 웨비나로 전환된 인코세미나

이제는 비대면 시대로 접어들었습니다. 이미 이전부터 온라인의 중요성을 강조하셨던 사장님의 말씀이 가슴 깊이 와 닿았고, 그동안 차곡차곡 쌓아놓고 있던 온라인 콘텐츠들이 그 힘을 보태주고 있습니다. 저희는 교육 사업으로 주로 오프라인 대면 실습 교육을 통해 생물정보 솔루션을 활용한 정기적인 人CoSEMINAR를 진행하고 사용자들과 교류하였습니다. 이런 세미나들을 이제는 온라인으로 전환하여 시간, 장소에 구애받지 않고 쉽게 접근할 수 있도록 추진하였습니다. 장소의 한계로 많은 분이 참여하지 못했던 오프라인 세미나에 비해 많은 분이 관심과 참여를 해주시게 되었습니다.




인실리코젠에서는 1년에 4번의 큰 행사(人CoPLAY(단합대회), Culture Day, 창립기념일, 송년회 및 종무식)가 있습니다. 올해는 이 행사들을 진행하지 못했었는데요. 창립기념일 및 송년회 행사는 온라인으로 각자의 자리에서 참석하게 되었습니다. 다 함께 모여 기쁨의 덕담을 나누지 못하게 되었지만, 그래도 온라인으로나마 행사를 진행할 수 있다는 것에 감사함을 느끼고 있네요.


[Fig.6] 창립기념일 행사


[Fig.7] 종무식 및 21년 시무식 행사




인실리코젠에서는 하계, 동계 방학에 진행하는 人CoINTERNSHIP 프로그램이 있습니다. 저희 인턴십 프로그램은 기업과 연구기관에서 요구하는 생물정보와 관련된 기초 기술교육과 사내 현장실습을 통해 조직 생활을 경험해 볼 수 있도록 구성되어 있습니다. 생물정보라는 큰 분야 아래에 다양한 업무들이 나누어져 있으며, 각 부서의 업무를 경험하여 향후 진로 결정에 도움을 줄 수 있도록 하는 것이 목표입니다. 2020년 하계 방학엔 제11기 人CoINTERNSHIP이 코로나19의 영향에도 무사히 마무리되었는데요. 아침마다 발열 체크를 진행하고, 교육 진행 시에는 거리두기를 통해 감염을 방지할 수 있도록 하였습니다. 무엇보다도 학생들의 열정이 코로나19가 다가올 수 없을 정도로 대단했다고 생각됩니다.

[Fig.8] 人CoINTERNSHIP 진행 사진
이에 힘입어 동계 방학에도 제12기 人CoINTERNSHIP을 진행하고자 모집을 하였지만, 수도권 코로나19 재확산과 사회적 거리두기 격상으로 아쉽게도 이번 인턴십 프로그램은 진행하지 못하게 되었습니다. 인턴십을 진행하면서 열정 가득한 학생들을 보며 저 자신을 되돌아보는 계기가 되곤 했는데, 참 아쉬운 상황이 되어버려 속상한 마음을 감출 수가 없네요.. 많은 학생의 지원이 있었지만, 모두의 건강과 안전이 최우선이기에 다음 하계 방학에 진행할 인턴십을 기약하고자 합니다.




여기까지 코로나19로 인해 변화된 인실리코젠의 문화를 살펴보았습니다. 이제는 코로나19 이전으로 돌아갈 수 없을 거라는 말이 있듯이 포스트 코로나 시대에 맞춰 변화되는 문화를 받아들이고 이에 대응해나가는 기업들이 더 큰 성장을 할 수 있지 않을까 싶습니다. 모두가 힘든 시기이지만 이 또한 잘 헤쳐나갈 수 있으리라 생각됩니다. 우리 모두 힘냅시다.



작성 : insilico Lab 송하나 선임컨설턴트

Posted by 人Co

2021/01/01 22:19 2021/01/01 22:19
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/368

COVID-19 백신에 대하여



2020년은 코로나의 해라고 말해도 과언이 아닌데요. 코로나19 신규 확진자 추이 그래프만 봐도 아직도 무서운 속도로 증가하는 추세를 볼 수 있습니다.

모두가 코로나 사태가 끝나길 바라는 간절한 마음으로 궁금해하는 것들이 있죠.
언제 이 길고 긴 싸움이 끝이 날까요? 백신 개발은 언제 완료되는 것일까요?
또, 백신 개발은 왜 어려운 걸까요? 그럼 지금부터 하나씩 짚어보도록 하겠습니다.





[Fig.1] 코로나19 신규 확진자 추이


사람에게 질병을 일으키는 수많은 바이러스 중 인류가 박멸한 바이러스는 천연두가 유일하다고 합니다. 이렇게 다양하고 복잡한 바이러스들로부터 우리의 몸을 보호하기 위해 예방접종을 하는데요. 요즘은 예방접종 보다 백신이라는 단어가 더 익숙할 것입니다. 백신을 맞아야 한다는 것은 알고 있지만, 백신이 어떻게 바이러스로부터 우리를 지켜주는지, 또는 다양한 회사들에서 현재 개발되고 있는 백신들이 어떻게 다른지는 관심 있게 찾아보지 않으면 알기 쉽지 않은 내용입니다.

백신! 실제 감염이 됐을 때 재빠르고 강하게 우리 몸의 면역반응을 유도하여 질병을 방어 할 수 있도록 예방의 목적으로 맞는 것입니다. 즉, 백신의 원리는 경험과 기억이라고 말할 수 있습니다. 백신을 맞으면 우리 몸의 면역체계가 활성화 되면서 해당 바이러스에 대해 모의 경험을 하게 되고, 이 경험을 기억하였다가 실제 감염됐을 때 본격적인 면역활성화를 유도하여 질병에 저항할 수 있게 합니다.





[Fig.2] 코로나19 증상 순서


[Fig.3] 스파이크 단백질과 중화항체
(https://www.youtube.com/watch?v=RtIijJd-JC8)

코로나바이러스에는 세포의 문을 여는 열쇠와 같은 스파이크 단백질(Spike protein)이 존재합니다. 스파이크 단백질은 살아있는 세포 표면의 수용체와 결합하여 세포에 침투하게 되고 우리 몸의 시스템을 이용하여 바이러스 자신을 복제하게 됩니다. 즉, 이 스파이크 단백질이 수용체 단백질과 결합하게 되면 바이러스는 체내로 들어오게 됩니다. 따라서 이 스파이크 단백질을 없애는 것이 감염을 피하는 중요한 요소이고, 백신 개발도 이 부분에 집중하고 있습니다. 즉, 수용체 대신 스파이크 단백과 결합하여 중화시키는 체내 중화항체를 유도하는 백신이 개발되고 있습니다. 그림에서 보시는 것과 같이 바이러스 표면의 보라색 뾰족한 것이 스파이크 단백질이고, 형광으로 표시된 것이 중화항체입니다.

  • 스파이크 단백질: 바이러스 외피에서 바깥으로 돌출된 단백질




현재 코로나바이러스가 예상치 못하게 전 세계적으로 확산세가 지속하면서 화이자, 모더나, 아스트라제네카 등 다양한 제약회사에서 백신을 개발 중입니다.

  1. 바이러스 벡터 백신(virus-vector vaccines) 바이러스 항원 유전자를 다른 안전한 바이러스에 넣어 투여하는 방식으로, 인체에 해를 끼치지 않는 바이러스를 운반체(벡터)로 이용하는 백신
  2. 사백신 또는 불활성화 백신 (Inactivated vaccine) 병원체를 열 또는 포르말린 등으로 처리해 활성을 없앤 후 병원체 전체 또는 일부를 추출하여 항원으로 사용하는 방식으로, 바이러스 독성을 없애기 때문에 안전하지만, 스파이크 단백질이 변형될 수 있는 단점을 가진 백신
  3. DNA 백신 바이러스 항원을 발현할 수 있는 DNA를 투여하는 방법으로, 미리 개발해둔 범용 백신 플랫폼에 바이러스의 특정 유전자를 집어넣어 사용하는 백신
  4. RNA 백신 바이러스 항원 유전자를 RNA 형태로 투여하는 방식을 가진 백신
  5. 재조합 단백질 백신 (protein-based vaccines) 바이러스의 특정 단백질 조각을 항원으로 사용하는 백신으로, 대장균이나 효모에서 유전자 재조합 기술로 인공적인 항원 단백질을 만들어 투여하는 백신. 상대적으로 안전하지만, 면역 활성화 효과가 떨어질 수 있음. B형 간염 백신이 대표적
  6. 바이러스 유사 입자 백신 (virus-like particles; VLP) 바이러스 항원 단백질을 실제 바이러스와 유사한 입자 모양으로 만든 가짜 바이러스를 만들어서 사용하는 백신. 자궁경부암 백신이 대표적





RNA, DNA 백신과 같은 기술 덕분에 평균 5-10년 정도 소요되던 백신의 개발 기간이 1년으로 단축되었다고 합니다. 하지만 아직 상용화된 전례가 없어서 대량 생산이나 유통 면에서 현실적인 장벽이 많다고 합니다. 개발 기간이 이렇게 짧을 수 있었던 이유는, 전통적인 백신인 불활성화 백신이나 단백질 기반 백신들은 단백질을 생산하는 생물 공정 배양기가 필요하여 생성이 어려웠기 때문입니다. 하지만 RNA나 DNA는 인공적으로 실험실 내에서 쉽게 증폭할 수 있으므로 큰 배양기 없이 빠른 생산이 가능합니다. 하지만 -70℃에서 -20℃ 정도의 굉장히 낮은 온도에서 보관하고 유통되어야 한다는 단점이 있습니다. 제약업체에서 콜드체인을 통해 유통을 진행하는 이유가 이 때문입니다.

  • 콜드체인: 냉동이나 냉장을 통해서 유통하는 방식




여기서 mRNA 백신에 대하여 조금 더 알아보도록 하겠습니다. mRNA는 세포가 살아가는 데 중요한 역할을 담당하는 유전물질인 리보핵산(RNA) 중 하나입니다. mRNA는 DNA 안에 저장된 인체 유전자 정보가 단백질이란 형태로 발현되는 과정에서 정보를 전달하는 역할을 합니다. mRNA 백신을 만들기 위해서는 바이러스의 유전물질 중에서 감염에 큰 역할을 하는 항원 생산을 담당하는 유전자가 무엇인지를 먼저 파악해야 합니다. 그래야만 적절한 항체 형성을 유도하여 감염을 예방할 수 있기 때문입니다. 백신 제조사는 이와 같은 주요 유전자로부터 mRNA를 만들고 백신에 활용하는 것입니다. 일반적으로 바이러스의 단백질, 즉 외부 항원이 인체에 들어오게 되면 몸에서는 면역반응이 일어나 결과적으로 바이러스에 대항하는 항체가 형성됩니다. mRNA 백신은 기존 사백신이나 생백신처럼 바이러스 단백질 대신에, 말 그대로 mRNA 성분을 주사합니다. mRNA 백신을 주사하게 되면 체내에서는 바이러스 단백질 항원이 만들어지고, 해당 단백질에 대해 인체 면역체계가 항체를 형성할 수 있도록 유도하는 과정을 거치게 되는 것입니다. 기존 백신들이 단백질 원료 성분을 배양하는 등의 긴 절차를 거쳐야 했던 반면, mRNA 백신 기술을 활용하면 단백질 성분을 배양하는 과정이 생략되게 되는 겁니다. 무엇보다 전문가들은 기존 백신과 달리 생산과정이 빠르고, 저렴하게 생산할 수 있다는 점에서 mRNA 백신을 높이 평가합니다. 과거 백신 개발에만 10~15년 정도가 걸렸다는 점을 고려해보면, 빠른 생산이 가능한 mRNA 백신 기술의 발전은 환자 관리가 급박한 코로나19 팬데믹 상황에서 큰 힘을 보여줄 것으로 기대됩니다.





현재 화이자와 모더나가 개발한 mRNA 백신 후보는 코로나19 바이러스의 스파이크 단백질을 만드는 mRNA를 바탕으로 개발됐습니다. mRNA만 주입하게 되면 체내에 들어가서 금방 파괴될 수 있으므로, 세포 내에서 필요로 하는 단백질이 만들어질 때까지 유효성분이 파괴되지 않도록 포장하는 전략이 필요합니다. 두 회사 모두 mRNA에 당 성분을 결합시키고, 세포막과 같은 지질 성분으로 이를 감싸 나노 크기 수준의 지질 입자 형태로 체내에 주입하는 것은 공통적입니다. 아직 구체적인 논문이 발표되지 않아 상세한 비교는 어렵겠지만, 전문가들은 화이자와 모더나의 백신은 일단 mRNA 변형 방법, 나노 입자 크기를 만드는 지질 성분 구조, 혹은 1회 주사하는 mRNA 양에 차이가 있을 것으로 보고 있습니다.





모더나가 개발 중인 백신 후보 'mRNA-1273'을 보면, -20℃에서는 최대 6개월, 2~8℃에 해당하는 냉장상태에서는 최대 30일, 냉장고에서 꺼낸 뒤에도 실온 상태에서 최대 12시간 동안 안정적으로 유지된다고 합니다. 이에 비해 화이자와 독일 바이오기업인 바이온엔테크(BioNTech)가 개발한 백신 후보인 'BNT 162b2'는 -70℃에서 유통과 보관이 이루어져야 합니다. 모더나의 백신이 강조한 영하 20도에서의 유통 보관방법은 표준 냉동고 온도를 사용하는 방식인데, 이는 급속 냉동보다 훨씬 접근성이 쉬운 유통 보관 방식입니다. 전 세계 대부분의 제약 유통회사들이 -20℃에서 제품을 보관하고 유통 배송할 수 있기 때문입니다. 화이자 백신 후보는 1회 주사에 mRNA를 30μg, 모더나 백신은 100μg 주입하게 되는데, 이러한 주입되는 mRNA 양의 차이나 나노입자 구조 차이 등으로 인해 유통 보관 온도에 차이가 나타난다고 합니다.





왜 이제서야 mRNA 백신이 나오는지 궁금해하실 수도 있습니다. 1990년대부터 과학자들은 생쥐 실험을 통해 세포에 RNA를 주입하면 면역반응을 유도할 수 있는 단백질이 생산된다는 것을 알아냈습니다. 이론적으로는 감염병을 일으키는 바이러스의 유전정보만 알면 바로 그에 맞는 mRNA를 합성해 인체에서 면역반응을 유도할 수 있습니다. 그런데 RNA 백신은 몸 안에서 단백질을 많이 만들어내지 못하고, 잘못하면 단백질을 만들기 전에 쉽게 분해된다는 단점이 있습니다. 이런 문제는 최근에서야 RNA 합성과 변형 기술이 발전하면서 많이 해결됐습니다. 특히 지방 나노 입자로 mRNA를 감싸는 기술이 개발된 덕분에 mRNA가 체내에서 오래 유지될 수 있게 된 점도 mRNA 백신의 탄생을 이끈 주요 요인입니다. 그런데도 mRNA는 여전히 불안정한 물질이어서, 이번 화이자 백신 같은 경우에는 -70℃에서 보관해야 합니다. 화이자와 모더나가 다른 제약회사에 비해 빠르게 코로나19 백신을 개발할 수 있었던 데는, 기존에 암이나 광견병 등의 백신을 mRNA로 개발해서 임상을 진행한 경험이 있는 회사들이기 때문이라고 합니다.





3상 임상에서 90% 이상의 효과를 얻었다 해도 항체 유지 기간이 너무 짧으면 백신의 효능이 상당히 떨어질 수밖에 없다는 점과 코로나19 바이러스 감염에 특히 취약한 노약자 등에서도 같은 효과를 기대할 수 있는지 절대적인 데이터가 아직 부족하다는 평가가 있습니다. 백신 접종 인원에서의 중증 부작용 발생 위험 등도 추가로 검증해봐야 할 문제로 남겨졌습니다.






[Fig.6] 3차원 형태의 단백질 구조

전 세계 제약사들에게 코로나19 백신뿐만 아니라 치료제 개발 또한 중요한 과제로 남아있습니다. 치료제에는 크게 항체치료제와 혈장치료제가 개발되고 있습니다. 항체치료제와 혈장치료제 모두 바이러스 표면 스파이크 단백질을 표적으로 한 항체를 이용한다는 점에서 원리는 같습니다. 항체치료제는 스파이크 단백질을 표적으로 한 단클론항체를 인공적으로 합성해 만드는 반면 혈장치료제는 완치자의 혈장에 존재하는 항체들을 농축해 투여하는 방식이라는 차이가 있습니다. 화학적 치료제에 비해 부작용의 가능성이 작고 예방 용도로도 사용 가능해 개발이 활발하게 진행 중입니다. 치료제 개발에 모든 제약사가 힘쓰는 가운데 AI 또한 치료제 개발에 크게 이바지하고 있다고 합니다. AI는 어떻게 치료제에 도움을 줄 수 있을까요?
 
구글의 인공지능(AI) 자회사인 딥마인드는 단백질 구조를 파악하는 AI인 알파폴드가 AI들의 단백질 구조 예측 능력을 평가하는 대회인 CASP에서 유전정보만으로 과학자들이 실험으로 사전에 밝혀낸 단백질 구조와 90% 이상 일치하는 결과를 얻었다고 합니다. 조금 더 자세히 살펴보면 과거 실험을 통해 확인된 단백질의 3차원 구조정보와 DNA 유전 정보를 알파폴드에게 학습시켜 수차례 수많은 정보를 반복 학습시키는 딥러닝을 통해 알파폴드는 아미노산 서열 정보와 단백질 입체 구조 간의 연관관계를 스스로 익혀나가는 원리입니다. 이러한 단백질 구조 예측 기술은 특히 신약 개발에 유용하게 사용됩니다. 예를 들어 단백질 구조 예측 기술을 통해 코로나19 바이러스의 스파이크 단백질 구조를 예측해서 스파이크가 인체 세포에 달라붙지 못하게 이 돌기를 감쌀 수 있는 단백질을 디자인하는 식으로 신약을 개발하는 것입니다. 특히 단백질 구조 예측에서 비용과 시간이 크게 절약되면 코로나19를 비롯한 감염병에 신속한 대응이 가능해질 전망이라고 합니다. ㈜인실리코젠 또한 "AI drives Bioinformatics"이라는 슬로건 아래 새롭게 펼쳐질 미래를 준비하고 있습니다. 이렇게 주변의 곳곳에서 AI가 우리들의 삶 깊숙한 곳까지 함께하고 있는데요, 앞으로도 AI의 활용이 기대됩니다.


 


전 세계적으로 코로나19 라는 팬데믹으로 평범한 일상조차 누리지 못하고 있는 상황이 오랜 시간 동안 계속되고 있습니다. 이러한 상황 속에서 소중한 친구와 가족들을 마음 편히 만나지 못하고 있지만, "위기를 기회로"라는 말이 있듯이 이번 코로나19 사태라는 위기가 RNA 백신 개발 기술을 고도화할 기회가 될 수 있길 바라봅니다. 일상의 소중함을 알아가고 나 자신과 주변을 되돌아보고 살필 수 있는 시간이 되었으면 좋겠으며, 백신에 대한 여러분들의 궁금증에 도움이 되었길 바라며 이 글을 마칩니다.
감사합니다.





작성 : RDC 손효정 연구원

Posted by 人Co

2020/12/19 23:34 2020/12/19 23:34
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/367



오늘날 전 세계에서 하루 동안 생성되는 데이터의 양은 약 2.5엑사바이트(≒25억 기가바이트)에 달한다고 합니다.
이는 무려 6,500억 권의 책과 맞먹는 분량이라고 하는데, 단순하게 생각해보면 78억 명 정도 되는 지구촌 사람들이 각자 매일 여든세 권의 책을 쓰는 셈이라고 볼 수 있습니다.  
정부와 산하 공공기관 등에서는 이러한 데이터들의 품질 관리와 보안 등을 제고 및 고도화하기위해 범국가적 심사·인증 제도를 시행하고있는데요.
오늘 블로그는 이러한 데이터 품질인증과 관련하여 심사·인증 제도에 대한 정보를 공유드리고자 합니다.





[Fig. 1] 구글의 루커 인수 관련 페이지(좌)와 워렌 버핏의 투자 관련 영상(우)
미래가치가 있는 기업들을 사들이는 것으로 유명한 미국의 구글(Google)은 올해 초 루커(Looker)라는 업체를 26억 달러(약 3조 원)에 인수하였습니다. 루커는 빅데이터를 활용한 시각화와 예측을 통해 기업경영에 도움이 되는 정보를 만들어내는 데이터 전문 기업입니다. 최근에는 세계적인 투자자 워렌 버핏이 스노우플레이크(SnowFlake) 라는 클라우드 데이터 업체에 5억 7천만 달러(약 6,300억 원)를 투자하여 화제가 되기도 하였습니다. 루커처럼 세상에 널려있는 데이터를 잘 수집하고 가공하여 쓸모 있게 만들어내거나, 스노우플레이크처럼 데이터를 잘 관리하고 공유할 수 있는 플랫폼을 운영하는 일의 가치가 수천 억원에서 수조 원 이상의 경제적 규모로 환산되는 수준에 이르렀습니다. 이제는 데이터 관련 작업이 주 업무를 보조하는 수준에서 완전히 벗어나, 새로운 시대를 만들어내는 주역으로 자리매김했다고 봐도 과언이 아닐 것입니다. 스포츠의류로 유명한 나이키가 소비자 정보를 맞춤 분석하는 스타트업인 조디악을 인수하고, 광고사업을 하는 제일기획이 중국의 빅데이터 업체인 컬러데이터를 인수하는 등 기업들 사이에서는 사업분야와 국경을 초월한 데이터 기술 확보 경쟁이 치열하게 벌어지고 있습니다. 이렇게 데이터는 점차 현대 사회에서 기업의 성패를 결정지을 수 있는 핵심적인 자산이자 무기가 되어가고 있습니다.




데이터라는 것이 단순히 많이 모아놓기만 하면 자연스럽게 경쟁력과 가치가 생기는 대상이었다면 데이터 전문 기업이 따로 필요가 없었을 것입니다. 데이터의 규모로만 본다면 구글처럼 이미 시장을 장악하고 있는 기업들이 절대적으로 많은 양의 데이터를 확보하고 있을 것이 분명한데 왜 다른 데이터 전문기업과 인수합병을 하거나 협력을 하는 것일까요? 이것은 대량의 데이터가 공개/공유되고 있는 4차산업의 물결 속에서는, 데이터의 양보다도 이들이 가치 있게 활용될 수 있도록 잘 구성/구축된 데이터의 ‘품질’이 훨씬 더 중요하기 때문입니다. 품질이 낮아 활용성이 떨어지는 데이터는 양이 많으면 많을수록 오히려 저장공간만 차지하는 애물단지로 전락하기 쉽습니다.




그런데 이토록 중요한 데이터의 ‘품질’은 어떤 방법으로 측정하고 향상할 수 있을까요? 데이터의 양은 개수나 용량처럼 비교적 간단하게 산정해 낼 수 있는 명확한 기준이 있는 반면에, 데이터의 품질은 그 척도로 사용할만한 기준을 쉽게 찾기가 어려운 것이 사실입니다. 데이터의 중요성이 일반인들에게 부각된 것은 비교적 최근의 빅데이터 붐이 일어나면서 부터이지만, 사실 데이터 품질의 중요성은 IT분야 내에서 이미 수십 년 전부터 강조되어 왔습니다. 미국의 경우 지난 2000년에 데이터 품질법(Data Quality Act)을 제정하여 미국연방정부의 각 산하기관과 기타 기관에 데이터 품질 가이드라인 수립과 이행을 권고하고 있습니다. 우리나라의 경우 2003년 한국데이터산업진흥원의 데이터베이스 품질평가를 시작으로 그 이듬해부터 데이터베이스 품질진단 개선 지원 사업과 지침/가이드라인 보급 사업을 수행하고 있습니다.
 

[Fig. 2] 한국데이터산업진흥원
한국데이터산업진흥원은 국내 산업 전반의 데이터 생태계 혁신과 데이터 경제시대를 창출하기 위한 각종 업무를 수행하는 기관으로, 데이터 품질 향상을 위한 가이드라인 보급 외에도 정보시스템의 데이터 품질 향상을 위한 데이터 품질인증 제도를 시행하고 있습니다.

[Fig. 3] 한국데이터산업진흥원에서 소개하는 데이터 품질의 정의와 저품질 데이터의 문제점





한국데이터산업진흥원에서 제작한 가이드문서에는 데이터 품질과 관련된 내용이 잘 정리되어 있습니다. 데이터 품질관리 지침서에서는 품질관리 요소별로 품질관리 대상에 따른 중점 사항을 소개하고 있으며 데이터 품질진단 절차 및 기법서에서는 다양한 종류의 데이터에 대한 품질기준 정의와 품질진단 계획을 수립하는 과정, 정형 데이터에 대한 프로파일링 방법과 업무규칙 도출 절차, 그리고 비정형 데이터에 대한 품질측정을 수행하는 방법 등을 상세하게 설명하고 있습니다.

[Fig. 4] 한국데이터산업진흥원에서 제작, 보급하는 데이터 품질 관련 가이드 문서


[Fig. 5] 데이터 품질관리 요소와 품질관리 대상
(한국데이터산업진흥원에서 편찬한 데이터 품질관리 지침서의 내용을 바탕으로 편집)


 
  • 정형 데이터와 비정형 데이터

정형데이터는 일반적인 텍스트 데이터를 의미하고 비정형 데이터는 이미지나 음성 등 정형 데이터가 아닌 데이터를 총칭합니다. 과거에는 정형데이터가 주류를 이루었으나 멀티미디어 콘텐츠가 쏟아지고 있는 오늘날에는 비정형 데이터가 전체 데이터의 92% 이상을 차지하고 있다고 합니다. 그러나 데이터에 대한 품질관리의 경우 상대적으로 품질관리가 용이한 정형데이터에 편중되어 있어 비정형 데이터에 대한 품질관리 체계는 상대적으로 취약한 편입니다. 한국데이터산업진흥원에서는 이러한 상황을 극복하기 위해 정형데이터 뿐만 아니라 비정형 데이터도 아우를 수 있는 통합적인 품질관리 방법을 가이드문서를 통해 제안하고 있습니다.

  • 정형데이터의 품질 기준

[Fig. 6] 정형 텍스트에 대한 일반적인 품질기준 정의
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)

정형데이터에 대한 품질진단은 데이터베이스의 테이블, 컬럼, 코드, 관계, 업무규칙 등을 기준으로 데이터의 값에 대한 현상을 분석합니다. 그리고 데이터값과 관련된 품질 기준을 적용하여 오류내역을 산출하고 주요 원인을 분석하여 개선 사항을 제안합니다.
 
 

[Fig. 7] 정형 데이터에 대한 세부 품질기준 및 활용 사례
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)
 
  • 비정형 데이터의 품질 기준

비정형 데이터에 대한 품질진단은 비정형 콘텐츠 자체의 상태에 대한 품질진단과 메타데이터에 대한 품질진단으로 이루어집니다. (메타데이터는 비정형 데이터와 관련된 텍스트 성격의 정보를 의미합니다. (예 : 동영상 데이터의 경우라면 화면크기, 재생시간, 파일크기 등)) 콘텐츠 상태에 대한 진단은 그 내용 자체의 합목적성을 비롯하여 동영상이나 이미지, 3D 등 유형에 따라 각기 다른 상태를 시각이나 청각, 또는 자동화된 도구를 이용하여 진단합니다. 메타데이터의 경우에는 정형 데이터와 유사한 기준과 방법으로 진단을 수행합니다.


[Fig. 8] 비정형 데이터의 유형 분류 사례
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)



[Fig. 9] 비정형 데이터 중 동영상에 대한 품질기준 정의 사례
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)


 

 
한국데이터산업진흥원에서는 고품질의 데이터 보급을 위한 정책의 일환으로 국내에서 운영 중인 시스템에 대한 데이터 인증제도를 시행하고 있습니다.

 

[Fig. 10] 한국데이터산업진흥원에서 시행 중인 데이터 인증
 
  • 데이터 품질인증

데이터 품질인증은 데이터의 관리비용 절감과 데이터의 가치 향상, 그리고 이를 통해 기업의 경쟁력을 강화하기 위한 목적으로 시행되는 한국데이터진흥원의 대표적인 데이터 인증입니다. 실무적으로는 도메인과 업무규칙을 기준으로 실제 데이터 자체에 대한 품질 영향요소 전반을 심사·심의하여 인증을 진행합니다.

  • 데이터 관리인증

데이터 관리인증은 데이터의 효과적인 활용을 위한 데이터의 거버넌스 정책과 데이터 관리 체계에 대한 인증입니다.

  • 데이터 보안인증

데이터 보안인증은 데이터에 대한 보안위협의 선제대응과 안전한 비즈니스를 위한 인증입니다.





데이터의 품질 향상과 관리를 위해선 데이터 품질인증과 관리인증, 그리고 보안인증 측면에서 모두 점검과 검토가 필요하지만, 이 중에서 가장 근본적인 부분에 대한 검토를 하는 것은 품질인증이라고 할 수 있습니다. 데이터 품질인증은 다른 인증에 비해 가장 활성화되어 있는 데이터 인증이기도 합니다. 데이터 품질인증의 주안점은 데이터 품질을 고려한 설계의 적절성 여부와 함께, 실제 데이터가 이 설계에 맞게 잘 구축이 되어있는가에 대해 맞춰져 있습니다.

  • 데이터 품질인증 절차

데이터 품질인증은 인증상담, 인증신청, 인증심사, 인증심의, 인증유지 등 5단계의 절차를 거쳐 엄정히 수행됩니다. 인증을 받고자 하는 기관이나 업체에서 상담접수를 하고 서류를 준비하여 인증신청을 하면, 심사접수를 통해 기본 서류심사를 하고 이어서 현장심사를 진행하게 됩니다. 현장심사 일정이 정해지면, 한국데이터산업진흥원에서 지정한 심사위원들(시스템 규모에 따라 인원은 다르며 보통 2~3인)이 해당 기관이나 업체에 방문하여 1주일가량 심사를 진행합니다. 심사결과는 진흥원의 최종 심의를 거쳐 확정되게 되며 인증을 받은 날로부터 1년간 유지됩니다.


[Fig. 11] 데이터 품질인증 절차
  • 데이터 품질인증 심사와 제출 문서

[Fig. 12] 데이터 품질인증 시 제출하는 문서

데이터 품질인증 심사는 테이블 정의서와 컬럼 정의서, 데이터베이스 구조도(ERD)와 같은 기본적인 데이터베이스 관련 문서에 대한 검토를 시작으로, 실제 데이터베이스에 등록된 데이터가 도메인과 업무규칙 등 품질진단 기준에 맞게 잘 구축이 되어 있는지에 대한 점검(데이터 프로파일링)을 진행합니다. 여기서 도메인이란 데이터 속성에 정의된 조건을 만족시키는 값의 범위를 의미하는데, 좀 더 쉽게 표현하면 데이터가 가질 수 있는 값의 성격과 범위에 따라 종류를 나누어 놓은 것이라 볼 수 있습니다. 도메인의 종류에는 번호, 금액, 명칭, 수량, 분류, 날짜, 비율, 내용, 코드, 키, 공통이 있습니다. 데이터베이스 시스템을 구축할 때는 초기에 데이터에 대한 명확한 분석을 바탕으로 도메인을 잘 구성하는 것이 무엇보다 중요합니다. 업무규칙은 데이터의 품질관리를 위해 지속해서 관리되어야 하는 데이터의 규칙으로, 데이터의 값이 정확하기 위한 조건에 대한 표현입니다. 따라서 막연하게 정해놓는 것이 아니라 일관되고 정형화된 양식으로 작성해야 하며, 실제 데이터 시스템 운영 시 업무규칙에 맞게 데이터에 대한 등록과 관리를 진행해야 데이터의 품질을 높일 수 있습니다.

[Fig. 13] 데이터 품질인증 세부심사 절차
[Fig. 14] 업무규칙 정의서 예시
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)
  • 데이터 프로파일링

데이터에 대한 품질진단에는 데이터 프로파일링 기법이 활용되는데 이는 통계적 기법을 바탕으로 데이터의 품질과 관련된 현상을 파악하는 절차입니다. 기술적으로 보면 데이터베이스의 테이블을 목록화하고 테이블별로 품질진단 목록을 체크하여 최종적으로는 세부 컬럼 단위로 점검을 수행하는 과정이라 할 수 있습니다.


[Fig. 15] 프로파일링 대상 및 유형 목록 예시
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

 

[Fig. 16] 프로파일링 결과보고서 예시
(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

 
  • 데이터 품질인증 심사 기준과 등급

프로파일링 분석을 통해 의심되는 데이터 항목을 검출하고 나면, 필요할 경우 추가 업무규칙을 도출하고 이후 최종 품질점검을 진행하여 오류판정을 내리게 됩니다. 그리고 이 오류율에 따라서 품질인증 등급이 결정됩니다. 실질적으로 품질인증 등급에 가장 큰 영향을 미치는 부분은 도메인과 업무규칙이 실제 데이터와 얼마나 정합성을 이루고 있는가에 대한 것으로, 정합성에 어긋나는 부분은 오류로 간주하여 오류율에 합산됩니다.


[Fig. 17] 데이터 품질인증 심사기준
 
 

[Fig. 18] 도메인과 업무규칙별 데이터 품질 점검사항(일부)
 
데이터 품질인증 등급(수준)은 도메인과 업무규칙에 따른 데이터베이스 내의 값을 대상으로 데이터 정합성을 정량화하여 이 정합률의 수치에 따라 결정되게 됩니다. 현장 심사를 통해 나온 품질인증 결과는 한국데이터산업진흥원의 내부 심의를 거쳐 최종 확정됩니다.
 

[Fig. 19] 데이터 품질인증 등급
 




지난 9월, 한국원자력연구원이 주관하고 (주)인실리코젠이 개발과 운영을 담당하고 있는 국가 방사선 반응지도 모델링 플랫폼에 대한 데이터 품질인증이 진행되었습니다. 국가 방사선 반응지도 모델링 플랫폼은 점차 수요가 증가하고 있는 방사선 관련 데이터를 정제하여 통합 데이터베이스로 구축하고 조회와 예측 등의 서비스를 제공하는 시스템으로, 데이터의 전반적인 품질을 점검/개선하여 활용가치를 높이려는 목적으로 인증을 신청하였습니다.


[Fig. 20] (주)인실리코젠에서 개발/운영을 담당하고 있는 국가 방사선 반응지도 모델링 플랫폼
식품, 공업소재 등 다양한 분야의 방사선 반응 데이터를 수용할 수 있도록 효율적으로 설계된 기본 데이터 구조 위에서, 수년에 걸쳐 구축한 방사선 관련 연구 데이터들을 대상으로 진행된 데이터 품질인증에서 최고 인증등급인 ‘플래티넘’을 획득하는 성과를 거두었습니다.

[Fig. 21] 데이터 품질인증 최고등급인 플래티넘을 받은 국가 방사선 반응지도 모델링 플랫폼

국가 방사선 반응지도 모델링 플랫폼은 이번 연도에 새롭게 반도체 분야 데이터를 추가하는 등 지속해서 데이터를 확장하고 있으며, 높은 품질의 데이터를 많은 사람이 더욱 유용하게 활용할 수 있도록 계속 발전시켜 나갈 예정입니다.




맛집의 공통점은 주방장의 뛰어난 요리 솜씨나 고객에 대한 세심한 서비스 이전에, 좋은 재료에서부터 출발한다는 점입니다. 좋은 재료는 운이 좋으면 얻을 수 있는 행운의 선물이 아니라, 부단한 노력과 검증을 통해 기준을 정하고 끊임없이 탐색하며 고민해야 비로소 손에 쥘 수 있는 것입니다. 그리고 좋은 재료를 입수했다 하더라도 각 재료에 맞는 적절한 보관절차나 관리체계 없이 방치한다면, 얼마 되지 않아 그 가치를 잃고 말 것입니다.

정부와 기업의 중요한 의사결정 과정에서는 물론이고 이제 각 개인의 판단이나 행동에도 데이터가 미치는 영향이 절대적인 시대가 되었습니다. 데이터를 잘 분석하고 해석하는 것도 중요하지만, 근본적으로 데이터를 잘 설계하고 구성하여 이를 뿌리 삼아 좋은 품질의 데이터라는 열매를 획득하는 것이 무엇보다 중요한 상황입니다. 데이터를 기반으로 더욱 살기 좋은 세상을 만들기 위해서는 데이터를 다루는 모든 주체가 데이터 맛집이 되어야 합니다. 데이터 품질의 중요성을 인지하고 이를 높이기 위한 모두의 노력이 더해졌을 때, 고품질의 데이터가 서로 간에 공유/확장되며 비로소 인류의 미래를 위한 중대한 정보들을 우리에게 드러내 줄 것입니다.






작성 : 대전지사 서승원 선임개발자
 

Posted by 人Co

2020/12/05 21:17 2020/12/05 21:17
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/366



« Previous : 1 : 2 : 3 : 4 : 5 : ... 36 : Next »