[구버전] 人Co BLOG

2020년은 코로나의 해라고 말해도 과언이 아닌데요. 코로나19 신규 확진자 추이 그래프만 봐도 아직도 무서운 속도로 증가하는 추세를 볼 수 있습니다.

모두가 코로나 사태가 끝나길 바라는 간절한 마음으로 궁금해하는 것들이 있죠.
언제 이 길고 긴 싸움이 끝이 날까요? 백신 개발은 언제 완료되는 것일까요?
또, 백신 개발은 왜 어려운 걸까요? 그럼 지금부터 하나씩 짚어보도록 하겠습니다.

[Fig.1] 코로나19 신규 확진자 추이

(https://www.youtube.com/watch?v=RtIijJd-JC8)

사람에게 질병을 일으키는 수많은 바이러스 중 인류가 박멸한 바이러스는 천연두가 유일하다고 합니다. 이렇게 다양하고 복잡한 바이러스들로부터 우리의 몸을 보호하기 위해 예방접종을 하는데요. 요즘은 예방접종 보다 백신이라는 단어가 더 익숙할 것입니다. 백신을 맞아야 한다는 것은 알고 있지만, 백신이 어떻게 바이러스로부터 우리를 지켜주는지, 또는 다양한 회사들에서 현재 개발되고 있는 백신들이 어떻게 다른지는 관심 있게 찾아보지 않으면 알기 쉽지 않은 내용입니다.

백신! 실제 감염이 됐을 때 재빠르고 강하게 우리 몸의 면역반응을 유도하여 질병을 방어 할 수 있도록 예방의 목적으로 맞는 것입니다. 즉, 백신의 원리는 경험과 기억이라고 말할 수 있습니다. 백신을 맞으면 우리 몸의 면역체계가 활성화 되면서 해당 바이러스에 대해 모의 경험을 하게 되고, 이 경험을 기억하였다가 실제 감염됐을 때 본격적인 면역활성화를 유도하여 질병에 저항할 수 있게 합니다.

[Fig.2] 코로나19 증상 순서

(https://www.youtube.com/watch?v=RtIijJd-JC8)

[Fig.3] 스파이크 단백질과 중화항체
(https://www.youtube.com/watch?v=RtIijJd-JC8)

코로나바이러스에는 세포의 문을 여는 열쇠와 같은 스파이크 단백질(Spike protein)이 존재합니다. 스파이크 단백질은 살아있는 세포 표면의 수용체와 결합하여 세포에 침투하게 되고 우리 몸의 시스템을 이용하여 바이러스 자신을 복제하게 됩니다. 즉, 이 스파이크 단백질이 수용체 단백질과 결합하게 되면 바이러스는 체내로 들어오게 됩니다. 따라서 이 스파이크 단백질을 없애는 것이 감염을 피하는 중요한 요소이고, 백신 개발도 이 부분에 집중하고 있습니다. 즉, 수용체 대신 스파이크 단백과 결합하여 중화시키는 체내 중화항체를 유도하는 백신이 개발되고 있습니다. 그림에서 보시는 것과 같이 바이러스 표면의 보라색 뾰족한 것이 스파이크 단백질이고, 형광으로 표시된 것이 중화항체입니다.

스파이크 단백질: 바이러스 외피에서 바깥으로 돌출된 단백질

[Fig.4] 코로나19 백신 종류

(https://www.korea.kr/special/policyFocusView.do?newsId=148874621&pkgId=49500742)

현재 코로나바이러스가 예상치 못하게 전 세계적으로 확산세가 지속하면서 화이자, 모더나, 아스트라제네카 등 다양한 제약회사에서 백신을 개발 중입니다.

바이러스 벡터 백신(virus-vector vaccines) 바이러스 항원 유전자를 다른 안전한 바이러스에 넣어 투여하는 방식으로, 인체에 해를 끼치지 않는 바이러스를 운반체(벡터)로 이용하는 백신
사백신 또는 불활성화 백신 (Inactivated vaccine) 병원체를 열 또는 포르말린 등으로 처리해 활성을 없앤 후 병원체 전체 또는 일부를 추출하여 항원으로 사용하는 방식으로, 바이러스 독성을 없애기 때문에 안전하지만, 스파이크 단백질이 변형될 수 있는 단점을 가진 백신
DNA 백신 바이러스 항원을 발현할 수 있는 DNA를 투여하는 방법으로, 미리 개발해둔 범용 백신 플랫폼에 바이러스의 특정 유전자를 집어넣어 사용하는 백신
RNA 백신 바이러스 항원 유전자를 RNA 형태로 투여하는 방식을 가진 백신
재조합 단백질 백신 (protein-based vaccines) 바이러스의 특정 단백질 조각을 항원으로 사용하는 백신으로, 대장균이나 효모에서 유전자 재조합 기술로 인공적인 항원 단백질을 만들어 투여하는 백신. 상대적으로 안전하지만, 면역 활성화 효과가 떨어질 수 있음. B형 간염 백신이 대표적
바이러스 유사 입자 백신 (virus-like particles; VLP) 바이러스 항원 단백질을 실제 바이러스와 유사한 입자 모양으로 만든 가짜 바이러스를 만들어서 사용하는 백신. 자궁경부암 백신이 대표적

[Fig.5] 코로나19 백신 개발 기간 비교

(https://www.korea.kr/special/policyFocusView.do?newsId=148874621&pkgId=49500742)

RNA, DNA 백신과 같은 기술 덕분에 평균 5-10년 정도 소요되던 백신의 개발 기간이 1년으로 단축되었다고 합니다. 하지만 아직 상용화된 전례가 없어서 대량 생산이나 유통 면에서 현실적인 장벽이 많다고 합니다. 개발 기간이 이렇게 짧을 수 있었던 이유는, 전통적인 백신인 불활성화 백신이나 단백질 기반 백신들은 단백질을 생산하는 생물 공정 배양기가 필요하여 생성이 어려웠기 때문입니다. 하지만 RNA나 DNA는 인공적으로 실험실 내에서 쉽게 증폭할 수 있으므로 큰 배양기 없이 빠른 생산이 가능합니다. 하지만 -70℃에서 -20℃ 정도의 굉장히 낮은 온도에서 보관하고 유통되어야 한다는 단점이 있습니다. 제약업체에서 콜드체인을 통해 유통을 진행하는 이유가 이 때문입니다.

콜드체인: 냉동이나 냉장을 통해서 유통하는 방식

여기서 mRNA 백신에 대하여 조금 더 알아보도록 하겠습니다. mRNA는 세포가 살아가는 데 중요한 역할을 담당하는 유전물질인 리보핵산(RNA) 중 하나입니다. mRNA는 DNA 안에 저장된 인체 유전자 정보가 단백질이란 형태로 발현되는 과정에서 정보를 전달하는 역할을 합니다. mRNA 백신을 만들기 위해서는 바이러스의 유전물질 중에서 감염에 큰 역할을 하는 항원 생산을 담당하는 유전자가 무엇인지를 먼저 파악해야 합니다. 그래야만 적절한 항체 형성을 유도하여 감염을 예방할 수 있기 때문입니다. 백신 제조사는 이와 같은 주요 유전자로부터 mRNA를 만들고 백신에 활용하는 것입니다. 일반적으로 바이러스의 단백질, 즉 외부 항원이 인체에 들어오게 되면 몸에서는 면역반응이 일어나 결과적으로 바이러스에 대항하는 항체가 형성됩니다. mRNA 백신은 기존 사백신이나 생백신처럼 바이러스 단백질 대신에, 말 그대로 mRNA 성분을 주사합니다. mRNA 백신을 주사하게 되면 체내에서는 바이러스 단백질 항원이 만들어지고, 해당 단백질에 대해 인체 면역체계가 항체를 형성할 수 있도록 유도하는 과정을 거치게 되는 것입니다. 기존 백신들이 단백질 원료 성분을 배양하는 등의 긴 절차를 거쳐야 했던 반면, mRNA 백신 기술을 활용하면 단백질 성분을 배양하는 과정이 생략되게 되는 겁니다. 무엇보다 전문가들은 기존 백신과 달리 생산과정이 빠르고, 저렴하게 생산할 수 있다는 점에서 mRNA 백신을 높이 평가합니다. 과거 백신 개발에만 10~15년 정도가 걸렸다는 점을 고려해보면, 빠른 생산이 가능한 mRNA 백신 기술의 발전은 환자 관리가 급박한 코로나19 팬데믹 상황에서 큰 힘을 보여줄 것으로 기대됩니다.

현재 화이자와 모더나가 개발한 mRNA 백신 후보는 코로나19 바이러스의 스파이크 단백질을 만드는 mRNA를 바탕으로 개발됐습니다. mRNA만 주입하게 되면 체내에 들어가서 금방 파괴될 수 있으므로, 세포 내에서 필요로 하는 단백질이 만들어질 때까지 유효성분이 파괴되지 않도록 포장하는 전략이 필요합니다. 두 회사 모두 mRNA에 당 성분을 결합시키고, 세포막과 같은 지질 성분으로 이를 감싸 나노 크기 수준의 지질 입자 형태로 체내에 주입하는 것은 공통적입니다. 아직 구체적인 논문이 발표되지 않아 상세한 비교는 어렵겠지만, 전문가들은 화이자와 모더나의 백신은 일단 mRNA 변형 방법, 나노 입자 크기를 만드는 지질 성분 구조, 혹은 1회 주사하는 mRNA 양에 차이가 있을 것으로 보고 있습니다.

모더나가 개발 중인 백신 후보 'mRNA-1273'을 보면, -20℃에서는 최대 6개월, 2~8℃에 해당하는 냉장상태에서는 최대 30일, 냉장고에서 꺼낸 뒤에도 실온 상태에서 최대 12시간 동안 안정적으로 유지된다고 합니다. 이에 비해 화이자와 독일 바이오기업인 바이온엔테크(BioNTech)가 개발한 백신 후보인 'BNT 162b2'는 -70℃에서 유통과 보관이 이루어져야 합니다. 모더나의 백신이 강조한 영하 20도에서의 유통 보관방법은 표준 냉동고 온도를 사용하는 방식인데, 이는 급속 냉동보다 훨씬 접근성이 쉬운 유통 보관 방식입니다. 전 세계 대부분의 제약 유통회사들이 -20℃에서 제품을 보관하고 유통 배송할 수 있기 때문입니다. 화이자 백신 후보는 1회 주사에 mRNA를 30μg, 모더나 백신은 100μg 주입하게 되는데, 이러한 주입되는 mRNA 양의 차이나 나노입자 구조 차이 등으로 인해 유통 보관 온도에 차이가 나타난다고 합니다.

왜 이제서야 mRNA 백신이 나오는지 궁금해하실 수도 있습니다. 1990년대부터 과학자들은 생쥐 실험을 통해 세포에 RNA를 주입하면 면역반응을 유도할 수 있는 단백질이 생산된다는 것을 알아냈습니다. 이론적으로는 감염병을 일으키는 바이러스의 유전정보만 알면 바로 그에 맞는 mRNA를 합성해 인체에서 면역반응을 유도할 수 있습니다. 그런데 RNA 백신은 몸 안에서 단백질을 많이 만들어내지 못하고, 잘못하면 단백질을 만들기 전에 쉽게 분해된다는 단점이 있습니다. 이런 문제는 최근에서야 RNA 합성과 변형 기술이 발전하면서 많이 해결됐습니다. 특히 지방 나노 입자로 mRNA를 감싸는 기술이 개발된 덕분에 mRNA가 체내에서 오래 유지될 수 있게 된 점도 mRNA 백신의 탄생을 이끈 주요 요인입니다. 그런데도 mRNA는 여전히 불안정한 물질이어서, 이번 화이자 백신 같은 경우에는 -70℃에서 보관해야 합니다. 화이자와 모더나가 다른 제약회사에 비해 빠르게 코로나19 백신을 개발할 수 있었던 데는, 기존에 암이나 광견병 등의 백신을 mRNA로 개발해서 임상을 진행한 경험이 있는 회사들이기 때문이라고 합니다.

3상 임상에서 90% 이상의 효과를 얻었다 해도 항체 유지 기간이 너무 짧으면 백신의 효능이 상당히 떨어질 수밖에 없다는 점과 코로나19 바이러스 감염에 특히 취약한 노약자 등에서도 같은 효과를 기대할 수 있는지 절대적인 데이터가 아직 부족하다는 평가가 있습니다. 백신 접종 인원에서의 중증 부작용 발생 위험 등도 추가로 검증해봐야 할 문제로 남겨졌습니다.

[Fig.6] 3차원 형태의 단백질 구조

(https://www.mk.co.kr/news/it/view/2020/12/1234316/)

전 세계 제약사들에게 코로나19 백신뿐만 아니라 치료제 개발 또한 중요한 과제로 남아있습니다. 치료제에는 크게 항체치료제와 혈장치료제가 개발되고 있습니다. 항체치료제와 혈장치료제 모두 바이러스 표면 스파이크 단백질을 표적으로 한 항체를 이용한다는 점에서 원리는 같습니다. 항체치료제는 스파이크 단백질을 표적으로 한 단클론항체를 인공적으로 합성해 만드는 반면 혈장치료제는 완치자의 혈장에 존재하는 항체들을 농축해 투여하는 방식이라는 차이가 있습니다. 화학적 치료제에 비해 부작용의 가능성이 작고 예방 용도로도 사용 가능해 개발이 활발하게 진행 중입니다. 치료제 개발에 모든 제약사가 힘쓰는 가운데 AI 또한 치료제 개발에 크게 이바지하고 있다고 합니다. AI는 어떻게 치료제에 도움을 줄 수 있을까요?

구글의 인공지능(AI) 자회사인 딥마인드는 단백질 구조를 파악하는 AI인 알파폴드가 AI들의 단백질 구조 예측 능력을 평가하는 대회인 CASP에서 유전정보만으로 과학자들이 실험으로 사전에 밝혀낸 단백질 구조와 90% 이상 일치하는 결과를 얻었다고 합니다. 조금 더 자세히 살펴보면 과거 실험을 통해 확인된 단백질의 3차원 구조정보와 DNA 유전 정보를 알파폴드에게 학습시켜 수차례 수많은 정보를 반복 학습시키는 딥러닝을 통해 알파폴드는 아미노산 서열 정보와 단백질 입체 구조 간의 연관관계를 스스로 익혀나가는 원리입니다. 이러한 단백질 구조 예측 기술은 특히 신약 개발에 유용하게 사용됩니다. 예를 들어 단백질 구조 예측 기술을 통해 코로나19 바이러스의 스파이크 단백질 구조를 예측해서 스파이크가 인체 세포에 달라붙지 못하게 이 돌기를 감쌀 수 있는 단백질을 디자인하는 식으로 신약을 개발하는 것입니다. 특히 단백질 구조 예측에서 비용과 시간이 크게 절약되면 코로나19를 비롯한 감염병에 신속한 대응이 가능해질 전망이라고 합니다. ㈜인실리코젠 또한 "AI drives Bioinformatics"이라는 슬로건 아래 새롭게 펼쳐질 미래를 준비하고 있습니다. 이렇게 주변의 곳곳에서 AI가 우리들의 삶 깊숙한 곳까지 함께하고 있는데요, 앞으로도 AI의 활용이 기대됩니다.

전 세계적으로 코로나19 라는 팬데믹으로 평범한 일상조차 누리지 못하고 있는 상황이 오랜 시간 동안 계속되고 있습니다. 이러한 상황 속에서 소중한 친구와 가족들을 마음 편히 만나지 못하고 있지만, "위기를 기회로"라는 말이 있듯이 이번 코로나19 사태라는 위기가 RNA 백신 개발 기술을 고도화할 기회가 될 수 있길 바라봅니다. 일상의 소중함을 알아가고 나 자신과 주변을 되돌아보고 살필 수 있는 시간이 되었으면 좋겠으며, 백신에 대한 여러분들의 궁금증에 도움이 되었길 바라며 이 글을 마칩니다.

감사합니다.

Larsen JR, Martin MR, Martin JD, Kuhn P, Hicks JB. Modeling the Onset of Symptoms of COVID-19. Front Public Healt h. 2020 Aug 13;8:473. doi: 10.3389/fpubh.2020.00473. PMID: 32903584; PMCID: PMC7438535.
카이스트 신의철 교수의 알기 쉬운 '면역&바이러스' 이야기
http://www.medicaltimes.com/Users/News/NewsView.htmlmode=view&ID=1137247&REFERER=NP
https://www.chosun.com/economy/science/2020/12/06/RO3QWO2FNRD2ZAMNHWTE73SK3Q/
https://www.youtube.com/watch?v=RtIijJd-JC8
https://www.youtube.com/watchv=gJ4iTzkahdo&list=PLEFnIniFC1sBoRARnMNn2IluUFULbnU8Y&index=10
https://www.mk.co.kr/news/it/view/2020/12/1234316/
http://www.aitimes.com/news/articleView.html?idxno=134544

작성 : RDC 손효정 연구원

Posted by 人Co

오늘날 전 세계에서 하루 동안 생성되는 데이터의 양은 약 2.5엑사바이트(≒25억 기가바이트)에 달한다고 합니다.
이는 무려 6,500억 권의 책과 맞먹는 분량이라고 하는데, 단순하게 생각해보면 78억 명 정도 되는 지구촌 사람들이 각자 매일 여든세 권의 책을 쓰는 셈이라고 볼 수 있습니다.
정부와 산하 공공기관 등에서는 이러한 데이터들의 품질 관리와 보안 등을 제고 및 고도화하기위해 범국가적 심사·인증 제도를 시행하고있는데요.
오늘 블로그는 이러한 데이터 품질인증과 관련하여 심사·인증 제도에 대한 정보를 공유드리고자 합니다.

[Fig. 1] 구글의 루커 인수 관련 페이지(좌)와 워렌 버핏의 투자 관련 영상(우)

((좌)https://cloud.google.com (우)https://www.youtube.com/watch?v=zDkL3Eyv6vI)

미래가치가 있는 기업들을 사들이는 것으로 유명한 미국의 구글(Google)은 올해 초 루커(Looker)라는 업체를 26억 달러(약 3조 원)에 인수하였습니다. 루커는 빅데이터를 활용한 시각화와 예측을 통해 기업경영에 도움이 되는 정보를 만들어내는 데이터 전문 기업입니다. 최근에는 세계적인 투자자 워렌 버핏이 스노우플레이크(SnowFlake) 라는 클라우드 데이터 업체에 5억 7천만 달러(약 6,300억 원)를 투자하여 화제가 되기도 하였습니다. 루커처럼 세상에 널려있는 데이터를 잘 수집하고 가공하여 쓸모 있게 만들어내거나, 스노우플레이크처럼 데이터를 잘 관리하고 공유할 수 있는 플랫폼을 운영하는 일의 가치가 수천 억원에서 수조 원 이상의 경제적 규모로 환산되는 수준에 이르렀습니다. 이제는 데이터 관련 작업이 주 업무를 보조하는 수준에서 완전히 벗어나, 새로운 시대를 만들어내는 주역으로 자리매김했다고 봐도 과언이 아닐 것입니다. 스포츠의류로 유명한 나이키가 소비자 정보를 맞춤 분석하는 스타트업인 조디악을 인수하고, 광고사업을 하는 제일기획이 중국의 빅데이터 업체인 컬러데이터를 인수하는 등 기업들 사이에서는 사업분야와 국경을 초월한 데이터 기술 확보 경쟁이 치열하게 벌어지고 있습니다. 이렇게 데이터는 점차 현대 사회에서 기업의 성패를 결정지을 수 있는 핵심적인 자산이자 무기가 되어가고 있습니다.

데이터라는 것이 단순히 많이 모아놓기만 하면 자연스럽게 경쟁력과 가치가 생기는 대상이었다면 데이터 전문 기업이 따로 필요가 없었을 것입니다. 데이터의 규모로만 본다면 구글처럼 이미 시장을 장악하고 있는 기업들이 절대적으로 많은 양의 데이터를 확보하고 있을 것이 분명한데 왜 다른 데이터 전문기업과 인수합병을 하거나 협력을 하는 것일까요? 이것은 대량의 데이터가 공개/공유되고 있는 4차산업의 물결 속에서는, 데이터의 양보다도 이들이 가치 있게 활용될 수 있도록 잘 구성/구축된 데이터의 ‘품질’이 훨씬 더 중요하기 때문입니다. 품질이 낮아 활용성이 떨어지는 데이터는 양이 많으면 많을수록 오히려 저장공간만 차지하는 애물단지로 전락하기 쉽습니다.

그런데 이토록 중요한 데이터의 ‘품질’은 어떤 방법으로 측정하고 향상할 수 있을까요? 데이터의 양은 개수나 용량처럼 비교적 간단하게 산정해 낼 수 있는 명확한 기준이 있는 반면에, 데이터의 품질은 그 척도로 사용할만한 기준을 쉽게 찾기가 어려운 것이 사실입니다. 데이터의 중요성이 일반인들에게 부각된 것은 비교적 최근의 빅데이터 붐이 일어나면서 부터이지만, 사실 데이터 품질의 중요성은 IT분야 내에서 이미 수십 년 전부터 강조되어 왔습니다. 미국의 경우 지난 2000년에 데이터 품질법(Data Quality Act)을 제정하여 미국연방정부의 각 산하기관과 기타 기관에 데이터 품질 가이드라인 수립과 이행을 권고하고 있습니다. 우리나라의 경우 2003년 한국데이터산업진흥원의 데이터베이스 품질평가를 시작으로 그 이듬해부터 데이터베이스 품질진단 개선 지원 사업과 지침/가이드라인 보급 사업을 수행하고 있습니다.

[Fig. 2] 한국데이터산업진흥원

(https://www.kdata.or.kr)

한국데이터산업진흥원은 국내 산업 전반의 데이터 생태계 혁신과 데이터 경제시대를 창출하기 위한 각종 업무를 수행하는 기관으로, 데이터 품질 향상을 위한 가이드라인 보급 외에도 정보시스템의 데이터 품질 향상을 위한 데이터 품질인증 제도를 시행하고 있습니다.

[Fig. 3] 한국데이터산업진흥원에서 소개하는 데이터 품질의 정의와 저품질 데이터의 문제점

한국데이터산업진흥원에서 제작한 가이드문서에는 데이터 품질과 관련된 내용이 잘 정리되어 있습니다. 데이터 품질관리 지침서에서는 품질관리 요소별로 품질관리 대상에 따른 중점 사항을 소개하고 있으며 데이터 품질진단 절차 및 기법서에서는 다양한 종류의 데이터에 대한 품질기준 정의와 품질진단 계획을 수립하는 과정, 정형 데이터에 대한 프로파일링 방법과 업무규칙 도출 절차, 그리고 비정형 데이터에 대한 품질측정을 수행하는 방법 등을 상세하게 설명하고 있습니다.

[Fig. 4] 한국데이터산업진흥원에서 제작, 보급하는 데이터 품질 관련 가이드 문서

[Fig. 5] 데이터 품질관리 요소와 품질관리 대상

(한국데이터산업진흥원에서 편찬한 데이터 품질관리 지침서의 내용을 바탕으로 편집)

정형 데이터와 비정형 데이터

정형데이터는 일반적인 텍스트 데이터를 의미하고 비정형 데이터는 이미지나 음성 등 정형 데이터가 아닌 데이터를 총칭합니다. 과거에는 정형데이터가 주류를 이루었으나 멀티미디어 콘텐츠가 쏟아지고 있는 오늘날에는 비정형 데이터가 전체 데이터의 92% 이상을 차지하고 있다고 합니다. 그러나 데이터에 대한 품질관리의 경우 상대적으로 품질관리가 용이한 정형데이터에 편중되어 있어 비정형 데이터에 대한 품질관리 체계는 상대적으로 취약한 편입니다. 한국데이터산업진흥원에서는 이러한 상황을 극복하기 위해 정형데이터 뿐만 아니라 비정형 데이터도 아우를 수 있는 통합적인 품질관리 방법을 가이드문서를 통해 제안하고 있습니다.

정형데이터의 품질 기준

[Fig. 6] 정형 텍스트에 대한 일반적인 품질기준 정의

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)

정형데이터에 대한 품질진단은 데이터베이스의 테이블, 컬럼, 코드, 관계, 업무규칙 등을 기준으로 데이터의 값에 대한 현상을 분석합니다. 그리고 데이터값과 관련된 품질 기준을 적용하여 오류내역을 산출하고 주요 원인을 분석하여 개선 사항을 제안합니다.

[Fig. 7] 정형 데이터에 대한 세부 품질기준 및 활용 사례

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)

비정형 데이터의 품질 기준

비정형 데이터에 대한 품질진단은 비정형 콘텐츠 자체의 상태에 대한 품질진단과 메타데이터에 대한 품질진단으로 이루어집니다. (메타데이터는 비정형 데이터와 관련된 텍스트 성격의 정보를 의미합니다. (예 : 동영상 데이터의 경우라면 화면크기, 재생시간, 파일크기 등)) 콘텐츠 상태에 대한 진단은 그 내용 자체의 합목적성을 비롯하여 동영상이나 이미지, 3D 등 유형에 따라 각기 다른 상태를 시각이나 청각, 또는 자동화된 도구를 이용하여 진단합니다. 메타데이터의 경우에는 정형 데이터와 유사한 기준과 방법으로 진단을 수행합니다.

[Fig. 8] 비정형 데이터의 유형 분류 사례

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)

[Fig. 9] 비정형 데이터 중 동영상에 대한 품질기준 정의 사례

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 및 기법에서 발췌)

한국데이터산업진흥원에서는 고품질의 데이터 보급을 위한 정책의 일환으로 국내에서 운영 중인 시스템에 대한 데이터 인증제도를 시행하고 있습니다.

[Fig. 10] 한국데이터산업진흥원에서 시행 중인 데이터 인증

(https://www.dqc.or.kr/quality_certification/about_dqc/)

데이터 품질인증

데이터 품질인증은 데이터의 관리비용 절감과 데이터의 가치 향상, 그리고 이를 통해 기업의 경쟁력을 강화하기 위한 목적으로 시행되는 한국데이터진흥원의 대표적인 데이터 인증입니다. 실무적으로는 도메인과 업무규칙을 기준으로 실제 데이터 자체에 대한 품질 영향요소 전반을 심사·심의하여 인증을 진행합니다.

데이터 관리인증

데이터 관리인증은 데이터의 효과적인 활용을 위한 데이터의 거버넌스 정책과 데이터 관리 체계에 대한 인증입니다.

데이터 보안인증

데이터 보안인증은 데이터에 대한 보안위협의 선제대응과 안전한 비즈니스를 위한 인증입니다.

데이터의 품질 향상과 관리를 위해선 데이터 품질인증과 관리인증, 그리고 보안인증 측면에서 모두 점검과 검토가 필요하지만, 이 중에서 가장 근본적인 부분에 대한 검토를 하는 것은 품질인증이라고 할 수 있습니다. 데이터 품질인증은 다른 인증에 비해 가장 활성화되어 있는 데이터 인증이기도 합니다. 데이터 품질인증의 주안점은 데이터 품질을 고려한 설계의 적절성 여부와 함께, 실제 데이터가 이 설계에 맞게 잘 구축이 되어있는가에 대해 맞춰져 있습니다.

데이터 품질인증 절차

데이터 품질인증은 인증상담, 인증신청, 인증심사, 인증심의, 인증유지 등 5단계의 절차를 거쳐 엄정히 수행됩니다. 인증을 받고자 하는 기관이나 업체에서 상담접수를 하고 서류를 준비하여 인증신청을 하면, 심사접수를 통해 기본 서류심사를 하고 이어서 현장심사를 진행하게 됩니다. 현장심사 일정이 정해지면, 한국데이터산업진흥원에서 지정한 심사위원들(시스템 규모에 따라 인원은 다르며 보통 2~3인)이 해당 기관이나 업체에 방문하여 1주일가량 심사를 진행합니다. 심사결과는 진흥원의 최종 심의를 거쳐 확정되게 되며 인증을 받은 날로부터 1년간 유지됩니다.

[Fig. 11] 데이터 품질인증 절차

(https://www.kdata.or.kr/busi/busi_04_01.html)

데이터 품질인증 심사와 제출 문서

[Fig. 12] 데이터 품질인증 시 제출하는 문서

데이터 품질인증 심사는 테이블 정의서와 컬럼 정의서, 데이터베이스 구조도(ERD)와 같은 기본적인 데이터베이스 관련 문서에 대한 검토를 시작으로, 실제 데이터베이스에 등록된 데이터가 도메인과 업무규칙 등 품질진단 기준에 맞게 잘 구축이 되어 있는지에 대한 점검(데이터 프로파일링)을 진행합니다. 여기서 도메인이란 데이터 속성에 정의된 조건을 만족시키는 값의 범위를 의미하는데, 좀 더 쉽게 표현하면 데이터가 가질 수 있는 값의 성격과 범위에 따라 종류를 나누어 놓은 것이라 볼 수 있습니다. 도메인의 종류에는 번호, 금액, 명칭, 수량, 분류, 날짜, 비율, 내용, 코드, 키, 공통이 있습니다. 데이터베이스 시스템을 구축할 때는 초기에 데이터에 대한 명확한 분석을 바탕으로 도메인을 잘 구성하는 것이 무엇보다 중요합니다. 업무규칙은 데이터의 품질관리를 위해 지속해서 관리되어야 하는 데이터의 규칙으로, 데이터의 값이 정확하기 위한 조건에 대한 표현입니다. 따라서 막연하게 정해놓는 것이 아니라 일관되고 정형화된 양식으로 작성해야 하며, 실제 데이터 시스템 운영 시 업무규칙에 맞게 데이터에 대한 등록과 관리를 진행해야 데이터의 품질을 높일 수 있습니다.

[Fig. 13] 데이터 품질인증 세부심사 절차

(https://www.dqc.or.kr/quality_certification/data_authentication/standard/)

[Fig. 14] 업무규칙 정의서 예시

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

데이터 프로파일링

데이터에 대한 품질진단에는 데이터 프로파일링 기법이 활용되는데 이는 통계적 기법을 바탕으로 데이터의 품질과 관련된 현상을 파악하는 절차입니다. 기술적으로 보면 데이터베이스의 테이블을 목록화하고 테이블별로 품질진단 목록을 체크하여 최종적으로는 세부 컬럼 단위로 점검을 수행하는 과정이라 할 수 있습니다.

[Fig. 15] 프로파일링 대상 및 유형 목록 예시

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

[Fig. 16] 프로파일링 결과보고서 예시

(한국데이터산업진흥원에서 편찬한 데이터 품질진단 절차 기법에서 발췌)

데이터 품질인증 심사 기준과 등급

프로파일링 분석을 통해 의심되는 데이터 항목을 검출하고 나면, 필요할 경우 추가 업무규칙을 도출하고 이후 최종 품질점검을 진행하여 오류판정을 내리게 됩니다. 그리고 이 오류율에 따라서 품질인증 등급이 결정됩니다. 실질적으로 품질인증 등급에 가장 큰 영향을 미치는 부분은 도메인과 업무규칙이 실제 데이터와 얼마나 정합성을 이루고 있는가에 대한 것으로, 정합성에 어긋나는 부분은 오류로 간주하여 오류율에 합산됩니다.

[Fig. 17] 데이터 품질인증 심사기준

(https://www.dqc.or.kr/quality_certification/data_authentication/standard/)

[Fig. 18] 도메인과 업무규칙별 데이터 품질 점검사항(일부)

(https://www.dqc.or.kr/wp-content/uploads/2017/05/DQCV_check.pdf)

데이터 품질인증 등급(수준)은 도메인과 업무규칙에 따른 데이터베이스 내의 값을 대상으로 데이터 정합성을 정량화하여 이 정합률의 수치에 따라 결정되게 됩니다. 현장 심사를 통해 나온 품질인증 결과는 한국데이터산업진흥원의 내부 심의를 거쳐 최종 확정됩니다.

[Fig. 19] 데이터 품질인증 등급

(https://www.dqc.or.kr/quality_certification/data_authentication/standard/)

지난 9월, 한국원자력연구원이 주관하고 (주)인실리코젠이 개발과 운영을 담당하고 있는 국가 방사선 반응지도 모델링 플랫폼에 대한 데이터 품질인증이 진행되었습니다. 국가 방사선 반응지도 모델링 플랫폼은 점차 수요가 증가하고 있는 방사선 관련 데이터를 정제하여 통합 데이터베이스로 구축하고 조회와 예측 등의 서비스를 제공하는 시스템으로, 데이터의 전반적인 품질을 점검/개선하여 활용가치를 높이려는 목적으로 인증을 신청하였습니다.

[Fig. 20] (주)인실리코젠에서 개발/운영을 담당하고 있는 국가 방사선 반응지도 모델링 플랫폼

(http://kaeri.re.kr/rrm)

식품, 공업소재 등 다양한 분야의 방사선 반응 데이터를 수용할 수 있도록 효율적으로 설계된 기본 데이터 구조 위에서, 수년에 걸쳐 구축한 방사선 관련 연구 데이터들을 대상으로 진행된 데이터 품질인증에서 최고 인증등급인 ‘플래티넘’을 획득하는 성과를 거두었습니다.

[Fig. 21] 데이터 품질인증 최고등급인 플래티넘을 받은 국가 방사선 반응지도 모델링 플랫폼

(https://blog.naver.com/atomkaeri/222127783437)

국가 방사선 반응지도 모델링 플랫폼은 이번 연도에 새롭게 반도체 분야 데이터를 추가하는 등 지속해서 데이터를 확장하고 있으며, 높은 품질의 데이터를 많은 사람이 더욱 유용하게 활용할 수 있도록 계속 발전시켜 나갈 예정입니다.

맛집의 공통점은 주방장의 뛰어난 요리 솜씨나 고객에 대한 세심한 서비스 이전에, 좋은 재료에서부터 출발한다는 점입니다. 좋은 재료는 운이 좋으면 얻을 수 있는 행운의 선물이 아니라, 부단한 노력과 검증을 통해 기준을 정하고 끊임없이 탐색하며 고민해야 비로소 손에 쥘 수 있는 것입니다. 그리고 좋은 재료를 입수했다 하더라도 각 재료에 맞는 적절한 보관절차나 관리체계 없이 방치한다면, 얼마 되지 않아 그 가치를 잃고 말 것입니다.

정부와 기업의 중요한 의사결정 과정에서는 물론이고 이제 각 개인의 판단이나 행동에도 데이터가 미치는 영향이 절대적인 시대가 되었습니다. 데이터를 잘 분석하고 해석하는 것도 중요하지만, 근본적으로 데이터를 잘 설계하고 구성하여 이를 뿌리 삼아 좋은 품질의 데이터라는 열매를 획득하는 것이 무엇보다 중요한 상황입니다. 데이터를 기반으로 더욱 살기 좋은 세상을 만들기 위해서는 데이터를 다루는 모든 주체가 데이터 맛집이 되어야 합니다. 데이터 품질의 중요성을 인지하고 이를 높이기 위한 모두의 노력이 더해졌을 때, 고품질의 데이터가 서로 간에 공유/확장되며 비로소 인류의 미래를 위한 중대한 정보들을 우리에게 드러내 줄 것입니다.

작성 : 대전지사 서승원 선임개발자

Posted by 人Co

Search Results for '2020/12'

2 POSTS

COVID-19 백신에 대하여

빅데이터 시대를 위한 데이터의 품격, 데이터 품질인증

Categories

Recent Posts

Archives

Tag Cloud

Site Stats