« Previous : 1 : ... 6 : 7 : 8 : 9 : 10 : 11 : 12 : 13 : 14 : ... 38 : Next »

통계의 함정을 극복하는 5가지 지혜


그야말로 통계의 시대입니다. 국가 정책에서부터 기업의 전략은 물론, 이제는 개인 생활의 관리와 계획에도 통계의 영향력이 크게 작용하고 있습니다. 국가 예산의 배분이나 전염병의 원인 분석과 같이 중대 사안을 해결할 때도, 고속도로의 정체 해소나 기업의 경영효율 개선 등과 같이 제한된 자원 내에서 최선의 대책을 고안할 필요가 있을 때도 세계 각국의 정부와 기업들은 통계를 적극적으로 활용하고 있습니다. 과거의 통계는 합리적인 결정을 내리기 위해 참고로 활용하는 수단에 가까웠지만, 대량의 데이터를 통합적으로 분석하고 예측할 수 있는 빅데이터 기술이 발전한 오늘날의 통계는 최상위 의사결정권자에 가까운 역할을 하고 있다고 해도 과언이 아닙니다. 통계 해석 결과가 문제해결을 위한 최선의 방법으로 연결되는 경우가 많고, 대다수 사람들은 이러한 방식이 합리적이라는 것에 공감하기 때문입니다.

그런데 한편으로 통계의 중요성이 이렇게 커지면서 일부 정치세력이나 기업, 단체들이 자신들의 이익을 위해 통계를 왜곡하는 사례도 증가하고 있습니다. 이들은 왜곡된 통계로 여론을 오도하여 자신들의 정책이 채택되게 하거나 부당하게 이익을 챙기기도 합니다. 통계는 본질적으로 현상이나 의견을 그대로 담은 데이터 집합체일 뿐인데, 왜 이런 상황이 발생하게 된 것일까요?

본 글에서는 우리가 통계를 접할 때 빠지기 쉬운 5개의 함정에 대해서 살펴보려고 합니다. 이 함정들은 통계로 혹세무민하려는 사람들이 주로 사용하는 왜곡 수단이기도 합니다. 이러한 통계의 함정들을 극복하고 통계의 본질을 올바르게 볼 수 있는 안목을 키울 수 있다면, 더이상 통계로 혹세무민하는 세력들에게 휘둘리지 않고 통계가 진정으로 말하고 싶은 진실의 영역에 도달할 수 있을 것입니다.

1. 평균의 함정

일찍이 1950년대 미국의 통계학자 대럴 허프는 자신의 저서 ‘새빨간 거짓말, 통계’에서 통계의 평균이 가진 한계점에 대해 언급한 바 있습니다. 그런데 60여 년이 지난 지금까지도 많은 통계 관련 기사에서는 평균만이 통계의 주요 결과로 나오는 경우가 많습니다.

2017년 국내의 한 일간지는 한국노동연구원의 발표내용을 바탕으로, 2016년에 약 342만원이었던 우리나라 직장인들의 평균 월급이 2017년에는 약 354만원 정도 될 것으로 예상된다는 기사를 발표하였습니다. 이 기사를 접한 많은 사람들은 아마도 별 의심없이 내용을 받아들였을 것입니다. 어떤 사람들은 평균에 한참 못 미치는 자신의 월급에 한탄을 했을 수도 있습니다. 그런데 이 기사에서 2017년의 월급은 예상치로 본 것이기 때문에 실제와 다를 수 있다고 하더라도, 2016년의 월급을 기준으로 살펴봤을 때 통계청에서 발표한 수치와 꽤 많은 차이를 나타내고 있습니다. 통계청에서 발표한 자료에 의하면 2016년 우리나라 임금 근로자의 평균월급은 약 237만원으로 나타났기 때문입니다. 대체 무엇이 잘못되었기에 100만원이 넘는 차이(통계청 자료에 나온 월급을 기준으로 보면 무려 45% 차이)가 나게 된 것일까요?

[그림1] 연도별/근로형태별 월평균임금
(출처:KOSIS 국가통계포털의 월평균임금통계)

이러한 사례는 양쪽 모두 통계 데이터 자체를 조작하지는 않았다는 것을 전제로 할 때, 평균을 산출할 때 대상이 된 표본집단이 다르고 각 통계자료에서 사용한 용어가 통일되지 않았기 때문에 발생한 것으로 볼 수 있습니다. 기본적으로 통계청의 자료는 ‘인구주택총조사’를 실시할 때 수집한 자료를 표본으로 사용하였고, 기사에서 인용한 자료의 경우에는 고용노동부의 ‘사업체노동력조사’에서 수집한 자료를 표본으로 사용했다는 점에서 차이가 있습니다. 그리고 일간지의 기사에서는 제목의 ‘직장인’을 ‘상용직 근로자’로 한정하였고 여기서 상용직 근로자는 ‘5인 이상 사업체에 소속되었으며 정규직이거나 1년 이상의 계약직인 근로자’로 정의하였습니다. 기사의 경우 지면의 한계가 있다 보니 제목에 내용을 축약해서 넣을 수밖에 없는 한계점이 있긴 하지만, 제목만 봤을 때는 우리나라 모든 직장인 월급의 평균이 약 354만원인 것으로 착각하기 쉬운 것도 사실입니다. 이렇게 평균을 산출하는데 관여한 표본과 용어에서 나오는 차이를 명확하게 인지하지 못하고 단순히 드러나는 평균값만을 받아들일 경우, 통계가 나타내는 진실로부터 완전히 멀어질 수 있습니다. 통계자료에서 표본과 용어만 적당히 조정하면 평균은 얼마든지 쉽게 바꿀 수 있다는 점을 잘 인지하고, 표본이 과연 모집단을 적절하게 반영하고 있는지, 결론을 내리는 과정에서 사용된 용어들은 보편적인 관점에서 명확하게 정의된 것인지를 잘 따져보아야 할 것입니다.

평균이 가지고 있는 또 다른 함정은 대표성을 갖기 어렵다는 점입니다. 많은 통계자료에서 평균은 마치 결론이 담긴 한 문장처럼 전체 통계를 대표하는 값으로 활용되곤 합니다. 통계의 세부적인 내용을 살펴볼 시간이 없거나 구체적인 내용을 봐도 이해가 잘 안 되는 사람들은 평균을 해당 통계의 결론처럼 받아들이게 되는 경우가 많습니다. 그리고 무엇보다 통계자료를 전달하는 주요 매체인 신문기사에서부터 지면의 한계를 이유로 상세한 자료없이 평균 정보만 제공하는 사례가 많습니다. 그렇지만 한 예로 회사 임원의 월급이 1,000만원일 때 종업원의 월급이 100만원이라면, 이들의 평균 월급은 550만원이 됩니다. 여기서의 평균은 대체 누구를 대표하는 값이 될 수 있을까요? 그리고 다른 예로, 우리나라처럼 일교차가 심한 날씨에서 얻어낸 평균온도라면 현실의 기후 특성을 제대로 반영하지 못할 것입니다. 이 때문에 많은 통계 전문가들은 평균을 표시할 때는 반드시 중앙값이나 표준편차, 분포형태를 함께 나타내야 하며, 필요에 따라서는 계층별 분석이나 시계열에 따른 분석을 통해 평균 속에 누락되어 버린 데이터의 속성을 잘 파악할 필요가 있다고 조언합니다.

2. 기준의 함정

고용과 실업 문제는 오늘날 세계 많은 나라들이 당면해 있는 중대한 사안입니다. 우리나라에서도 높은 실업률은 극복해야 할 큰 문제 중 하나라는 것에 대부분 동의하실 것입니다. 그런데 OECD(경제협력개발기구)에서 발표한 국가별 실업률을 보면 지난 2002년 이후 우리나라의 실업률은 계속 3퍼센트 수준을 유지하고 있습니다. (관련링크 : 국가별 실업률) 이 수치만 놓고 보면 우리나라는 비교적 상황이 좋은 것처럼 보입니다. 실업률이 낮은 상위 5개국에 들어갈 수 있을 정도입니다. 전 연령대에서 취업을 못한 사람들이 넘쳐나는 현실인데 OECD의 실업률 수치는 어떻게 나온 것일까요?


[그림2] 연도별 OECD 국가 실업률
(출처:KOSIS 국가통계포털의 실업률 통계정보를 바탕으로 편집)

여기에는 기준의 함정이 숨어 있습니다. ‘실업자’로 보는 기준이 국가마다 다른데, 우리나라는 이 기준을 가능하면 실업자에 포함되지 않는 사람이 많도록 설정한 것입니다. 미국에서는 일주일에 15시간 이상을 일해야 실업자에서 제외하는 반면, 우리나라에서는 일주일에 1시간만 일해도 실업자에서 제외합니다. 그리고 전업주부나 학생, 은퇴한 노인처럼 구직활동을 하지 않거나 근로활동 의사가 없는 사람들을 ‘비경제활동인구’라 하여 실업자에서 제외하는데 우리나라는 장기적인 취업 실패로 취업을 포기했거나 구직활동을 중단한 취업준비생, 국가고시를 준비하는 사람들도 모두 비경제활동인구에 포함시켜 실업자에서 제외하는 기준을 적용하고 있습니다. 이렇게 하다 보니 실제 직업을 가진 상태가 아님에도 불구하고 실업자에는 포함이 안 된 사람이 많고, 이는 실업률을 낮추는 결과로 이어지게 됩니다. 그 결과 우리나라는 실업률이 낮은 순으로 상위 5개국 내에 드는데도 불구하고 고용률은 하위에 속하는 기이한 현상이 발생하게 되었습니다. OECD 실업률 통계에서 높은 실업률로 다른 나라 사람들에게 조롱거리가 되는 것은 아무도 바라지 않겠지만, 현실을 제대로 반영하지 못하는 모호한 기준으로 만들어낸 낮은 실업률이라면 통계자료로서 국가 발전에 아무런 도움이 되지 못할 것입니다.

정치단체나 언론사에서는 이 기준의 함정을 이용하여 국가나 단체별 순위를 산정해 발표하는 경우가 있습니다. 그런 경우 점수나 순위를 산정하는 기준이 공정하게 설정되고 적용된 것인지 잘 확인을 해봐야 할 것입니다.

3. 초점의 함정

지난 가을, 함께 보면 재미있는 두 기사가 보도된 적이 있습니다. 통계청이 발표한 임금근로자의 수입에 관한 내용이었는데, 같은 통계정보를 두 기사가 정반대의 관점에서 묘사를 하였습니다. 한쪽 기사의 제목은 ‘월 200만원 이상 근로자 첫 60% 돌파…”최저임금 영향”’ 이였고 다른 기사의 제목은 ‘월급쟁이 10명 중 4명 월 200만원도 못 번다’였습니다. 한쪽은 더 많이 받는 쪽에 초점을 맞추고 다른 한쪽은 덜 받는 쪽에 초점을 맞추어 기사를 썼는데 양쪽 모두 통계정보 자체를 조정한 것은 아닙니다. 단지 기사의 초점을 다르게 두었을 뿐인데, 통계가 반영하는 현실 온도가 완전히 다르게 전달이 되었습니다.

초점의 함정은 통계를 전달하는 사람들이 통계를 통해 자신들의 가치관이나 의견을 피력하려는 과정에서 발생하기 쉬운 함정입니다. 같은 통계정보라도 정보의 특정 부분에만 초점을 맞추거나, 정보 일부분을 증폭해서 보여주는 식입니다. 이런 유형은 식품이나 약의 효능을 더 돋보이게 할 때도 많이 사용되는데, 예를 들면 절대적인 변화치가 작을 경우 상대적인 변화치로 표시하는 방식입니다.

2000년대 중반 미국의 제약회사인 화이자는 뇌졸중 약 리피토를 광고하면서 2형 당뇨와 심장병 위험요인이 있는 환자에게 발병률을 48퍼센트 낮춰준다는 문구를 넣었습니다. 그런데 이는 위험요인을 가진 사람 100명 중 48명은 뇌졸중에 걸리지 않는다는 것이 아니라 비교집단 환자들의 2.8퍼센트에서 뇌졸중이 발생한 것에 비해 리피토를 복용한 환자 집단에서는 1.5퍼센트에서만이 뇌졸중이 발생하였고 이 두 집단의 상대적 차이가 48%였다는 의미였습니다. 두 집단의 절대적인 차이는 1.3퍼센트였습니다.

이렇게 통계정보는 발표하는 주체의 목적에 따라 특정 부분만이 강조되거나, 절대적 차이 대신 상대적 차이가 부각되는 경우가 있습니다. 전면에 드러난 데이터가 과연 통계의 전부인 것인지, 그리고 그것이 절대적인 것인지 상대적인 것인지를 잘 파악할 수 있어야 통계가 만든 합법적인 과장으로부터 벗어날 수 있을 것입니다.

4. 상관관계의 함정

통계 해석 과정에서 빠지기 쉬운 또 다른 함정은 바로 상관관계의 함정입니다. 통계 관련 자료에 많이 나오는 예로 유럽에서 예전부터 전해오는 황새와 신생아 수에 관한 이야기가 있습니다. 황새가 많은 마을일수록 아이가 많이 태어난다는 것입니다. 1980년대 말, 유럽의 학자인 Helmut Sies는 이 이야기가 사실인지 증명을 하기 위해 조사를 실시하였고 실제로 황새와 신생아 수 사이에 상관관계가 존재함을 밝혀내었습니다. 이 연구결과는 세계적인 학술지에 실리면서 크게 이슈가 되기도 하였고 지금도 통계의 상관관계를 이야기할 때 단골로 등장하는 예시가 되었습니다. 물론 이 예시는 잘못 추정한 상관관계의 대표적인 사례로 활용됩니다. 두 개 이상의 통계치의 분포 패턴이 유사할 때 이런 함정에 빠지기 쉬운데, 이런 경우 둘 모두에 영향을 미치는 제3의 변수가 존재하는 경우가 많습니다. 타당한 인과관계인지 확인을 하기 위해서는 회귀분석과 같은 통계적인 분석 기법을 통해 명확한 상관관계를 산출하고, 제3의 변수가 미치는 영향에 대해서도 고려를 해야 할 필요가 있습니다.

황새와 신생아의 상관관계의 경우, 사실은 마을의 규모라고 하는 제3의 변수가 황새와 신생아 수 모두에 영향을 미친 것으로 볼 수 있습니다. 그런데도 단순히 황새의 수와 신생아의 수라는 두가지 변수의 관계에만 집중하면 둘이 서로 인과관계가 있다고 착각을 하게 될 수도 있습니다. 황새와 신생아 수의 허위 상관관계에 넘어갈 현대인들은 별로 없겠지만, 다루는 대상만 바뀌었을 뿐 오늘날의 통계에서도 유사한 방식으로 상관관계를 엮어내고, 이 관계를 맺고 있는 대상들이 인과관계가 있는 것처럼 보여주는 경우가 많습니다.

이렇게 잘못된 인과관계의 함정은 오늘날 코호트 연구(특정 요인에 노출된 집단과 그렇지 않은 집단에서의 질병 발생률을 추적 비교하는 연구방법)에 대한 결과를 도출할 때 종종 발생합니다.

1980년대 초반 미국의 한 의학분야 학술지에는 커피와 췌장암이 상관관계가 있다는 연구결과가 실린 적이 있습니다. (관련기사 링크) 미국 하버드 대학의 역학학자 맥마혼 박사와 그의 연구팀은 1970년대 미국의 11개 병원에 입원한 369명의 췌장암 환자와 다른 질병으로 입원한 644명의 환자들을 비교연구하였습니다. 이들은 췌장암 환자들이 음주/흡연/커피/홍차를 매일 어느 정도 접하는지를 조사하였고 이를 다른 환자군과 비교하였습니다. 연구팀은, 커피를 많이 마실수록 높은 췌장암 발병률이 나왔다는 조사결과를 토대로 커피를 마시면 췌장암의 위험이 높아진다고 결론을 내렸습니다.

[그림3]  당시 연구팀이 발표한 연구결과 중 일부
(출처:발표논문의 Table을 참조하여 유사하게 재구성)

그러나 이후 다른 연구자들은 맥마혼 박사의 췌장암 연구에서 커피 섭취 집단 내에 흡연자들이 평균 이상으로 많이 포함되어 있었다는 사실을 확인하였습니다. 이는 당시 커피협회에서 주장했던 “실험집단에 보편성이 없다”는 내용과도 같은 맥락이었습니다. 이어진 후속 연구를 통해서 췌장암 발병률이 올라간 것은 흡연 때문이라는 것이 밝혀졌고 커피는 췌장암을 유발하는 원인물질이라는 오명에서 벗어날 수 있었습니다.

상관관계에서는 이처럼 상관관계가 없는데 있는 것으로 잘못 판단하는 경우를 ‘1종 오류’라고 합니다. 반대로 상관관계가 있는데 없는 것으로 판단하는 경우는 ‘2종 오류’라고 합니다. 위에서 예로 든 췌장암 연구의 경우, 커피와 췌장암의 상관관계에 대해 연구진은 1종 오류를 범한 것으로 볼 수 있습니다.

30여 년이 지난 요즘에도 뉴스에는 하루가 멀다 하고 ‘A를 먹으면 B가 유발된다.’ 거나 ‘C를 하면 D에 걸린다.’ 와 같은 식의 코호트 연구 결과가 보도되고 있습니다. 이러한 결과를 도출한 연구 과정이 정말 유의미한 인과관계를 끌어낼 수 있게 적절하게 구성되고 진행되었는지 좀 더 꼼꼼하게 살펴볼 필요가 있습니다. 연구에 언급한 변수들 외에 다른 변수가 영향을 주었을 여지는 없는 것인지, 비교 대상군은 적절하게 나뉜 것인지 등에 주안점을 두고 보면 좋을 것입니다.

5. 수치의 함정

통계는 거짓말을 하지 않는다고들 합니다. 그 말은 사실이지만, 통계를 분석하는 사람들은 종종 통계 내의 데이터에 빠져 잘못된 결론을 내리기도 합니다.

1990년대 중반, 국내의 한 역사학자는 전국 역사학 대회에서 일제강점기에 일본과의 협력을 통해 한국이 성장하였다는 주장을 하였습니다. 그는 그 근거로 일제강점기에 총독부가 남긴 자료를 분석한 결과를 제시하였는데, 그 자료에 따르면 일제강점기의 국내 총생산은 4.15 퍼센트씩 증가하였고 화물 수송량과 곡물 생산량, 무역과 공업 생산량도 증가하였다고 합니다. 단순히 수치만을 놓고 보면 그의 주장이 그럴듯해 보이기도 합니다. 그렇지만 그의 주장에 대해서는 3가지 관점에서 반박해 볼 수가 있습니다. 첫째, 강점기에 독점적 권력을 가진 세력이 산출하고 정리한 통계자료가 진정으로 신뢰할 수 있는 데이터인가? 둘째, 그 자료가 사실이라 하더라도 그 성장의 혜택이 우리나라 다수의 국민들에게 돌아갔는가? 결국에는 일본의 전쟁준비와 일본 본토의 이익을 위해 쓰이지 않았는가? 셋째, 우리나라 사람들의 생활 수준은 왜 더 나빠졌는가? (좀 더 면밀한 반박근거는 다음의 기사내용을 참고하면 좋을 것 같습니다. 식민지 근대화론 비판 )

이 학자가 통계를 분석하고 해석했던 과정을 통해 알 수 있는 것은, 단편적인 통계수치만을 놓고 최종적인 결론을 내리는 것은 매우 위험한 결과를 도출할 수 있다는 사실입니다. 이 통계해석의 경우에는 근본적으로 ‘발전’과 ‘성장’의 의미를 더 바르게 정의하고 접근할 필요가 있었고, 수치로 나타나는 지표의 성장이 실제로 구성원들에 대한 적절한 분배로 이어졌는지 알 수 있는 근거자료가 추가로 필요했다고 생각합니다.

통계는 전통적으로는 수학의 한 영역이지만, 그 활용성이 한층 넓어진 오늘날에는 수학으로서의 통계라는 틀에만 갇혀있으면 위험합니다. 통계를 올바르게 보기 위해서는 우선 세상을 바르게 보는 안목이 기본적으로 갖추어져 있어야 할 것입니다.

마치며

'나는 내가 조작한 통계만을 믿는다.'

한 때 윈스턴 처칠이 했던 것으로 알려졌던 이 말은 사실, 2차 세계대전 당시 독일군의 장군이었던 요제프 괴벨스가 통계를 잘 활용했던 적대국의 수상인 처칠의 신뢰를 떨어트리기 위해 퍼트렸던 유언비어라고 합니다. 처칠은 이 헛소문의 내용과는 반대로 전쟁에서 영국이 처해있는 위기 상황을 있는 그대로 국민들에게 전달하였고, 이는 사람들의 위기감을 자극하여 결과적으로는 전쟁이라는 힘든 시기 속에서 영국 국민들의 결속과 항전의지를 이끌어 낼 수 있었다고 합니다.

믿을 수 없는 정보들이 그럴듯한 통계정보를 근거로 내세우며 현대인들을 혼란스럽게 하고 있습니다. 하루가 멀다 하고 쏟아져나오는 통계정보의 엄청난 양과, 같은 통계정보를 가지고도 이를 해석하고 보도하는 주체마다 다르게 외치는 메세지 속에서 풍요로움보다는 어지러움을 더 느끼게 됩니다. 통계를 만들고 보도하는 사람들의 통계에 대한 올바른 지식과 통계정보를 분석하고 해석하는 과정에서의 양심과 정의감도 중요하겠지만, 가치관이 다원화된 사회에서 이들에게만 의존하는 것은 역부족일 것입니다.

영국의 소설가 하버트 조지 웰스는 언젠가 통계적 사고가 읽기 쓰기 능력처럼 유능한 시민의 자격요건이 될 것이라 예견하였습니다. 혹시 오늘도 통계정보에 그럴듯한 해석을 붙이고 자신들에게 유리한 말을 내세우며 혹세무민하는 글을 마주하셨습니까? 이제부터는 휘둘리지 말고 요목조목 따져 보십시오. 21세기를 살아가는 민주시민의 힘은 촛불을 들고 광장으로 나갈 수 있는 용기와 거짓으로 왜곡된 통계 속에서 진실을 볼 수 있는 지혜로부터 비롯될 것입니다.

참고문헌

통계의 함정 / 게르트 기거렌처 외 / 2017 (원판은 2014) / 율리시즈
넘버스, 숫자가 당신을 지배한다. / 카이저 펑 / 2011 (원판은 2010) / 타임북스
n분의 1의 함정 / 하임 샤피라 / 2017 (원판은 2017) / 반니
새빨간 거짓말, 통계 / 대럴 허프 / 2004 (원판은 1954) / 더불어책
신은 주사위 놀이를 하지 않는다 / 데이비드 핸드 / 2016 (원판은 2014) / 더퀘스트
모두를 위한 사회과학 / 김윤태 / 2017 / 휴머니스트
비즈니스 통계 입문 / 우치다 마나부 외 / 2012 (원판은 2010) / 시그마북스
국가통계포털 (http://kosis.kr)

작성 : 대전지사 서 승 원

Posted by 人Co

2018/12/13 14:11 2018/12/13 14:11
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/299

CLC Genomics Workbench 12버전, 베일을 벗다!


지난 10년간 연구자들에게 많은 사랑을 받으며, NGS 분석을 위한 기초 툴로써 자리를 잡은 CLC Genomics Workbench가 2018년 11월 28일에 12버전으로 정식 릴리즈 되었습니다. 사용자 편의성을 도모하기 위해 많은 부분이 변경되었는데요, 주요한 변화들에 대해서 함께 알아보도록 하겠습니다.

CLC Genomics Workbench 11버전 interface로 변경된 지 4년 정도가 지났습니다. 그리고 이번 메이저 업그레이드에서 CLC Genomics Workbench가 새로운 옷을 입었습니다.

메인화면 

전체적인 구성이나 아이콘에는 큰 변화가 없지만, 프로그램을 실행하고 나면 뷰어 화면에 시작하는 방법, 데이터 import를 도와주는 화면이 있으며 예제 데이터도 간단히 다운로드하여 사용하실 수 있습니다. 또한, 자주 사용할법한 도움말들을 뷰어 화면에 배치하여 처음 CLC Genomics Workbench를 사용하는 입문자들도 기존에 비해 접근이 용이하도록 구성했습니다.


[그림 1] 메인화면의 변화(위-11버전, 아래-12버전)

Import 메뉴의 변경

Import 화면을 보시면 기존의 11버전보다 두 가지 항목이 추가되었습니다. QIAGEN에서 나온 NGS sequencing platform인 GeneReader를 읽을 수 있게 되어 있으며 기존의 Biomedical Genomics Workbench에만 있던 'Import Primer Pairs'가 추가되어 QIAGEN gene panel primer 파일을 바로 가져올 수 있습니다.


[그림 2] Import 메뉴화면

Navigation Area의 변화

기존 Navigation Area 내에서 파일 혹은 폴더의 순서를 변경할 때, 파일이 생성되거나 옮겨진 순서대로 정렬되어 원하는 대로 정렬하기가 쉽지 않았습니다. 이번 업그레이드 통해 파일이나 폴더를 쉽게 드래그 앤드 드롭으로 순서를 변경할 수 있게 되었습니다. 또한, 상단의 Navigation Area에서 데이터에 마우스를 가져다 대면 뜨던 정보안내 말풍선 창의 정보가 추가되었습니다. 기존 버전에서는 이름만 표시됐던 반면에 12버전에서는 용량과 파일의 포맷을 함께 나타내줍니다.


[그림 3] 데이터 타입과 용량 정보 보여주기

자동파일압축

이번 업그레이드에서 놀라운 기능은 기본적으로 압축 기능이 추가되었다는 점입니다. 같은 파일을 동일한 조건으로 분석했을 때, 11버전에서는 149MB였던 결과 파일이 12버전에서는 92MB로 30% 정도 용량을 아낄 수 있게 되었습니다. 기존의 100TB 용량을 이제 130TB처럼 사용하실 수 있습니다.


[그림 4] 자동 파일 압축 및 약 30% 저장용량 절약

레퍼런스 데이터 다운로드 방법 변경

기존에는 우측 상단의 Download 아이콘에서 Reference를 선택하여 열리는 창에서 'Download Reference Genome Data'를 다운로드할 수 있었습니다. 새롭게 변경된 UI에서는 Biomedical Genomics Workbench처럼 우측 상단의 'References'라는 아이콘을 이용하여 레퍼런스 데이터를 다운로드할 수 있습니다. Reference 아이콘을 누르면 하단의 그림 중 아래 화면 같은 창이 뜨게 되며 여기서 원하는 종 혹은 원하는 데이터를 골라 다운로드합니다.


[그림 5] 레퍼런스 데이터 다운로드 인터페이스 변경

Toolbox의 구성 변경 1

 plug-in로 제공됐던 'Bisulfite Sequencing'툴이 별다른 설치 없이 기본적으로 탑재 되었습니다.


[그림 6] Bisulfite Sequencing 분석폴더 디폴트로 추가

Toolbox의 구성 변경 2

툴박스의 폴더 구성을 보시면 'NGS Core Tools'가 사라지고, 'Prepare Sequencing Data'라는 폴더에 trimming이나 demultiplex 관련한 툴들이 배치되어 있으며, 'Installed Workflow'로 기존의 'Workflow' 폴더의 이름이 변경되었으며, 'Utility Tools'라는 폴더가 추가되었습니다.


[그림 7] 분석폴더의 재구성

Toolbox의 구성 변경 3

새롭게 추가된 툴에 대해서 소개해 드리면 copy number variant를 분석할 수 있는 툴, variant에서의 정보를 제거하는 부분, RNA-seq을 진행할 때 두 그룹일 때에는 별다른 metadata 없이 진행할 수 있도록 'Different Expression in Two Groups'가 추가되었으며 plug-in으로 사용하던 'Batch Rename'이 추가되었습니다.


[그림 8] 추가된 새로운 툴

몇 개의 툴들은 이름이 변경되었습니다. [그림 9] 이미지를 참고해주십시오.


[그림 9] 이름이 변경된 툴

QIAseq panel reference 다운로드

Reference Data를 다운로드하는 곳으로 가보면 두 번째 아이콘에 QIAGEN Sets라는 아이콘이 있습니다. 이 아이콘을 선택하면, QIAseq Panel에 관련된 reference만 선택적으로 다운로드할 수 있습니다. QIAGEN의 panel을 가지고 나온 데이터를 보다 더 쉽게 분석할 수 있도록 CLC Genomics Workbench에 적용하였습니다.

[그림 10] QIAseq 분석에 찰떡인 QIAGEN Sets 다운로드

손쉬운 서버 프로그램과의 연동

Workbench desktop 버전과 server의 연동에 관련된 부분입니다. 창의 아래쪽 표시줄에 보면 S라고 되어있는 사각형 아이콘이 생성되어 있습니다. 이 버튼을 누르면 Server Connection 창이 뜨게 되고 쉽게 server와 연결할 수 있고 연결 상태를 하단에서 바로 확인할 수 있습니다.


[그림 11] 메인화면에서 연결되는 CLC Server Connection

Track 뷰어의 변화

아래 화면([그림 12])은 read mapping의 track 화면입니다. Track에서 position을 보여주던 숫자가 위치하고 있던 맨 윗부분 위로 크로모좀 뷰어가 추가되었습니다. read 색깔은 unpair/pair 그리고 mismatch까지 색상 지정을 자유롭게 하실 수 있으며 aligned read의 하단에 있던 overflow graph가 read 상단으로 올라와 새로운 coverage graph를 보여줍니다. 그와 동시에 read를 검토할 때 불편했던 위아래 이동에 스크롤바가 추가되어 편하게 read의 alignment를 살펴볼 수 있습니다.


[그림 12] Intuitive 하게 변경된 Track 뷰어 인터페이스

Differential Expression for RNA-seq툴의 개선

기존 버전에서 불가능했던 RNA-seq에서 normalization 방법도 설정할 수 있습니다. 기본적인 whole transcriptome RNA-Seq과 targeted RNA-seq, Small RNA 분석을 따로 설정할 수 있으며 normalization도 TMM과 Housekeeping gene으로 가능합니다.


[그림 13] 세분화된 차등발현 유전자 분석 툴

Differential Expression in Two Group 추가

두 그룹 간의 RNA-seq 비교일 경우 별도의 metadata 없이 control과 study 그룹을 wizard에서 설정하여 분석할 수 있도록 구성되어 있습니다.


[그림 14] 두 그룹간의 비교 화면

Export 기능의 개선

Annotation을 export할 때 생기던 에러가 해결되었습니다. 기존에 엑셀 포맷으로 export 할 경우에는 모든 칼럼을 전부 export 하던지 혹은 필요한 칼럼만 체크해서 export를 할 수 있었습니다. 현재 내가 보고 있는 화면대로 원하는 칼럼만 export 하려면 다시 체크해야 되는 번거로움이 있었습니다. CLC Genomics Workbench 12버전 업그레이드를 통해 현재 보고 있는 칼럼만 그대로 export 하는 기능이 추가되어 다시 골라야 하는 번거로움을 없앴습니다.


[그림 15] 화면 그대로 간편하게 export 하기

이번 업그레이드로 많은 부분이 바뀌게 되었습니다. 기대하셨던 부분이 반영되었을 수도 있고, 아직 부족한 부분도 있을 거라고 생각이 됩니다. CLC Genomics Workbench는 사용자의 많은 의견을 반영하여 10년 넘도록 꾸준히 업그레이드 되고 있습니다. 업그레이드된 12버전을 통해 새로운 기능들을 확인해보시기 바랍니다.

구버전의 CLC Genomics Workbench를 이용하시는 분 중 12버전으로 업그레이드가 필요하신 분들은 12월 한 달 동안 진행되는 연말 프로모션을 적극 활용하시기 바랍니다.



Posted by 人Co

2018/12/03 17:24 2018/12/03 17:24
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/298


일정

일시 : 2018년 12월 10(월)~ 12월 11(화)

장소 : 충남대학교 정보통신원 정보교육관 (건물번호 : N2-1) 1306호

내용

Python을 이용한 데이터 분석 방법을 습득할 수 있습니다.

(자세한 프로그램 내용은 http://kobicedu.labkm.net 참고)

 

 

신청방법

신청기간 : 2018년 11월 21(수) ~ 2018년 11월 29(목)

선발인원 : 30

교육대상 :

  1) Python을 이용한 데이터 분석 교육이 필요한 연구원 및 대학원생 등

  2) 모든 교육 일정에 참석이 가능한 교육생 (2일 일정 필수 참석)

선발안내 : 2018년 11월 30일(금)

교육비 : 무료 (중식 무료제공)

준비물 : 유무선 인터넷이 가능한 개인 노트북

신청방법

  - 온라인 신청 http://kobicedu.labkm.net

문의

  - ㈜인실리코젠 (031-278-0061, edu@insilicogen.com)

  - 문의게시판 이용 http://kobicedu.labkm.net/labboard/board/QnA

Posted by 人Co

2018/11/21 14:48 2018/11/21 14:48
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/297

프로바이오틱스 (Probiotics)





[그림 1] 장내에 서식하는 다양한 미생물


사람의 체내에는 수많은 미생물이 살고 있다. 체내 미생물들만 따로 추려 무게를 재면 약 1~1.5kg 정도라고 한다. 이러한 미생물들은 사람의 몸 곳곳에 존재하는데, 가장 많이 서식하는 곳이 바로 사람의 장이다. 미생물들은 여러 종이 서로 군집을 이루며 서식하게 되는데 이를 미생물 균총(菌叢, colony)이라고 한다.
사람의 장내에서 크게 다섯 종류의 Phylum(문)이 - Bacteroidetes, Firmicutes, Actinobacteria, Proteobacteria, Verrucomicrobia - 균총의 주를 이루고, 이 중 Bacteroides문과 Firmicute문이 약 80% 이상을 차지한다. 이 미생물 균총은 숙주가 섭취하는 음식이나 건강 상태 등에 의해 변화하며 영양소 대사 과정이나 면역 반응 등에 관여하는 것으로 알려졌다.

2006년 제프리 고든 박사는 비만한 쥐와 그렇지 않은 쥐의 장내 미생물을 무균 쥐에 각각 투입한 뒤 같은 먹이를 먹였을 때 비만한 쥐의 장내 미생물을 투입한 쥐가 더 살이 잘 찐다는 연구를 발표했다. 이는 장내 미생물이 숙주의 대사에 영향을 미친다는 점을 시사하여 학계에 큰 반향을 일으켰다. 이후 체내 미생물들에 관한 다양한 연구들이 진행되면서 이들이 비만 등의 대사성 질환뿐 아니라, 신경계 질환이나 노화 등 다양한 질환과 관계가 있다는 사실이 밝혀졌다.

이렇게 미생물 총이 인간의 건강에 미치는 영향들이 밝혀지면서 건강한 장내 미생물 균총을 도움이 된다고 알려진 프로바이오틱스(Probiotics)가 세계적으로 주목받고 있다. 세계보건기구(WHO)에 따르면 프로바이오틱스란 체내에 충분한 양이 투입되었을 때, 건강에 좋은 영향을 주는 살아있는 균을 뜻한다. 즉 하나의 물질이 아니라 살아있는 균들을 말한다. 이 균들 중 대다수는 유산균, 비피더스균 등이 발효 식품에서 주로 찾아볼 수 있는 균들이다. 최근 프로바이오틱스는 분말이나 발효유 등과 같은 형태로 상품화되어 건강기능식품으로써 약국 등에서 판매되고 있으며 국내 건강기능 식품 분야에서 빠르게 성장하고 있다. 2017년 기준 식약처의 조사에 따르면 프로바이오틱스는 홍삼, 비타민에 이어 세 번째로 큰 시장을 형성하고 있는 것으로 볼 수 있다(그림2 참조). 프로바이오틱스는 안정성과 기능성을 기준으로 선발되며, 한국의 식약처는 19종의 균을 프로바이오틱스 균주로 인정하고 있다(표1 참조).

[그림 2] 2017년 건강기능 식품 품목별 매출 현황
식품의약품안전처, 건강기능식품 생산실적 통계 (2017)


[그림 3] 프로바이오틱스 균주
프로바이오틱스의 안전한 사용을 위한 연구(2016) 한국보건의료연구원


장내에서 균총을 이루며 서식하게 되는 프로바이오틱스가 체내에서 어떠한 역할을 하는지 밝히는 연구가 지속해서 진행되면서 프로바이오틱스들의 메커니즘들이 밝혀지고 있다. 균주별로 다른 기능을 하는 것으로 알려졌지만, 지금까지 알려진 프로바이오틱스의 기능은 다음과 같다.

  1. 체내에서 소화되지 않는 탄수화물을 분해하고 지방산, 비타민 아미노산 등을 합성하여 소화 및 대사를 돕는다.

  2. 프로바이오틱스가 생산하는 대사물질들이 유해균의 증식을 억제하고 유해균이 장내 상피세포에 부착하는 것을 저해함으로써 장내 균총을 안정화시킨다.

  3. 면역 기능을 조절하는 cytokine의 발현을 억제하거나 유도하여 면역 기능을 개선하는 역할을 한다.

  4. 대사과정에서 생성되는 유기산 등이 콜레스테롤 합성을 저하해 전체 혈중 콜레스테롤 농도를 낮춘다.




[그림 4] 프로바이오틱스 섭취 시 기대되는 효과

그러나 프로바이오틱스의 효과는 알려진 것보다 크지 않다는 연구결과도 있다. 최근 한 연구에서는 프로바이오틱스를 섭취한 사람의 장내 미생물과 대변의 미생물을 조사한 결과 대변과 장내 미생물 균총의 일부만 연관성이 있다는 연구 결과를 발표했다. 프로바이오틱스를 섭취한 대다수 사람의 대변에서는 프로바이오틱스 균이 발견되었지만, 사람의 장내에서 균주가 정착하지 못한 경우가 더 많다는 결과를 보인 것이다.



[그림 5] 프로바이오틱스 섭취 시 발생할 수 있는 부작용


부작용에 관한 사례도 보고되고 있다. 국내에서도 프로바이오틱스가 원인으로 추정되는 부작용 신고사례가 2009년 이후로 건강기능식품 부작용 신고센터에 꾸준히 접수되고 있다. 주로 나타나는 부작용으로는 복부팽만감, 두통, 설사, 알레르기 같은 면역 과민 반응 등이 있다. 또한, 과다 복용 등 잘못된 복용방법이나 섭취 위험군이 섭취한 경우 감염 등의 부작용에 의해 사망에 이르는 일도 있다. 특히, 미국 FDA에서는 프로바이오틱스 섭취 고위험군(면역억제환자, 구조적 심장질환 환자 등)을 따로 분리하여 프로바이오틱스 섭취에 주의할 것을 경고하고 있다. 또한, 장구균(Enterococcus)의 경우 항생제 내성을 가지게 하는 유전자를 가진 균주로 장내 미생물 균총 내에서 항생제 내성 유전자 확산 가능성이 우려되며 이에 관한 연구도 진행되고 있다.

아직 논란의 여지는 있지만, 여러 연구의 성과로 프로바이오틱스가 체내에서 어떤 역할을 하는지 밝혀지고 있고, 어쩌면 의료용 혹은 치료 약물로써 인류의 건강에 중요한 역할을 하게 되는 미래가 올지도 모른다. 다만, 현재까지의 프로바이오틱스는 어디까지나 건강보조식품임을 기억하고 복용하는데 주의를 기울여야 할 것이다.

참고문헌



작성자 : BS실 박혜선 주임

Posted by 人Co

2018/11/05 09:06 2018/11/05 09:06
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/296

"2013년 우리나라의 에이즈 감염자는 누계 1만 명을 넘어 공식적으로 에이즈 확산 위험 국가가 되었습니다. 2008년 백신 개발 국제 심포지엄에서, 한국은 에이즈 감염자가 잠복기를 거쳐 '폭발 직전'이라는 발표가 있었습니다. 한국에이즈학회 부회장은 '미국이나 태국의 사례를 보면 에이즈 감염자가 1만 명을 넘어서면서부터 신규 감염자가 기하급수적으로 증가한다. 우리도 이와 비슷하게 에이즈가 증가할 가능성이 크다'며(동아일보, 2008.4.4.) 한국이 에이즈 확산 위험 국가가 될 것을 경고한 바 있습니다."
한국은 "에이즈 위험국가?" 그것도 틀렸다. 中 발췌
http://www.newsnjoy.or.kr/news/articleView.html?idxno=220301

위와 같이 2014년에 건강한 사회를 위한 국민연대 블로그에 "한국은 에이즈 위험 국가?" 라는 글이 올라오면서 많은 이슈가 되었다. 하지만 최근에 이 블로그 글에 대한 해명 자료가 발표되면서 AIDS(후천성 면역결핍증, Acquired Immunodeficiency Syndrome)와 HIV(인간면역결핍바이러스, Human Immunodeficiency Virus)에 대한 대중의 관심이 높아지고 있다.
이들이 말하고 있는 "에이즈 위험 국가"라는 게 무엇인지 짚기 전, 또한 감염인이라고 하여 차별받지 않도록 먼저 HIV와 AIDS에 관해 공부해보도록 하자.

우리 몸의 면역시스템

우리 몸의 면역시스템은 다음과 같이 간단하게 설명할 수 있다. 먼저 우리 몸에 Non-self한 병원균(pathogen)이 들어오게 되면, 초기에 macrophage, NK cell 등의 대식세포가 병원균을 인식하고, 해당 병원균의 정보를 Helper T-cell로 전달하게 된다. 그 병원균의 정보를 통해 killer T cell이 해당 병원균을 직접 죽이거나 B cell을 통해 그 정보를 기억해 두었다가 이후에 다시 침투하였을 때 병원균이 작용하지 못하도록 항체를 만들어 물리치고 있다.





HIV와 AIDS의 정의

HIV는 Human Immunodeficiency Virus로 인간의 면역체계를 파괴하는 레트로 바이러스이다. 즉 단백질과 RNA로 된 바이러스로 구성되어 있다. 우리 몸에 침투한 HIV 는 바이러스의 정보를 다른 세포들에 전달하는 Helper T-cell 중 하나인 CD4+ T-cell 을 공격한다. 우선 CD4 T-cell 에 구멍을 뚫고, 자신의 RNA를 세포 속에 집어넣는다. 세포 안에 들어간 RNA는 ‘역전사효소’라는 효소를 만들어 DNA로 변신한 다음 CD4의 DNA 속에 끼어들어 간다. 다음은 CD4를 이용해 수백~수천 개 HIV로 증식한다. 충분히 증식한 HIV는 CD4의 ‘자살유전자’를 활성화시키는 것으로 알려졌다. 즉 이용가치가 끝난 CD4에게 ‘자살하라’는 명령을 내림으로써 CD4를 죽게 만드는 것이다. 이를 통해 CD4가 혈액 1ml 안에 2백 개 이상 떨어지게 되면, 우리 몸의 면역 체계가 무너지게 되어 평소 쉽게 퇴치했던 병균들이 우리 몸을 유린하게 된다. 이를 후천적 면역결핍 증후군(AIDS)라고 한다.




[그림2] HIV life cycle


HIV의 감염

HIV의 전파는 바이러스 또는 바이러스에 감염된 세포가 있는 체액의 접촉을 통해 이루어진다.

의학계 통계에 따르면 HIV가 체내로 유입될 확률은 보균자의 혈액을 직접 수혈받을 때가 95% 이상, 감염된 산모가 출산하였을 때 아기가 보균하게 될 확률이 25~30%, 의료행위 중 사고가 0.3%, 성관계를 통한 확률이 0.1~1%로 나타나고 있다. 그러나 대부분의 감염 즉, 약 98% 이상의 HIV가 전염되는 경우는 성관계를 통한 전염이라고 한다.
많은 사람들이 에이즈의 전염 경로를 오인하여 보균자들이 불가피하게 사회로부터 고립되는 경우가 종종 있다. 침, 땀 등의 타액 또는 감염인과의 피부접촉, 모기 등으로는 전염되지 않는다고 하니 특별한 의료사고가 일어나지 않는 한 AIDS에 걸릴 일은 상당히 드문 일이다.



[그림3] HIV 감염경로


HIV 잠복세포

HIV 감염환자에 대한 anti-retroviral therapy 등의 치료법 도입으로 인해 HIV로 인한 사망률이 크게 낮아지고 있다. 그러나 HIV virus의 일부는 잠복감염 상태로 비활성화되어 CD4 T-cell 에 삽입된 채로 치료법으로도 완벽히 제거되지 않아 치료를 중단하게 되면 재활성화되는 것으로 알려졌다. 이러한 잠복감염 세포까지 완전히 제거하는 것이 HIV의 완전한 치료이므로 HIV 잠복세포의 메커니즘과 제거를 위한 연구가 다각도로 이루어지고 있다.



[그림 4] HIV의 잠복
출처 : HIV latency and reactivation model(Cohen et al., 2011)


HIV 잠복세포와 후성유전적 요소의 역할

HIV 잠복감염의 메커니즘을 밝히기 위하여 인간 게놈상의 virus 삽입 위치, Tat 혹은 Rev와 같은 virus 단백질의 역할, 숙주 세포의 전사 인자나 microRNA와 같은 조절인자, virus 삽입 위치의 히스톤 변형 혹은 메틸화와 같은 크로마틴 상태 등 다각도로 연구가 진행되고 있다. 그 중 특히 HIV 잠복세포 내의 삽입된 HIV 전사 작용이 후성유전적으로 이루어지고 있다는 보고가 아래와 같이 지속해서 이루어지면서 HIV 만성감염 세포에서 HIV 5' LTR의 후성유전학적 변형이 HIV의 전사 및 복제를 조절하는 것을 확인할 수 있었다.


  1. 히스톤 아세틸화를 제거하는 효소인 HDAC은 YY1, LSF, CBF1과 같은 숙주의 전사인자들에 의하여 HIV의 LTR에 결합하여 HIV의 전사를 억제함(Gordon et., al 2006, Ylisastigal et al., 2004, Williams et al., 2006).
  2. 전사 유도와 주로 관련이 있는 히스톤 아세틸화와는 달리, DNA 메틸화는 발현 유도와 억제 기능이 모두 알려졌는데, 그 중 H3K9me3 변형은 SUV39H1 효소에 의해 매개되어 HIV LTR에 heterochromatin 을 형성함으로써 전사를 억제함(du Chene et al., 2007).
  3. 다른 전사 억제효소인 CTIP2는 HDAC1, HDAC2, SUV39H1, HP1 단백질들을 유도하여 heterochromatin 을 형성함으로써 HIV 전사 억제를 유도함(Marban et al., 2007)

[그림 5] HIV 잠복세포를 조절하는 후성유전학적 기작
출처 : Epigenetic regulation mechanism of HIV latency cell(Coiras et al., 2009)


참고 영상

(1) HIV/AIDS 치료는 왜 그렇게 어려울까요 - 쟈넷 이와사(https://youtu.be/0TipTogQT3E) 
(2) 인간 면역 결핍 바이러스, HIV란?(https://youtu.be/uMGtJa7jPo4)


작성자 : DSC 박 원

Posted by 人Co

2018/10/19 08:40 2018/10/19 08:40
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/295

(주)인실리코젠 창립 14주년 기념

2018년 10월 1일은 (주)인실리코젠 창립 14주년 기념일이었습니다.
기념식부터 산책까지, 그 날의 사진을 모아봤어요~

함께 보실까요? ^^





작성자 : 브랜드위원회, 편집에 도움주신 분 : 김영종

Posted by 人Co

2018/10/10 17:32 2018/10/10 17:32
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/294



NGS (Next-Generation Sequencing) 관련 기술의 발전과 비용 절감으로 인해 NGS는 일반적인 유전체 연구뿐만 아니라 정밀 의학에서도 중요한 연구 수단으로 자리 잡고 있습니다. 국외는 물론이고 국내에서도 여러 의료기관과 연구기관에서 NGS를 이용한 임상 유전체 연구가 활발하게 이루어지고 있습니다. 하지만 한 번의 NGS로부터 많은 수의 변이 (variant)가 발견되고 그것들의 임상적 의미 (Clinical significance)를 해석하는데 어려운 경우가 많습니다.

(주)인실리코젠에서는 이러한 NGS 변이들에 대해 임상적 유의성과 action-ability를 평가하는 임상 의사 결정 지원 솔루션인 QIAGEN Clinical Insight Interpret (QCI-I)에 대해서 소개하고자 합니다.

그림 1. < QIAGEN Clinical Insight Interpret (QCI-I) >

QIAGEN Clinical Insight Interpret (QCI-I)는 웹 기반의 소프트웨어로, NGS로부터 도출된 변이들에 대해서 QIAGEN Knowledge Base를 이용한 주석 (annotation), 분류 및 해석 (classification / Interpretation), 보고서 생성 (reporting)을 지원합니다. 또한, Somatic 과 Germline/Hereditary 로 파이프라인이 나누어져 있어 분석 샘플에 맞는 파이프라인을 선택하여 진행할 수 있습니다. VCF 파일과 metadata 업로드를 통해 누구나 쉽게 진행할 수 있으며, Fusion, CNV 데이터를 추가할 수 있습니다.

QCI-I의 특징은 다음과 같습니다.

  • 웹 기반 인터페이스로 편리한 접근성과 사용법이 간단하고, 임상적 유의성과 actionability를 평가하는데 드는 시간과 비용을 단축할 수 있습니다.

  • Manually 큐레이션된 방대하고 신뢰성 높은 QIAGEN Knowledge Base를 사용합니다.

  • ACMG/AMP (hereditary)와 AMP/ASCO/CAP (somatic) 가이드라인에 따라 변이를 분류합니다.

  • 분석 샘플의 변이에 관련된 치료 (treatment), 임상 시험 (clinical trials) 정보를 제공합니다.

  • 최종 보고서의 커스터마이징이 가능합니다.

  • VCF (Variant Call Format) 파일을 사용하여 분석함으로써, NGS 플랫폼에 관계없이 사용할 수 있습니다.

  • 이전 데이터 결과들을 재사용하여 Lab-specific variant database 구축이 가능합니다.


QIAGEN Knowledge Base

QCI-I는 오랜 기간을 거쳐 manually curation된 QIAGEN Knowledge Base를 기반으로 변이를 해석 및 평가합니다. Knowledge Base에는 천만여 개 이상의 biomedical 정보들이 들어있고 16년 이상 지속되어 온 방대하고 신뢰성 높은 Database입니다. 데이터 대부분이 주 단위 (weekly)로 업데이트 되며 사용자는 항상 최신의 정보를 제공 받습니다.

그림 2. < QIAGEN의 전문적인 데이터 큐레이션 >
200명 이상의 전문적인 MD, PhD가 참여하고 3천여 개 이상의 QC 테스트를 진행합니다. 또한, 방대한 수의 논문 결과가 지속해서 추가되고 있습니다.

QIAGEN Knowledge Base는 공개된 생물학적 데이터뿐만 아니라 상용 데이터까지 통합되어 있고, 이 데이터들에 대하여 임상적인 관련성까지 정리되어 있습니다. 연구자, 임상의, 제약회사 등 여러 분야에서 지속해서 사용되고 있으며 20,000번 이상 인용되었습니다. Knowledge Base를 사용하면 raw public data 혹은 computational prediction tool 들을 사용하는 것보다 변이 분류 (variant classification)의 오류를 줄일 수 있습니다. 이러한 database를 구축하는 일은 어렵고 많은 시간과 비용이 소모되지만 QIAGEN Knowledge Base를 이용하면 시간과 비용을 줄이고 효율적이고 신뢰도 높은 변이 분석 결과를 얻을 수 있습니다.

Knowledge-based Variant Classification

QCI-I는 Knowledge Base를 기반으로 Germline 혹은 Somatic testing에 따라 변이의 pathogenicity 와 actionability를 측정하여 제공합니다.



그림 3. < Professional guideline을 따르는 QCI-I의 Variant clssifications >

아래 그림 4처럼 Variant list 탭에서 검출된 변이들에 대한 기본적인 정보를 확인할 수 있고, 각 변이를 선택하여 자세한 사항을 확인할 수 있습니다. Pathogenicity에 따라 색으로 구분되어 직관적인 확인이 가능합니다.


그림 4. < QCI-I Variant List 탭 화면 >
샘플에 대한 정보와 변이에 대한 정보 (somatic frequency, population frequency, variant allele frequency 등)를 보여줍니다. Knowledge Base에 기반하여 변이의 actionability, pathogenicity가 분류됩니다. Pathogenicity는 붉은색 계열 (pathogenic or likely pathogenic), 회색 (unknown of significance;VUS), 녹색 계열 (benign or likely benign)로 구별됩니다.


Treatment & Clinical Trials

선택한 변이가 해당 단백질에 미치는 기능적 영향 (functional effect on protein), treatment 정보와 현재 진행되고 있는 clinical trial들에 대한 정보도 제공하며, 이 정보는 주 단위 (weekly)로 업데이트되어 항상 최신의 정보를 받을 수 있습니다.


그림 5. < Variant Detail 탭에서 제공되는 다양한 변이에 대한 정보 >
단백질의 functional domain과 함께 유전자의 아미노산 위치별 pathogenic/benign 변이들의 분포가 나와 있고 해당 샘플의 변이 위치가 확인됩니다. 약물에 대한 반응성과 가이드라인, FDA에 대한 레퍼런스가 링크로 제공됩니다.


Clinical Cases & Papers

해당 변이에 대해 같은 질병에서 보고된 임상 케이스, 관련된 논문 등에 대한 정보를 제공합니다. 아이콘을 클릭하면 각각의 세부정보 확인이 가능합니다. 임상 케이스와 논문 내용도 추후 최종 보고서에 일괄적 혹은 선택적으로 추가할 수 있습니다.



그림 6. < 변이에 대해 보고된 임상 케이스와 관련된 논문 정보 >

Customizable & Actionable Report

Preview 페이지에서는 최종 report를 작성하기 전에 자유롭게 comment의 수정 및 추가를 할 수 있습니다. 기본적으로 유전자에 대한 설명이 있고 Edit 메뉴를 통해 추가 또는 삭제할 수 있습니다. 환자에 대한 전반적인 interpretation과 actionable 변이들에 대해 모든 comment 작성이 가능합니다.


그림 7. < Preview 페이지 >
Comment 작성을 자유롭게 할 수 있습니다.

최종 보고서 (actionable report) 는 아래 그림 8과 같습니다. 상단에 환자, 클라이언트, 샘플 정보가 나오고 Alterations Summary에 actionable mutation들에 대한 FDA 승인 약물, Clinical trial, 약물 저항성 등이 요약되어 있습니다. 하단에는 각 변이에 대한 자세한 정보가 나열됩니다.

그림 8. < QCI-I 최종 보고서 형식 >

이상 NGS 기반 진단 영역에서 임상 의사 결정을 지원하는데 강력한 툴인 QCI-I에 대해 살펴보았습니다. QCI-I의 QIAGEN Knowledge Base를 이용하여 variant classification하면 기존에 VUS로 분류된 변이들에 대해서도 더욱 정확하게 분류가 가능할 것입니다. 2가지 case study 결과 variant of unknown significance (VUS)가 27~33% 가량 줄어든다는 것을 확인하였습니다.


그림 9. < QIAGEN Knowledge Base를 이용한 variant classification 비교 >

QCI-I를 통해 NGS Platform에 관계없이 전문적으로 큐레이션된 QIAGEN Knowledge Base를 이용해 검출된 변이들의 임상적 유의성과 actionability를 쉽고 빠르게 측정하는 경험을 해보십시오. Raw data부터 임상적인 의미를 얻기까지 전체 해석 시간을 줄이고 임상의에게 보고할 수 있는 임상 관련 데이터의 양을 늘리는 동시에 변이 해석 및 보고 프로세스의 모든 부분을 통합할 수 있을 것입니다.

* 더 자세한 정보와 Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061 로 문의주시기 바랍니다.

Posted by 人Co

2018/09/20 18:01 2018/09/20 18:01
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/292

人Co INTERNSHIP 2018 현장실습을 마치며

4주라는 짧은 기간 동안 많은 경험과 알찬 시간을 보낼 수 있었습니다. 먼저 이 기회를 주신 최남우 대표이사님과 순천향대학교 이용석 교수님 감사합니다. 또한, 저를 이끌어주신 (주)인실리코젠 iF팀의 이지현 팀장님, 이상민 주임님, 신가희 책임님, DSC의 경동수 선배님, 권대건 주임님 등 많은 분 덕분에 무사히 끝낼 수 있었습니다.



인실리코젠을 처음 알게 된 계기는 순천향대학교와 같이 협업하는 뉴스를 접했을 때였습니다. '생물'이라는 분야에 종사하시는 분들은 주로 연구직으로 알고 있었는데 컴퓨터와 생물이 접목된 '생물정보' 회사인 인실리코젠을 접하게 되면서 흥미를 느꼈고 운 좋게도, 현장실습 프로그램이 운영되고 40명이라는 지원자 중에 선택되는 기회를 얻게 되어 인실리코젠에서의 현장실습을 할 수 있었습니다. 현장실습 전에는 생물정보에 대해 아는 것도 별로 없고 그렇다고 생물 분야에 대한 지식이나 컴퓨터 활용 능력 등 여러 면에서 부족하였기 때문에 긴장되고 걱정이 많았었습니다. 그래서 첫날에 소화불량에 걸리는 등 여러 문제가 발생하였지만, 주변 많은 분의 도움 덕분에 잘 적응할 수 있었고 부족한 점에 대해 알 수 있었습니다. 또한, 5시 이후에는 자유롭게 남아서 부족한 공부나 업무를 할 수 있는 시간이 주어졌기 때문에 짧은 기간을 잘 활용해서 하나라도 더 알아갈 수 있었던 시간이었습니다.
특히 월요세미나는 인상적이었습니다. 다양한 주제에 대한 세미나를 접해보면서 배경지식을 쌓는 데 도움을 주었고 DSC(Data Science Center)에서의 세미나는 업무에 대해서 간접적으로 알 수 있었고 생물정보와 밀접하게 연관된 분야였기에 일반적인 자연과학 강연과는 다른 색다른 경험이었습니다. 물론 전문지식이라 100% 이해는 어려웠지만 어떤 게 있고 어떻게 연구 및 운영이 되는지를 알아가는 시간이었고, iF팀 세미나는 생물정보에 쓰이는 프로그램과 업무 진행 상황 등을 알 수 있어서 앞으로의 발전성을 파악하는 데 도움을 주었습니다. 개인적으로 공부할 때보다 습득되는 정보량도 많고 시간과 정보 처리에 있어 효율성이 높았기에 재미있게 참석할 수 있었습니다.



4주라는 기간이 무엇인가를 완전하게 배우고 몸에 익히기에는 짧은 시간이었습니다. 하지만 여러 사람을 만나고 사회 경험을 쌓으며, 현장실습을 하기 전의 저를 능력이나 성격 면에서 증진시키고 개선해나갈 수 있었던 소중한 시간이었습니다. 생물정보학 심화 내용, 생물정보 관련 이론 혹은 프로그램, 회사에선 어떤 일을 하고 어떤 작업이 이루어지는지, 생물정보가 어떻게 활용되는지 등 학교에서 수업을 받을 때보다 많은 이론적인 면과 실무경험을 몸으로 느낄 수 있었습니다. 특히 사회의 병아리 수준인 저에게 있어 부족한 사회생활을 직접 겪어보았다는 것은 매우 큰 가치였습니다. 4주 동안 기간 동안 자신의 부족한 점도 많이 심사숙고하고 curation 작업, text mining, R 공부도 하고 주변 분들과 재미있는 이야기, 앞으로의 진학에 관한 이야기도 많이 나누면서 적응해갔고 서로가 협업하며 일을 진행하는 것을 보고 인간관계의 중요성은 물론 협업의 중요성도 다시 한번 느끼게 되었습니다. 제 인생에 있어서 인실리코젠에서의 4주간의 현장실습은 절대 잊지 못할 추억이자 정말 좋은 경험입니다. 여기서 얻은 여러 값진 경험들을 바탕으로 원석을 갈고 닦아 제가 원하는 꿈을 이룰 수 있도록 노력하겠습니다. 물론 건강도 챙겨 현재보다는 나은 모습으로 다시 뵐 수 있기를 희망합니다.
여름방학 동안 새로운 만남, 새로운 공부, 새로운 환경 말로는 표현할 수 없는 경험을 할 수 있게 해주신 최남우 대표이사님, 이용석 교수님께 다시 한 번 감사의 말씀을 전합니다.
순천향대학교 천현석

----------------------------------------------------

저는 생명시스템학과 학생입니다. 고등학교 시절, 생물 성적이 좋았지만, 사실 그렇게 흥미가 많지는 않았습니다. 그렇게 학교에 다니다가 컴퓨터 분야에 관심이 생겼고 정보보호학과를 복수전공하면서 생물공부와 컴퓨터 보안 공부를 같이하던 어느 날 생물정보학이라는 수업을 알게 되었고 컴퓨터로 생물정보를 처리한다는 점에서 매력적으로 다가와 수업을 듣게 되었습니다.





수업은 실제로 많은 도움이 되었고 생물정보학이라는 분야에 관심을 갖게 해주었으며, 관련 회사를 찾아보던 도중 (주)인실리코젠을 알게 되었고 이곳에서 직무체험을 하고 싶다는 강한 의지에, 지원하게 되었습니다. 그렇게 값진 기회를 얻어 처음 이곳에 왔을 때 많은 것이 어색하고 두려웠습니다. 회사라는 사회는 내가 여태껏 경험해보지 못하여 행동에 대한 판단이 서지 않았지만, 회사에 계신 많은 분이 먼저 말을 걸어주시고 장난도 먼저 쳐주시면서 다가와 주셔서 적응에 어려움은 없었습니다.



저는 주로 Curation 작업 실습을 하였는데, 아마 제가 1학년부터 3학년 1학기 때까지 읽은 논문의 약 100배에 해당하는 논문을 이번 8주간의 기간 동안 읽은 것 같습니다. 수업시간에 배운 "생화학"이나 "분자생물학"과목이 기본으로 필요하다 하였을 때 내가 잘하는 과목들이었기에 솔직히 자신감이 있었으나, Curation 과정에서 논문을 통해 물질에 존재하는 metabolite를 이해하는 것은 생각보다 어려웠으며 수업을 통해 배운 것들을 적용하는 과정 자체가 어렵다는 것을 느꼈습니다. 사실 수업시간에 교수님이 교재를 영어로 사용하셨지만 저는 영어로 공부하는 것에 어려움을 느끼고 한글로 번역된 책으로 공부하였습니다. 그런데 이곳에서 영어로 된 논문들을 읽으려고 하니 많이 힘들었던 것 같습니다. 영어에 대한 생각이 많이 바뀌었고 내가 정확한 사실을 제대로 얻으려면 영어는 필수라는 생각이 강하게 들었습니다. 그 외에 R이라는 program을 배웠는데 내가 키보드 몇 번 두들기지도 않았는데 데이터에 대한 그래프가 바로바로 나온다는 것이 매우 매력적이였습니다. 다음 학기 수강신청에 R programming을 신청하였는데 더욱더 깊게 배우도록 하겠습니다.





회사 분들과의 많은 추억을 만들었고, 많은 분에게 감사합니다. 감사한 분들이 너무나도 많지만 모두 나열할 수 없을 것 같습니다. 그렇기에 대표로 iF팀 분들에게 감사를 표하자면 우선 신가희 책임임은 제가 과정 중 모르거나 이해가 안 되는 논문이 있으면 직접 읽어서 설명을 해주셨는데, 정말 감사하였으며 또한, 한 분야의 전문가의 모습은 정말 멋지다고 생각하였습니다. 이지현 팀장님은 저를 담당해주시는 멘토이셨는데, 항상 친절하게 말씀해주시고 특히 업무전달이나 모르는 부분을 설명해주실 때 이유와 근거를 친절하게 말씀해 주셨습니다. 저의 회사생활 등에 많은 관심을 기울여 주셨고 많은 조언을 해주셨습니다. 전반적으로 회사생활에 큰 도움이 되었습니다. 이상민 주임님은 제가 모르는 것들을 자주 물어 보았는데, 그럴 때마다 친절하게 말씀해 주셨고, 앞으로의 진로에 대한 고민을 진지하게 잘 들어주셨습니다. 업무 도중 새로운 과제를 주셔서 좀 더 탄력적인 업무가 가능하였고 여러가지 프로그램을 잘 다루시는데, 그러한 모습들은 저에게 많은 배울 점을 가져다주셨습니다. 마지막으로 이러한 소중한 경험을 얻게 해주신 (주)인실리코젠 최남우 사장님에게 감사함을 느낍니다. 저에게 많은 좋은 말씀들을 해주셨는데, 저의 고민에 대해 진지하게 대해 주시고 저에게 현실을 깨닫고 꿈을 향해 나아갈 수 있게 해주셨습니다.
한사람의 꿈은 꿈이지만 만인의 꿈은 현실이 된다. 저도 (주)인실리코젠 여러분들과 함께 꿈을 꾸고 싶습니다.
순천향대학교 정경섭

Posted by 人Co

2018/09/10 12:56 2018/09/10 12:56
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/291


일정

일시 : 2018년 9월 17(월)~ 9월 18(화)

장소 : 한국생명공학연구원 나눔관 대회의실

내용

최신 유전체 정보 분석 교육을 통해 생물정보 데이터 분석 실무 능력을 습득할 수 있습니다.

(자세한 프로그램 내용은 http://kobicedu.labkm.net 참고)



신청방법

신청기간 : 2018년 8월 30(목) ~ 2018년 9월 5(수)

선발인원 : 30

교육대상 :

  1) 유전체 정보 분석 교육이 필요한 연구원 및 대학원생 등

  2) 모든 교육 일정에 참석이 가능한 교육생 (2일 일정 필수 참석)

선발안내 : 2018년 9월 7일(금)

교육비 : 무료 (중식 무료제공)

준비물 : 유무선 인터넷이 가능한 개인 노트북

신청방법

  - 온라인 신청 http://kobicedu.labkm.net

문의

  - ㈜인실리코젠 (031-278-0061, edu@insilicogen.com)

  - 문의게시판 이용 http://kobicedu.labkm.net/labboard/board/QnA

Posted by 人Co

2018/08/30 15:57 2018/08/30 15:57
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/290

반려견을 위한 유전자 검사

개(Canis lupus familiaris)는 식육목 개과에 속하는 동물로 회색 늑대(Canis lupus)의 아종입니다. 미토콘드리아 DNA 분석 결과 현대의 개와 회색 늑대는 약 10만 년 전에 분화된 것으로 추정하고 있으며, 최근 화석을 이용한 연구에서는 3만 5천 년 전에 분화되었을 것이라고도 합니다. 개과의 늑대, 코요테, 자칼, 개는 서로 자유롭게 교잡할 수 있으며 이들의 잡종 역시 번식력을 유지하기 때문에 개는 "아종" 입니다. 인간이 처음 가축으로 삼으면서 인간과 밀접한 관계를 유지해 왔고, 더 나아가 인간의 소외현상을 개선하고, 공동체 생활의식 향상에도 이바지하면서 "반려견"으로 불리고 있습니다.



현재의 반려견으로 진화하는 과정에서 인간에 의해 계속 "품종 개량"되었습니다. 품종을 공인받기 위해 특정한 특징만을 남기는 과정에서 유전자 병목현상이 있었고, 이로 인해 적절한 유전적 다양성을 확보하지 않으면 유전적으로 취약한 질병을 갖게 되었습니다. 순종 반려견을 선호하는 경향은 근친 교배를 심화시켰고, 유전병이 빈번하게 되었습니다. 대표적인 반려견의 유전병으로 고관절 이형성증(Hip dysplasia), 슬개골 탈구(Patellar Luxation), 퇴행성 골수염(Degenerative Myelopathy), 백내장(Cataract) 등이 있고, 일부는 퇴행성으로 반려견 노년 삶의 질을 크게 떨어뜨리기도 합니다.


(퇴행성 유전질환 가운데 하나인 슬개골 탈구 - 왼쪽 정상)

반려견의 건강 역시 인간과의 삶에 영향을 미치기 때문에 유전병 여부를 사전에 알 수 있다면, 건강 관리, 교배 계획에 참고할 수 있습니다. 특히, 퇴행성 유전 질환의 경우 발병 전 예방하는 조치를 하거나, 발병 초기에 대응하여 증세가 심해지는 것을 방지할 수 있습니다. 이를 위한 반려견 유전자 검사 서비스가 최근 국내외에 소개되기도 했습니다. 직접 고객에게 제공하는(DTC, direct to customer) 인간 유전자 검사 서비스가 각종 규제로 인해 활성화 어려운 것과 비교하여, 반려견 대상은 규제에서 비교적 자유롭다는 장점이 있긴 하지만, 그렇다고 과학적 합리성에 근거하지 않으면 안 되겠지요.

웹에서 검색해 본 국내외 반려견 유전자 검사 서비스 현황입니다.



이들 서비스는 반려견 유전 질환에 대한 검사와 함께 혈통검사, 품종판별 서비스를 제공하기도 합니다. MyDogDNA의 경우에는 "Puppy search engine" 이라는 온라인 서비스를 통해 유전자 검사 결과와 함께 교배 프로그램으로 원하는 형질을 얻을 수 있는 짝을 추천하기도 합니다. 국제적으로 유명한 사료회사 로얄캐닌(Royal Canin)은 혈통정보, 표현형정보, 유전자 검사 결과를 통합하여 맞춤형 사료를 추천하는 고급 서비스를 제공합니다.

이들 서비스는 유전자 검사를 위한 유전좌위(locus)를 어떻게 정했을까요? 생물종별 유전 질환 데이터베이스를 참고했을 것으로 추정됩니다. 인간을 위한 유전 질환 데이터베이스로 OMIM(Online Mendelian Inheritance in Man) 이 있고, 대표적인 NCBI 데이터베이스 가운데 하나입니다. 유사하게 동물을 위한 데이터베이스로 OMIA(Online Mendelian Inheritance in Animal) 가 있습니다. 135여 개의 동물 종에 대한 유전 질환, 연관된 유전자 혹은 유전좌위 정보를 제공하고 있습니다. 예상했던 것처럼 "Dog"의 정보가 가장 많습니다. 반려견에서 원인 유전변이가 알려진 유전형질 혹은 유전 질환은 2018년 8월 현재 243개입니다.


(동물 유전 질환 정보 데이터베이스인 OMIA 홈페이지 http://omia.org)

반려견의 주요한 유전 질환에 대한 새로운 유전좌위를 찾기 위한 전장유전체 연관분석 (GWAS, Genome-wide association analysis) 연구도 활발합니다. 최근 150품종, 4,224개체, 고관절 이형성증을 포함한 7개 복합 질환에 대한 GWAS 연구 결과가 보고되기도 했습니다 (Jessica et al., Complex disease and phenotype mapping in the domestic dog., Nature Communications 2016).

하지만, 아직은 기반 연구가 많이 부족한 상황입니다. 우리와 가장 가까운 생물 종이며, 친구이고, 가족이기도 한 반려견이 유전 질환으로 고생하지 않고, 건강하게 함께 하기 위해서는 더 많은 유전 질환, 종합적인 데이터 분석 연구 등이 필요합니다. GWAS를 비롯한 다양한 연구로 유전 질환과 연관된 유의한 유전변이를 찾아내면 이를 유전자 검사로 확인하여 반려견 유전 질환 여부를 사전에 알 수 있거나, 교배 프로그램에서 관리할 수 있습니다. 퇴행성 유전 질환의 경우 사전에 예방하거나, 초기에 집중 치료함으로 악화되는 것을 막고 반려견 노후 삶 질을 개선할 수 있습니다. 다양한 연구성과로 반려견과 우리의 건강한 삶에 이바지할 수 있기를 희망합니다.

인실리코젠은 반려동물연구사업단에 참여하여 "반려견 퇴행성 조기진단 바이오마커 개발 연구"를 수행하고 있습니다. 본 블로그를 통해 지속적으로 연구 성과를 소개하고자 합니다. 응원 부탁드립니다.


데이터사이언스센터 센터장 김형용



Posted by 人Co

2018/08/27 17:27 2018/08/27 17:27
, , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/289



« Previous : 1 : ... 6 : 7 : 8 : 9 : 10 : 11 : 12 : 13 : 14 : ... 38 : Next »