CLC Main Workbench는 Bioinformatics 분야에서 염기서열 분석을 위한 가장 기본적인 소프트웨어로 DNA, RNA, Protein, Digital Gene Expression 등의 분자생물학 데이터를 통합 분석 할 수 있습니다. 이러한 생물정보 기초 소프트웨어를 이용하여 대학 강의에 유용하게 활용한 사례를 세종대학교 신학동 교수님께서 공유해 주셔서 소개합니다.

교과 개요
  • 교과명 : 식품분자생물학 및 실험

  • 교수명 : 신학동 교수님

  • 수업 및 실습 장소 : 세종대학교 율곡관 101호 전산 실습실

  • 수업 기간 및 시간 : 2018년도 2학기 월, 수 13:30 ~15:00


교과 목표

이 교과는 식품분자생물학과 관련된 실험적인 방법 및 생물정보학 기술을 학습 및 응용하여 미생물의 생리학, 생화학, 유전체학에 대한 이해를 높이는 것을 목표로 하며 '식품 미생물학 및 실험' 교과를 선수강한 학생들을 대상으로 하는 심화 과정의 교과임.

주차 별 학습

[표 1] 주차 별 학습


교과 진행 방법

사용자 삽입 이미지
CLC Main Workbench의 설치 및 사전준비
대학 전산운영과와 협의를 통해 세종대학교 율곡관 1층에 있는 전산 실습실 사용을 승인받아 학과 차원에서 구매한 라이선스 21대(교수용 1대, 학생실습용 20대)를 사용하여 CLC Main Workbench에 대한 설치를 진행하였으며 학생들의 자리를 사전에 지정하여 프로그램을 운영, 관리하도록 하였음.
 
교과 진행 방식


[사진 1] 수업 진행 모습

실습에 앞서 해당 주차 생물정보학 분석에 사용되는 개념 및 분석이 가지는 의의에 대한 이론 수업을 통해 학생들에게 ‘무엇에 대한 분석이며 왜 필요한가’에 대한 이해도를 높였음. 이후 분석 실습에서는 강의실 앞에 설치된 대형 스크린을 활용하여 분석이 진행되는 과정을 보여줌과 동시에 학생들이 따라 진행할 수 있도록 지도하였으며 조교 2명이 수업에 보조로 참여하여 분석의 흐름을 놓치거나 문제가 발생한 학생들에 대해 안내해주며 모든 학생이 원활히 분석을 수행할 수 있도록 진행하였음.

학생들의 이해를 높이기 위해 수업 이후 수업 내용을 기반으로 한 과제를 통해 학생들의 이해도를 지속해서 확인했으며 질의·응답 시간을 통해 수업에서 다루지 못한 CLC Main Workbench의 기능과 응용 방법에 대해 추가로 안내하였음.




[사진 2] 학생 수행 과제물 (실험 노트)
 
교과 내용
[그림 1] 식품분자생물학 및 실험 수업에서 진행된 분석 모식도

학생에게 미지의 bacteria를 제공하고 최종적으로 주어진 bacteria의 학명과 기능을 예측하며 sequence data를 기반으로 target gene을 설정하여 primer를 설계하고 PCR에 성공하는 것을 목표로 함. 이를 위하여 학기 초반 실험을 통하여 미지의 bacteria로부터 genome을 추출하였으며 draft genome sequencing을 진행하였음. sequence file을 assembly 시켜 얻은 ‘.fasta’ 형식의 파일을 사용하여 CLC Main Workbench를 통해 생물통계학 분석을 진행함.

‘Nucleotide analysis’의 하위 기능을 활용하여 ORF(Open Reading Frame)를 예측하고 이 영역을 protein sequence로 변환하여 BLAST를 진행하였음. 이를 통해 CDS(Coding Sequence)의 기능을 예측해낼 수 있었고 총 50개 이상의 CDS를 찾고 기능을 정리하는 과제를 수행하였음. 정리된 CDS 정보를 통해 비슷한 기능을 수행하는 유전자가 모여있는 operon이 존재하는지 예측하는 과정을 거쳤음.

‘Design primers’ 기능을 활용하여 관심 있는 CDS 부분을 증폭시킬 수 있는 primer를 제작하고 최종적으로 학생들이 직접 설계한 primer를 주문 제작하여 PCR(Polymerase chain reaction) 과정을 수행하고 gel electrophoresis를 통해 primer가 적절하게 설계되었는지 확인해보는 과정을 거쳤음.


학생 만족도

전반적인 학생 만족도

학과 특성상, 컴퓨터를 통한 분석의 기회가 많지 않다는 점에서 수업의 내용이 신선하다는 평가가 많았으며 프로그램을 운용하는 데에 어려움을 토로하며 정형화된 학습 교안의 필요성을 언급한 학생도 있었음. 다루고 있는 내용에 비하여 프로그램의 구성 및 조작이 단순하여 분석이 용이했음을 다수가 언급했으며 많은 기능이 한 프로그램 안에 포함되어 있어 편리한 점을 이 프로그램의 가장 큰 장점으로 평가했음.

학생 평가 일부 소개

사용자 삽입 이미지

정○ (바이오융합공학과, 3학년)
수업을 통해서 염기서열분석 프로그램을 처음 사용해 봤는데, 생각보다 사용자가 쉽게 사용할 수 있도록 설계되어 있어서 수업을 듣고 금방 따라 할 수 있었다.


사용자 삽입 이미지
이○ (바이오융합공학과, 4학년)
이번 수업을 통해 처음으로 CLC Main Workbench를 사용할 수 있었는데, 물론 프로그램을 다루는 것이 생소하고 어려운 부분이 많았지만 다른 프로그램에 비해 사용 방법이 비교적 간단하고 직관적이어서 사용이 용이했다.

사용자 삽입 이미지
박지○ (바이오융합공학과, 4학년)
CLC Main Workbench에 대한 강의를 듣고 직접 진행해 보며 이전에는 이론으로만 접해보았던 부분을 실습해볼 수 있어서 유익했다. 특히 CLC program을 통해서 Primer region을 설정하고 직접 디자인하는 과정이 매우 유용해 기억에 남는다.

사용자 삽입 이미지
고든○ (식품생명공학과, 4학년)
CLC Main Workbench 이용함으로써 분석하고자 하는 유전정보를 거의 백지상태에서 여러 tool을 활용해 직접 정보를 기록하며 체계적이고 한눈에 보일 수 있도록 정리할 수 있어 매우 유용했다.


사용자 삽입 이미지
이상○ (식품생명공학과, 4학년)
CLC Main Workbench를 처음 사용해봐서 설명을 놓치면 따라가기 힘든 점이 있었으나 프로그램에 tool이 다양해서 이것저것 시도할 수 있던 점이 좋았다. 다양한 분석이 가능해서 여러 가지를 응용해 적용해 볼 수 있었던 것 같아 흥미로웠다.

CLC Main Workbench를 활용한 강의 내용을 좋은 글로 작성해 주시고, 공유해 주신 세종대학교 신학동 교수님께 진심으로 감사드립니다.


작성 : 용승천 주임 컨설턴트





Posted by 人Co

2019/02/08 14:58 2019/02/08 14:58
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/303

우리의 깨진 유리창은 무엇인가?



2019년 기해년은 ㈜인실리코젠으로부터 탄생하여 데이터 식품 선도기업으로 발돋움을 위한 ㈜디이프의 첫돌이 되는 해입니다. 새해를 시작하는 우리 안에 그리고, 시작의 날갯짓을 꿈꾸는 데이터 식품 기업 ㈜디이프의 새로운 시작을 기대합니다. 새해가 된 지 벌써 한 달이 지나갑니다. 더 늦기 전에 새해가 되면 떠올리는 처음, 시작이라는 단어를 ‘깨진 유리창 이론(Fixing Broken Windows Theory)’이라는 법칙으로 해석해 보고자 합니다.

깨진 유리창 이론이란?

깨진 유리창 이론(Fixing Broken Windows Theory)은 미국의 범죄학자 제임스 Q. 윌슨과 조지 L. 켈링이 1982년 공동 발표한 글에 처음 소개된 사회 무질서에 관한 이론입니다. 즉, 깨진 유리창 하나를 방치해 두면, 그 지점을 중심으로 범죄가 확산하기 시작한다는 이론으로 사소한 무질서를 방치하게 되면 나중엔 지역 전체로 확산될 가능성이 크다는 의미를 담고 있습니다. 1969년 스탠퍼드 대학 심리학자인 필립 짐바르도 교수는 현장 실험을 통해 사회의 무질서는 아주 작은 차이를 통해 확산될 수 있음을 언급하고 있습니다. 필립 잠바르도 교수는 두 대의 중고 자동차를 구매하여 한 대는 뉴욕의 구석진 골목에, 다른 한 대는 스탠포드 대학 인근 현장 연구에서 다음과 같은 실험을 시작했습니다. 구석진 골목에 두 대의 차량 모두 본넷을 열어 둔 채 주차 시켜 두고, 차량 한 대에만 앞 유리창이 깨져 있도록 차이를 두고 일주일을 관찰한 결과, 본넷 만 열어 둔 멀쩡한 차량은 일주일 전과 동일한 모습이었지만, 앞 유리창이 깨져 있던 차량은 거의 폐차 직전으로 심하게 파손되고 훼손된 결과를 보여주었습니다. 이처럼 같은 환경, 같은 상태에서 단지 유리창만 깨져 있었을 뿐인데 사람들의 생각에는 극명한 차이가 난다는 것을 알 수 있습니다. 이처럼 깨진 유리창을 고치느냐 방치하느냐와 같이 소홀하기 쉬운 사소한 차이가 큰 변화를 야기한다는 것이 바로 깨진 유리창 법칙이라고 할 수 있습니다. 깨진 유리창 법칙은 여러 분야에서 적용될 수 있어 다음과 같은 사례를 소개하고자 합니다.

사례1. 범죄예방

깨진 유리창 법칙은 범죄학 이론에 정면으로 도전하는 독창적인 개념으로 평가되고 있으며, 깨진 유리창 법칙에 의하면, 지역 사회 내 쓰레기 투여, 노상 방뇨 등 기초 질서 위반 행위가 계속 방치되어 진다면, 지역 사회를 통제하는 비공식적 통제능력이 약화되고 자신이 위험하다고 생각되는 특정지역에 전혀 접근하지 않는 등 이러한 생활 변화들로 인해 자신이 거주하는 지역사회에 무관심을 증가시키게 됩니다. 결국, 지역사회로의 기능을 상실하게 되어 그 지역에 잠재적 범죄자들은 더 많아지거나, 외부로부터 유입될 수 있는 상황이 됩니다. 이러한 이론의 실증 사례로 뉴욕시는 1994년 범죄와 무질서를 이슈화하여 8가지 범죄 통제전략을 추진하여 공공장소에서의 무질서와 무례한 행동, 경미한 범죄 행위의 단속까지 강화하였습니다. 이러한 범죄율 감소 프로그램을 통해 뉴욕시의 살인율은 40% 이상, 강도율 30% 이상, 그리고 침입 절도 25% 이상이 감소되었다는 연구결과가 있습니다. 범죄예방을 위한 사소한 물리적 환경의 강화가 범죄 예방의 중요한 수단이 되며, 깨진 유리창 이론의 기본적 주장이 실증적으로 입증된 사례입니다.



사례2. 비즈니스

깨진 유리창 이론은 범죄뿐만 아니라 기업 경영에도 적용됩니다. 한 고객의 조그마한 불평은 인터넷과 SNS를 통해 전달되고 확산하여 결국 해당 기업은 큰 경제적 타격을 받게 됩니다. 서비스, 품질 하나하나에 세심히 신경 쓰고 관리한다면 사람들의 입소문을 타고 퍼져 그 기업 제품에 대한 더욱 열정적인 후원자가 됩니다. 기업경영 이론에서 깨진 유리창 법칙을 적용한 마이클 레빈 교수는 바로 눈에 보이지 않는 사소한 허점이 바로 비즈니스의 무덤이 될 수 있다고 강조하고 있으며, 기업 경영에서 중요한 것은 단 한 번의 사소함이 기업을 쓰러뜨릴 수 있으므로 ‘100-1= 99’가 아니라 ‘100-1=0’이라는 것을 의미한다고 말하고 있습니다. 맥도날드는 햄버거 외 장난감도 하나씩 주는 어린이 세트 상품을 판매하면서 장난감의 재고 부족으로 세트 상품을 정상적으로 공급하지 못해 생겨난 고객 불만과 이러한 민원처리로 인한 지연된 서비스로 급격한 매출 하락을 가져오게 되었습니다. 즉, 사소한 위기를 관리하지 않으면 총체적 위기가 올 수 있다는 것을 의미합니다.



사례3. 관계

깨진 유리창의 대상이 사물이 아니라 사람이라면 어떤 일이 일어날 수 있을까요? 직장 생활을 하다 보면 상대적으로 업무집중도가 낮고, 팀워크에 적극적이지 않으며 같은 실수를 되풀이하여 팀원 및 조직 전체에 영향을 미치는 직원이 생기기도 합니다. 이처럼 맡은 업무를 책임감 있게 수행하지 못하고 업무 역량이 개선될 의지가 없어 보이는 직원의 행동이 깨진 유리창으로 정의될 수 있다면 고칠 필요가 있다고 말할 수 있습니다. 비단, 직장 생활뿐만 아니라 가족 관계, 친구 관계, 우리가 속해 있는 많은 커뮤니티 관계 속에 깨진 유리창과 같은 사소한 행동과 마음이 있다면, 결국 무너지는 관계를 형성할 수 밖에 없을 것입니다. 이처럼 모든 분야에서는 깨진 유리창이 있을 수 있습니다.

에필로그

생물정보 전문기업으로 기반을 쌓은 ㈜인실리코젠은 유전체 분석 외 데이터 식품이라는 화두를 갖고 2018년 자회사 ㈜디이프를 새롭게 탄생시켰습니다. 데이터 식품 비즈니스의 첫 출발인 ㈜디이프의 -1이 무엇인지, 내 안에 존재하는 깨진 유리창이 무엇인지 생각하게 되었습니다. 데이터 식품 비전 앞에 놓인 다양한 과제, 비즈니스 전략, 정책과 기획을 세우고, 실천적인 방안을 구상하여야 할 것입니다. 작은 것을 세심히 살펴서 작은 실천을 일으켜 큰 성과를 가져오게 하고, 역으로 큰 실패가 될 수 있는 작은 구멍을 살펴서 선제로 위기관리를 하여 우리가 준비한 ㈜디이프의 성공을 기대해 봅니다. 기본에 충실하고, 초심의 모양(Form)이 흐트러지지 않는다면, 내 안의 깨진 유리창을 더 빠르게 발견할 수 있을 것입니다. 2019년 기해년의 시작점에서 올 한해를 지낼 우리의 일상생활, 관계, 자신의 삶에 존재하는 깨진 유리창은 무엇이 있는지 점검해 보고, 생각해 볼 일인 것 같습니다.

참고문헌


작성 : 신가희 책임

Posted by 人Co

2019/01/20 21:48 2019/01/20 21:48
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/302

인실리코젠 2018 송년회 2019 시무식

이 또한 추억이 되겠죠?
2018년을 보내는 인실리코젠 송년회와
2019년을 맞는 시무식 장면입니다.
여러분 모두 2018년 한 해 동안 수고하셨고, 소망 이루시는 2019년 되길 바래요~
인실리코젠의 문화를 만들어가는 브랜드위원회분들...
2년 동안 솔선수범하여 활동하시느라 수고하신 4기 분들께 감사하며, 새롭게 활동하실 5기 분들의 활약도 기대할께요~





작성자 : 브랜드위원회, 편집에 도움주신 분 : 김영종

Posted by 人Co

2019/01/07 16:23 2019/01/07 16:23
,
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/301


[그림1] 검색엔진 최적화


검색엔진 최적화(Search Engine Optimization, SEO) 란?

SEO (Search Engine Optimization 검색엔진 최적화)는 웹 페이지 검색엔진이 자료를 수집하고 순위를 매기는 방식에 맞게 웹 페이지를 구성하여 잠재 고객(사용자)을 더 많이 사이트로 유입하기 위한 작업이며 특정 키워드로 검색엔진에 상위 노출을 진행하는 관점에서, 웹사이트를 검색엔진 알고리즘에 최적화하여 검색결과 상위에 표시하기 위한 일종의 사이트를 최적화하는 마케팅 방법입니다.


[그림2] 검색엔진 효과


위의 [그림2]에서 SEO를 적용하게 되면 초기 개발비는 일반 개발비보다 높을 수 있습니다. 하지만 일반 홈페이지가 개발 완료 후 홍보목적으로 광고비를 들여서 네이버 또는 구글에 상위페이지에 올리는 것에 비하여 SEO가 적용된 홈페이지는 별도의 광고비 없이 키워드 검색만으로도 상위에 홈페이지를 올려 방문자 수도 올리고 자연스럽게 회사홍보 및 매출에도 영향을 끼칠 수 있을 것입니다.








적용방법

국내외 주요 검색엔진인 구글(Google)과 네이버(Naver)가 각각 공개하는 검색엔진 최적화 가이드를 중심으로 한 적용법을 살펴보겠습니다.

  • 1. 콘텐츠의 질과 양이 최우선
    첫 번째로 키워드 최적화로 홈페이지에 잠재 고객의 유입을 늘린다고 하더라도 콘텐츠의 내용이 적고 관련 없는 내용을 올린다면 오히려 역효과가 나서 고객을 잃을 수 있으니 방문자가 다시 방문할 수 있는 양질의 콘텐츠가 필요합니다.

  • 2. 적절한 연관 키워드 활용 및 배치
    콘텐츠의 관련 키워드 최적화 작업에서 내용과 관련 없는 마구잡이 식의 키워드 선정은 좋지 않습니다. 내용과 맞는 적절한 키워드 선정은 무엇보다도 중요한 작업입니다.

  • 3. 제목(title) 태그의 사용
    내용의 title 태그나 강조의 strong 태그를 20자 이내로 작성하는 것이 좋습니다. 한번 사용한 키워드의 제목을 반복하지 않으며 다른 페이지의 같은 제목을 사용하지 않아야 합니다. 또한, 특수문자를 자제하는 최적화 작업이 진행돼야 합니다.

  • 4. 이미지 태그에는 이미지에 맞는 키워드를 ALT 속성으로 기재
    상품이나 기업 이름 등을 이미지 태그로 표현하게 되면 검색엔진이 이미지를 인식하지 못함으로 alt 속성을 넣어 적절한 대체 텍스트를 기재하여야 합니다.

  • 5. META 태그 기재
    META 태그의 정보는 검색결과 우선순위에 중요한 요소입니다. 그러므로 해당 페이지의 내용을 정확히 파악하면서 내용에 맞는 키워드를 기재해 두는 것이 좋습니다. 또한, 키워드의 구분은 콤마를 사용해야 합니다.

  • 6. 플래시 전용 페이지 자제
    검색 엔진은 Flash 애니메이션 속의 텍스트를 수집할 수 없으며, 그 링크 또한 사용할 수 없으므로 사용을 지양하는 게 좋습니다.

  • 7. 검색하는 사용자의 입장이 되어 생각
    대기업이 아닌 일반 인지도가 없는 기업이나 상품의 경우 웹사이트에서 상품명 등의 고유 명사로 하는 것보다 키워드 설정 시 일반적인 단어로 기재하여야 잠재고객의 접근을 최대로 이끌 수 있습니다.

  • 8. 쉽게 이해할 수 있는 URL 사용
    페이지의 URL 설정 시 페이지와 연관되는 단어를 사용하여 URL을 구성하는 것이 좋습니다. 이는 검색엔진의 최적화뿐 아니라 사용자에게도 페이지의 의미를 조금 더 쉽게 이해할 수 있도록 합니다. 예로, 스포츠 뉴스에 대한 정보를 검색하는 경우 https://sports.news.naver.com와 같은 URL은 이해하기 쉽고 접속을 유도 할 수 있습니다. 그에 비해 http://www.navaer.com/sportsNw와 같은 약어 URL은 사용자가 인식하기 쉽지 않으며 혼란스럽게 할 수 있습니다.

  • 9. 검색로봇에 대한 대응
    robots.txt라는 파일을 이용하여 검색엔진이 사이트에서 접근할 수 있는 페이지와 접근할 수 없는 페이지를 정해놓은 검색엔진과의 규약을 만듭니다. 기본적으로 검색로봇이 접근할 수 없게 하는 페이지를 이 파일 양식 속의 넣고 기록하며 반드시 폴더 root에 위치해야 파일설정이 적용될 수 있습니다. robots.txt에 대한 상세한 내용은 http://www.robotstxt.org/ 에서 확인할 수 있습니다.

  • 10. 반응형 웹 디자인 적용
    웹 브라우저가 웹 문서의 가로 폭을 기기의 스크린 크기에 맞게 자동으로 조절하는 기법으로, 사용자 기기 (데스크톱, 태블릿, 모바일, 비시각적 브라우저)와 상관없이 같은 URL에 같은 HTML 코드를 게재하지만 화면 크기에 따라 다르게 렌더링(응답)할 수 있습니다. 반응형 웹 디자인은 Google에서 권장하는 디자인 패턴입니다.


성공 사례

나이키 골프


[그림4] 나이키골프 로고

나이키 골프는 나이키의 부진으로 인해 새로운 라인의 추가로 나이키 골프를 론칭하였고 골프공, 클럽, 셔츠, 신발 등을 판매하였습니다. 초기에 나이키는 나이키 골프의 노출과 가시성을 높여 매출을 높이기 위해 검색엔진 최적화를 적용하여 마케팅 하였습니다. 골프를 중심으로 한 키워드 사용을 개선하였으며 양질의 내용에 콘텐츠들을 제공하여 웹사이트를 제작하였으며 결과적으로 최적화 후 전년 대비 웹트래픽이 169%나 증가하였고 사이트 트래픽이 250% 증가하며 브랜드 마케팅에 성공하였습니다.

폭스바겐



[그림5] 검색엔진 사례(폭스바겐)

폭스바겐은 검색엔진 최적화(SEO)를 통한 기발한 마케팅을 시도했습니다. 구글에서 “ultimate business car”라는 키워드를 검색하게 되면 위 그림5 처럼 나오게 됩니다 (현재는 이 마케팅 전략이 유명해져서 다른 이미지들이 많이 나옵니다) . 이러한 검색엔진최적화(SEO) 적용 사례인 폭스바겐은 흔한 SEO의 사례로 쓰이고 있으며 발상의 전환을 하게 했던 사례입니다. 하지만 이렇게 키워드의 순서를 1~5위까지 맞추는 것은 정말 많은 노력이 필요했을 것 같습니다.

마치며 

검색엔진 최적화 작업은 사이트(네이버, 구글 등)마다 기준이 조금씩 다르게 설정되어 있습니다. 그러므로 최적화 작업 전에 원하는 사이트를 선정하고 그 사이트의 기준에 맞게 최적화 작업을 해주는 것이 중요합니다.

네이버 및 구글 가이드는 아래 링크를 참조하시면 됩니다.
위에 서술된 적용법의 내용을 좀 더 상세하게 보실 수 있으며 각 사이트 마다의 다른 기준의 가이드가 명시되어 있습니다. 한곳의 사이트에서 명시된 가이드가 다른 사이트에서는 제한이 되는 내용이 있으니 최적화 작업 전 꼭! 꼭! 가이드를 필독하시고 진행하시는걸 추천드립니다.

무조건 접속자의 수를 많이 올리는 것으로만 검색엔진 최적화를 이용하게 된다면 오히려 안 좋은 검색엔진에서 스팸으로 해석되어, 순위가 하락하거나 페널티를 받을 가능성이 있고 한번 방문한 방문자에게 나쁜 이미지를 심어 오히려 재방문을 하지 않거나 나쁜 이미지로 인식되어 악영향이 갈 수 있습니다. 그러므로 검색엔진 알고리즘이 지속해서 업데이트하며 SEO를 단순한 방문자 유입을 확대하기 위한 목적으로만 사용하기보다 사용자에게 유익한 정보를 제공하면서도 그 자체가 검색엔진 가이드의 최적화가 되어 일거양득의 효과를 노리기 위해 콘텐츠 마케팅을 도입하는 것이 좋을 것입니다.

검색엔진 최적화 작업은 이제는 웹사이트 제작 시 필수적인 요소로 변해 가고 있습니다. 포털사이트에서 검색 화면에서 경쟁 회사보다 상위 링크에 위치하는 것이 방문자의 유입을 늘려서 회사 또는 상품을 홍보할 수 있는 최고의 마케팅 방법이기 때문입니다. 매번 돈을 들여 광고하는 것보다 제대로 된 최적화 작업으로 지속적인 효과를 얻을 수 있길 바랍니다. 또한, 검색엔진 알고리즘의 정확도는 꾸준히 향상되고 있으며 스팸 및 부당한 코드 대한 필터링이 점점 정밀해지고 있습니다. 따라서 지속적인 검색엔진의 가이드 확인 및 변경이 필요할 것입니다.

참고문헌

작성 : BS실 개발자 백인우






Posted by 人Co

2018/12/31 09:08 2018/12/31 09:08
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/300

통계의 함정을 극복하는 5가지 지혜


그야말로 통계의 시대입니다. 국가 정책에서부터 기업의 전략은 물론, 이제는 개인 생활의 관리와 계획에도 통계의 영향력이 크게 작용하고 있습니다. 국가 예산의 배분이나 전염병의 원인 분석과 같이 중대 사안을 해결할 때도, 고속도로의 정체 해소나 기업의 경영효율 개선 등과 같이 제한된 자원 내에서 최선의 대책을 고안할 필요가 있을 때도 세계 각국의 정부와 기업들은 통계를 적극적으로 활용하고 있습니다. 과거의 통계는 합리적인 결정을 내리기 위해 참고로 활용하는 수단에 가까웠지만, 대량의 데이터를 통합적으로 분석하고 예측할 수 있는 빅데이터 기술이 발전한 오늘날의 통계는 최상위 의사결정권자에 가까운 역할을 하고 있다고 해도 과언이 아닙니다. 통계 해석 결과가 문제해결을 위한 최선의 방법으로 연결되는 경우가 많고, 대다수 사람들은 이러한 방식이 합리적이라는 것에 공감하기 때문입니다.

그런데 한편으로 통계의 중요성이 이렇게 커지면서 일부 정치세력이나 기업, 단체들이 자신들의 이익을 위해 통계를 왜곡하는 사례도 증가하고 있습니다. 이들은 왜곡된 통계로 여론을 오도하여 자신들의 정책이 채택되게 하거나 부당하게 이익을 챙기기도 합니다. 통계는 본질적으로 현상이나 의견을 그대로 담은 데이터 집합체일 뿐인데, 왜 이런 상황이 발생하게 된 것일까요?

본 글에서는 우리가 통계를 접할 때 빠지기 쉬운 5개의 함정에 대해서 살펴보려고 합니다. 이 함정들은 통계로 혹세무민하려는 사람들이 주로 사용하는 왜곡 수단이기도 합니다. 이러한 통계의 함정들을 극복하고 통계의 본질을 올바르게 볼 수 있는 안목을 키울 수 있다면, 더이상 통계로 혹세무민하는 세력들에게 휘둘리지 않고 통계가 진정으로 말하고 싶은 진실의 영역에 도달할 수 있을 것입니다.

1. 평균의 함정

일찍이 1950년대 미국의 통계학자 대럴 허프는 자신의 저서 ‘새빨간 거짓말, 통계’에서 통계의 평균이 가진 한계점에 대해 언급한 바 있습니다. 그런데 60여 년이 지난 지금까지도 많은 통계 관련 기사에서는 평균만이 통계의 주요 결과로 나오는 경우가 많습니다.

2017년 국내의 한 일간지는 한국노동연구원의 발표내용을 바탕으로, 2016년에 약 342만원이었던 우리나라 직장인들의 평균 월급이 2017년에는 약 354만원 정도 될 것으로 예상된다는 기사를 발표하였습니다. 이 기사를 접한 많은 사람들은 아마도 별 의심없이 내용을 받아들였을 것입니다. 어떤 사람들은 평균에 한참 못 미치는 자신의 월급에 한탄을 했을 수도 있습니다. 그런데 이 기사에서 2017년의 월급은 예상치로 본 것이기 때문에 실제와 다를 수 있다고 하더라도, 2016년의 월급을 기준으로 살펴봤을 때 통계청에서 발표한 수치와 꽤 많은 차이를 나타내고 있습니다. 통계청에서 발표한 자료에 의하면 2016년 우리나라 임금 근로자의 평균월급은 약 237만원으로 나타났기 때문입니다. 대체 무엇이 잘못되었기에 100만원이 넘는 차이(통계청 자료에 나온 월급을 기준으로 보면 무려 45% 차이)가 나게 된 것일까요?

[그림1] 연도별/근로형태별 월평균임금
(출처:KOSIS 국가통계포털의 월평균임금통계)

이러한 사례는 양쪽 모두 통계 데이터 자체를 조작하지는 않았다는 것을 전제로 할 때, 평균을 산출할 때 대상이 된 표본집단이 다르고 각 통계자료에서 사용한 용어가 통일되지 않았기 때문에 발생한 것으로 볼 수 있습니다. 기본적으로 통계청의 자료는 ‘인구주택총조사’를 실시할 때 수집한 자료를 표본으로 사용하였고, 기사에서 인용한 자료의 경우에는 고용노동부의 ‘사업체노동력조사’에서 수집한 자료를 표본으로 사용했다는 점에서 차이가 있습니다. 그리고 일간지의 기사에서는 제목의 ‘직장인’을 ‘상용직 근로자’로 한정하였고 여기서 상용직 근로자는 ‘5인 이상 사업체에 소속되었으며 정규직이거나 1년 이상의 계약직인 근로자’로 정의하였습니다. 기사의 경우 지면의 한계가 있다 보니 제목에 내용을 축약해서 넣을 수밖에 없는 한계점이 있긴 하지만, 제목만 봤을 때는 우리나라 모든 직장인 월급의 평균이 약 354만원인 것으로 착각하기 쉬운 것도 사실입니다. 이렇게 평균을 산출하는데 관여한 표본과 용어에서 나오는 차이를 명확하게 인지하지 못하고 단순히 드러나는 평균값만을 받아들일 경우, 통계가 나타내는 진실로부터 완전히 멀어질 수 있습니다. 통계자료에서 표본과 용어만 적당히 조정하면 평균은 얼마든지 쉽게 바꿀 수 있다는 점을 잘 인지하고, 표본이 과연 모집단을 적절하게 반영하고 있는지, 결론을 내리는 과정에서 사용된 용어들은 보편적인 관점에서 명확하게 정의된 것인지를 잘 따져보아야 할 것입니다.

평균이 가지고 있는 또 다른 함정은 대표성을 갖기 어렵다는 점입니다. 많은 통계자료에서 평균은 마치 결론이 담긴 한 문장처럼 전체 통계를 대표하는 값으로 활용되곤 합니다. 통계의 세부적인 내용을 살펴볼 시간이 없거나 구체적인 내용을 봐도 이해가 잘 안 되는 사람들은 평균을 해당 통계의 결론처럼 받아들이게 되는 경우가 많습니다. 그리고 무엇보다 통계자료를 전달하는 주요 매체인 신문기사에서부터 지면의 한계를 이유로 상세한 자료없이 평균 정보만 제공하는 사례가 많습니다. 그렇지만 한 예로 회사 임원의 월급이 1,000만원일 때 종업원의 월급이 100만원이라면, 이들의 평균 월급은 550만원이 됩니다. 여기서의 평균은 대체 누구를 대표하는 값이 될 수 있을까요? 그리고 다른 예로, 우리나라처럼 일교차가 심한 날씨에서 얻어낸 평균온도라면 현실의 기후 특성을 제대로 반영하지 못할 것입니다. 이 때문에 많은 통계 전문가들은 평균을 표시할 때는 반드시 중앙값이나 표준편차, 분포형태를 함께 나타내야 하며, 필요에 따라서는 계층별 분석이나 시계열에 따른 분석을 통해 평균 속에 누락되어 버린 데이터의 속성을 잘 파악할 필요가 있다고 조언합니다.

2. 기준의 함정

고용과 실업 문제는 오늘날 세계 많은 나라들이 당면해 있는 중대한 사안입니다. 우리나라에서도 높은 실업률은 극복해야 할 큰 문제 중 하나라는 것에 대부분 동의하실 것입니다. 그런데 OECD(경제협력개발기구)에서 발표한 국가별 실업률을 보면 지난 2002년 이후 우리나라의 실업률은 계속 3퍼센트 수준을 유지하고 있습니다. (관련링크 : 국가별 실업률) 이 수치만 놓고 보면 우리나라는 비교적 상황이 좋은 것처럼 보입니다. 실업률이 낮은 상위 5개국에 들어갈 수 있을 정도입니다. 전 연령대에서 취업을 못한 사람들이 넘쳐나는 현실인데 OECD의 실업률 수치는 어떻게 나온 것일까요?


[그림2] 연도별 OECD 국가 실업률
(출처:KOSIS 국가통계포털의 실업률 통계정보를 바탕으로 편집)

여기에는 기준의 함정이 숨어 있습니다. ‘실업자’로 보는 기준이 국가마다 다른데, 우리나라는 이 기준을 가능하면 실업자에 포함되지 않는 사람이 많도록 설정한 것입니다. 미국에서는 일주일에 15시간 이상을 일해야 실업자에서 제외하는 반면, 우리나라에서는 일주일에 1시간만 일해도 실업자에서 제외합니다. 그리고 전업주부나 학생, 은퇴한 노인처럼 구직활동을 하지 않거나 근로활동 의사가 없는 사람들을 ‘비경제활동인구’라 하여 실업자에서 제외하는데 우리나라는 장기적인 취업 실패로 취업을 포기했거나 구직활동을 중단한 취업준비생, 국가고시를 준비하는 사람들도 모두 비경제활동인구에 포함시켜 실업자에서 제외하는 기준을 적용하고 있습니다. 이렇게 하다 보니 실제 직업을 가진 상태가 아님에도 불구하고 실업자에는 포함이 안 된 사람이 많고, 이는 실업률을 낮추는 결과로 이어지게 됩니다. 그 결과 우리나라는 실업률이 낮은 순으로 상위 5개국 내에 드는데도 불구하고 고용률은 하위에 속하는 기이한 현상이 발생하게 되었습니다. OECD 실업률 통계에서 높은 실업률로 다른 나라 사람들에게 조롱거리가 되는 것은 아무도 바라지 않겠지만, 현실을 제대로 반영하지 못하는 모호한 기준으로 만들어낸 낮은 실업률이라면 통계자료로서 국가 발전에 아무런 도움이 되지 못할 것입니다.

정치단체나 언론사에서는 이 기준의 함정을 이용하여 국가나 단체별 순위를 산정해 발표하는 경우가 있습니다. 그런 경우 점수나 순위를 산정하는 기준이 공정하게 설정되고 적용된 것인지 잘 확인을 해봐야 할 것입니다.

3. 초점의 함정

지난 가을, 함께 보면 재미있는 두 기사가 보도된 적이 있습니다. 통계청이 발표한 임금근로자의 수입에 관한 내용이었는데, 같은 통계정보를 두 기사가 정반대의 관점에서 묘사를 하였습니다. 한쪽 기사의 제목은 ‘월 200만원 이상 근로자 첫 60% 돌파…”최저임금 영향”’ 이였고 다른 기사의 제목은 ‘월급쟁이 10명 중 4명 월 200만원도 못 번다’였습니다. 한쪽은 더 많이 받는 쪽에 초점을 맞추고 다른 한쪽은 덜 받는 쪽에 초점을 맞추어 기사를 썼는데 양쪽 모두 통계정보 자체를 조정한 것은 아닙니다. 단지 기사의 초점을 다르게 두었을 뿐인데, 통계가 반영하는 현실 온도가 완전히 다르게 전달이 되었습니다.

초점의 함정은 통계를 전달하는 사람들이 통계를 통해 자신들의 가치관이나 의견을 피력하려는 과정에서 발생하기 쉬운 함정입니다. 같은 통계정보라도 정보의 특정 부분에만 초점을 맞추거나, 정보 일부분을 증폭해서 보여주는 식입니다. 이런 유형은 식품이나 약의 효능을 더 돋보이게 할 때도 많이 사용되는데, 예를 들면 절대적인 변화치가 작을 경우 상대적인 변화치로 표시하는 방식입니다.

2000년대 중반 미국의 제약회사인 화이자는 뇌졸중 약 리피토를 광고하면서 2형 당뇨와 심장병 위험요인이 있는 환자에게 발병률을 48퍼센트 낮춰준다는 문구를 넣었습니다. 그런데 이는 위험요인을 가진 사람 100명 중 48명은 뇌졸중에 걸리지 않는다는 것이 아니라 비교집단 환자들의 2.8퍼센트에서 뇌졸중이 발생한 것에 비해 리피토를 복용한 환자 집단에서는 1.5퍼센트에서만이 뇌졸중이 발생하였고 이 두 집단의 상대적 차이가 48%였다는 의미였습니다. 두 집단의 절대적인 차이는 1.3퍼센트였습니다.

이렇게 통계정보는 발표하는 주체의 목적에 따라 특정 부분만이 강조되거나, 절대적 차이 대신 상대적 차이가 부각되는 경우가 있습니다. 전면에 드러난 데이터가 과연 통계의 전부인 것인지, 그리고 그것이 절대적인 것인지 상대적인 것인지를 잘 파악할 수 있어야 통계가 만든 합법적인 과장으로부터 벗어날 수 있을 것입니다.

4. 상관관계의 함정

통계 해석 과정에서 빠지기 쉬운 또 다른 함정은 바로 상관관계의 함정입니다. 통계 관련 자료에 많이 나오는 예로 유럽에서 예전부터 전해오는 황새와 신생아 수에 관한 이야기가 있습니다. 황새가 많은 마을일수록 아이가 많이 태어난다는 것입니다. 1980년대 말, 유럽의 학자인 Helmut Sies는 이 이야기가 사실인지 증명을 하기 위해 조사를 실시하였고 실제로 황새와 신생아 수 사이에 상관관계가 존재함을 밝혀내었습니다. 이 연구결과는 세계적인 학술지에 실리면서 크게 이슈가 되기도 하였고 지금도 통계의 상관관계를 이야기할 때 단골로 등장하는 예시가 되었습니다. 물론 이 예시는 잘못 추정한 상관관계의 대표적인 사례로 활용됩니다. 두 개 이상의 통계치의 분포 패턴이 유사할 때 이런 함정에 빠지기 쉬운데, 이런 경우 둘 모두에 영향을 미치는 제3의 변수가 존재하는 경우가 많습니다. 타당한 인과관계인지 확인을 하기 위해서는 회귀분석과 같은 통계적인 분석 기법을 통해 명확한 상관관계를 산출하고, 제3의 변수가 미치는 영향에 대해서도 고려를 해야 할 필요가 있습니다.

황새와 신생아의 상관관계의 경우, 사실은 마을의 규모라고 하는 제3의 변수가 황새와 신생아 수 모두에 영향을 미친 것으로 볼 수 있습니다. 그런데도 단순히 황새의 수와 신생아의 수라는 두가지 변수의 관계에만 집중하면 둘이 서로 인과관계가 있다고 착각을 하게 될 수도 있습니다. 황새와 신생아 수의 허위 상관관계에 넘어갈 현대인들은 별로 없겠지만, 다루는 대상만 바뀌었을 뿐 오늘날의 통계에서도 유사한 방식으로 상관관계를 엮어내고, 이 관계를 맺고 있는 대상들이 인과관계가 있는 것처럼 보여주는 경우가 많습니다.

이렇게 잘못된 인과관계의 함정은 오늘날 코호트 연구(특정 요인에 노출된 집단과 그렇지 않은 집단에서의 질병 발생률을 추적 비교하는 연구방법)에 대한 결과를 도출할 때 종종 발생합니다.

1980년대 초반 미국의 한 의학분야 학술지에는 커피와 췌장암이 상관관계가 있다는 연구결과가 실린 적이 있습니다. (관련기사 링크) 미국 하버드 대학의 역학학자 맥마혼 박사와 그의 연구팀은 1970년대 미국의 11개 병원에 입원한 369명의 췌장암 환자와 다른 질병으로 입원한 644명의 환자들을 비교연구하였습니다. 이들은 췌장암 환자들이 음주/흡연/커피/홍차를 매일 어느 정도 접하는지를 조사하였고 이를 다른 환자군과 비교하였습니다. 연구팀은, 커피를 많이 마실수록 높은 췌장암 발병률이 나왔다는 조사결과를 토대로 커피를 마시면 췌장암의 위험이 높아진다고 결론을 내렸습니다.

[그림3]  당시 연구팀이 발표한 연구결과 중 일부
(출처:발표논문의 Table을 참조하여 유사하게 재구성)

5. 수치의 함정

통계는 거짓말을 하지 않는다고들 합니다. 그 말은 사실이지만, 통계를 분석하는 사람들은 종종 통계 내의 데이터에 빠져 잘못된 결론을 내리기도 합니다.

1990년대 중반, 국내의 한 역사학자는 전국 역사학 대회에서 일제강점기에 일본과의 협력을 통해 한국이 성장하였다는 주장을 하였습니다. 그는 그 근거로 일제강점기에 총독부가 남긴 자료를 분석한 결과를 제시하였는데, 그 자료에 따르면 일제강점기의 국내 총생산은 4.15 퍼센트씩 증가하였고 화물 수송량과 곡물 생산량, 무역과 공업 생산량도 증가하였다고 합니다. 단순히 수치만을 놓고 보면 그의 주장이 그럴듯해 보이기도 합니다. 그렇지만 그의 주장에 대해서는 3가지 관점에서 반박해 볼 수가 있습니다. 첫째, 강점기에 독점적 권력을 가진 세력이 산출하고 정리한 통계자료가 진정으로 신뢰할 수 있는 데이터인가? 둘째, 그 자료가 사실이라 하더라도 그 성장의 혜택이 우리나라 다수의 국민들에게 돌아갔는가? 결국에는 일본의 전쟁준비와 일본 본토의 이익을 위해 쓰이지 않았는가? 셋째, 우리나라 사람들의 생활 수준은 왜 더 나빠졌는가? (좀 더 면밀한 반박근거는 다음의 기사내용을 참고하면 좋을 것 같습니다. 식민지 근대화론 비판 )

이 학자가 통계를 분석하고 해석했던 과정을 통해 알 수 있는 것은, 단편적인 통계수치만을 놓고 최종적인 결론을 내리는 것은 매우 위험한 결과를 도출할 수 있다는 사실입니다. 이 통계해석의 경우에는 근본적으로 ‘발전’과 ‘성장’의 의미를 더 바르게 정의하고 접근할 필요가 있었고, 수치로 나타나는 지표의 성장이 실제로 구성원들에 대한 적절한 분배로 이어졌는지 알 수 있는 근거자료가 추가로 필요했다고 생각합니다.

통계는 전통적으로는 수학의 한 영역이지만, 그 활용성이 한층 넓어진 오늘날에는 수학으로서의 통계라는 틀에만 갇혀있으면 위험합니다. 통계를 올바르게 보기 위해서는 우선 세상을 바르게 보는 안목이 기본적으로 갖추어져 있어야 할 것입니다.

마치며

'나는 내가 조작한 통계만을 믿는다.'

한 때 윈스턴 처칠이 했던 것으로 알려졌던 이 말은 사실, 2차 세계대전 당시 독일군의 장군이었던 요제프 괴벨스가 통계를 잘 활용했던 적대국의 수상인 처칠의 신뢰를 떨어트리기 위해 퍼트렸던 유언비어라고 합니다. 처칠은 이 헛소문의 내용과는 반대로 전쟁에서 영국이 처해있는 위기 상황을 있는 그대로 국민들에게 전달하였고, 이는 사람들의 위기감을 자극하여 결과적으로는 전쟁이라는 힘든 시기 속에서 영국 국민들의 결속과 항전의지를 이끌어 낼 수 있었다고 합니다.

믿을 수 없는 정보들이 그럴듯한 통계정보를 근거로 내세우며 현대인들을 혼란스럽게 하고 있습니다. 하루가 멀다 하고 쏟아져나오는 통계정보의 엄청난 양과, 같은 통계정보를 가지고도 이를 해석하고 보도하는 주체마다 다르게 외치는 메세지 속에서 풍요로움보다는 어지러움을 더 느끼게 됩니다. 통계를 만들고 보도하는 사람들의 통계에 대한 올바른 지식과 통계정보를 분석하고 해석하는 과정에서의 양심과 정의감도 중요하겠지만, 가치관이 다원화된 사회에서 이들에게만 의존하는 것은 역부족일 것입니다.

영국의 소설가 하버트 조지 웰스는 언젠가 통계적 사고가 읽기 쓰기 능력처럼 유능한 시민의 자격요건이 될 것이라 예견하였습니다. 혹시 오늘도 통계정보에 그럴듯한 해석을 붙이고 자신들에게 유리한 말을 내세우며 혹세무민하는 글을 마주하셨습니까? 이제부터는 휘둘리지 말고 요목조목 따져 보십시오. 21세기를 살아가는 민주시민의 힘은 촛불을 들고 광장으로 나갈 수 있는 용기와 거짓으로 왜곡된 통계 속에서 진실을 볼 수 있는 지혜로부터 비롯될 것입니다.

참고문헌

통계의 함정 / 게르트 기거렌처 외 / 2017 (원판은 2014) / 율리시즈
넘버스, 숫자가 당신을 지배한다. / 카이저 펑 / 2011 (원판은 2010) / 타임북스
n분의 1의 함정 / 하임 샤피라 / 2017 (원판은 2017) / 반니
새빨간 거짓말, 통계 / 대럴 허프 / 2004 (원판은 1954) / 더불어책
신은 주사위 놀이를 하지 않는다 / 데이비드 핸드 / 2016 (원판은 2014) / 더퀘스트
모두를 위한 사회과학 / 김윤태 / 2017 / 휴머니스트
비즈니스 통계 입문 / 우치다 마나부 외 / 2012 (원판은 2010) / 시그마북스
국가통계포털 (http://kosis.kr)

작성 : 대전지사 서 승 원

Posted by 人Co

2018/12/13 14:11 2018/12/13 14:11
Response
No Trackback , No Comment
RSS :
https://www.insilicogen.com/blog/rss/response/299



« Previous : 1 : 2 : 3 : 4 : 5 : ... 58 : Next »