우리는 Genomic 데이터를 분석할때, 온라인 데이터베이스를 이용해서 정보를 검색하고 이용하기 위한 여러가지 도구를 사용합니다. 많이 활용되는 온라인 데이터베이스 자체의 좋은 웹인터페이스를 제공하고 있지만, 연속된 분석을 자동화하거나 다양한 통계량을 구하고자할 때는 프로그래밍이 필요합니다.
R 은 오픈 소스 통계 소프트웨어로, 이 작업을 간단하게 할 수 있도록 몇가지 패키지를 제공합니다. 그 중에 NCBI 데이터베이스를 이용할 수 있도록 구성되어 있는 NCBI2R 패키지에 대해서 알아보려고 합니다.

NCBI2R 패키지는 NCBI 데이터베이스에서 SNPs를, 유전자와 microsatellites의 목록에 Annotation 정보를 검색할 수 있는 R 패키지입니다. 이 패키지는 KEGG 경로 (일부 다른 기능들)에 속하는 유전자를 유전자에서 SNP를 검색하거나 정보를 저장할 수 있으며, SNPs를 또는 유전자의 Annotation 정보를  R을 이용해서 필용한 정보를 얻을 수 있는 매우 유용한 기능을 제공합니다. 더 자세한 정보는 NCBI2R 공식 웹사이트인 http://NCBI2R.wordpress.com 을 활용하시면 됩니다.

1. NCBI2R package download & installation
다음 URL에서 다운로드하거나 R 배포판의 특징에 맞춰 설치를 합니다.
 * http://cran.r-project.org/web/packages/NCBI2R/index.html

2. NCBI2R loading
라이브러리가 정상적으로 로딩되는지 확인합니다.
> library("NCBI2R")                # NCBI2R loading
> PrintNCBI2RInfo()               # NCBI2R 패키지 기본정보 확인
NCBI2R package loaded.
Developed by Scott Melville, Christian Fuchsberger,
Cristian Pattaro and Yuri D'Elia
Please check the web for updates, tutorials, manuals etc
http://NCBI2R.wordpress.com
Please read the usage guidelines on the website.
now checking if you have the latest version
[1] "NCBI2R is the current version. 1.4.4"
>

3. dbSNP 데이터베이스 이용하기 (대표적인 함수 따라해 보기)
(1) GetSNPInfo 함수를 이용해서 특정 유전자 영역의 SNPs정보 기본 정보 검색하기
 * GetIDs : 유전자명, KEGG pathway 등의 검색조건에 맞는 유전자 아이디를 가져온다.
 * GetSNPsInGenes : 해당 Gene 위치에 SNP ID 목록을 가져온다.
 * GetSNPInfo : dbSNP 내 SNPs 정보를 가져온다.
> GetIDs("MAPT[sym]")    # MAPT 유전자의 GeneId 정보를 가져온다
[1] "4137"
a <- GetIDs("KEGG pathway:Alzheimer´s disease")     
b <- GetIDs("protein binding[GO]")                        # Gene ontology 를 이용해서 Gene Id 가져옴
c <- GetIDs("ENST00414122")                              # ensembl reference ID를 이용해서 Gene Id 가져옴
> GetGeneInfo(4137)     # Gene Annotation 정보를 가져온다.
                                                          
  locusID org_ref_taxname org_ref_commonname   OMIM                                      synonyms
1    4137    Homo sapiens              human 157140 TAU MSTD PPND DDPAC MAPTL MTBT1 MTBT2 FTDP-17

genesummary
1 This gene encodes the microtubule-associated protein tau (MAPT) whose transcript undergoes complex, regulated alternative splicing, giving rise to several mRNA species. MAPT transcripts are differentially expressed in the nervous system, depending on stage of neuronal maturation and neuron type. MAPT gene mutations have been associated with several neurodegenerative disorders such as Alzheimer's disease, Pick's disease, frontotemporal dementia, cortico-basal degeneration and progressive supranuclear palsy. [provided by RefSeq, Jul 2008]
                            genename phenotypes
1 microtubule-associated protein tau           
                                                                                               pathways GeneLowPoint
1 KEGG pathway: MAPK signaling pathway--- KEGG pathway: Alzheimer's disease--- Reactome Event:Apoptosis     43971748
  GeneHighPoint ori chr genesymbol                               build    cyto approx
1      44105700   +  17       MAPT Homo sapiens Annotation Release 104 17q21.1      0
>mysnps <- GetSNPsInGenes(4137)        # Gene 영역의 SNP 정보를 가져온다.

(2) AnnotationSNPList : 검색하고자 하는 SNP목록의 gene symbol, locusId, chromosome과 그 위치정보, fxn_class(eg intron, exon, UTR) 정보와 종정보등을 파일형태의 결과로 보여준다.
 * AnnotationSNPList : NCBI dbSNP 데이터베이스로부터 snp 위치정보 및 관련 유전자, pathway 등의 정보를 제공한다.
> snplist<-c("rs1234567","rs333","rs848484")
> d<-AnnotateSNPList(snplist) #no HTML file is created
[1] "GetSNPInfo has been performed and information for identified genes will now be found."                                                
Information for genes has been found - AT LEAST one gene listed has  titles that are temporary or unofficial names)
  |=====================================================| 100%
> MakeExcel(d,"results.tab")
[1] "file was created"

(3) GetPathways 함수를 이용해서 특정 SNP에 연관된 Pathway 정보를 확인하기
 * GetPathways : 해당 유전자의 Pathway 정보를 확인할 수 있다.
> mySNPInfo<-GetSNPInfo("rs4294787")
> GetPathways(mySNPInfo$locusID)
  locusID                                                  name                                                       web
1    1139                     KEGG pathway: Cholinergic synapse http://www.genome.jp/dbget-bin/show_pathway?hsa04725+1139
2    1139 KEGG pathway: Neuroactive ligand-receptor interaction http://www.genome.jp/dbget-bin/show_pathway?hsa04080+1139
3    1139               KEGG pathway: Calcium signaling pathway http://www.genome.jp/dbget-bin/show_pathway?hsa04020+1139
4    1139                 KEGG pathway: Chemical carcinogenesis http://www.genome.jp/dbget-bin/show_pathway?hsa05204+1139
5    1139                      KEGG pathway: Nicotine addiction http://www.genome.jp/dbget-bin/show_pathway?hsa05033+1139
>

지금까지 간략하게 NCBI2R 패키지를 이용해서 R에서 NCBI의 데이터를 다루는 예제를 살펴보았습니다. R 언어는 생물정보학을 위한 Bioconductor 프로젝트에서 Ensemble, HGNC, InterPro, Reactome 및 HapMap 등의 여러 데이터베이스에 정보를 이용할 수 있는 인터페이스를 제공하고 있습니다. NCBI에도 dbSNP 이외의 많은 데이터가 있으므로 여러 조합으로 활용할 수 있을 것입니다.


작성자 : KM사업부 기반기술팀
강연경 팀장


Posted by 人Co

2013/04/12 13:33 2013/04/12 13:33
Response
5 Trackbacks , No Comment
RSS :
http://insilicogen.com/blog/rss/response/129

돼지를 아시나요?

회식을 할 때 마다 빠지지 않는 터줏대감 삼겹살을 생각하시나요? 아니면 지저분하고 더러운 동물, 이도 아니라면 부와 행운의 상징인 돼지 저금통이 떠오르시나요? 우리가 잘 알고 있다고 생각하지만 막상 잘 모르는 돼지에 대해서 알아보겠습니다.

학명으로는 Sus scrofa domesticus 라고 합니다. 좀더 달리 말하자면 가축화된 멧돼지(Sus scrofa)이죠. 한자로는 돈(豚)이라고 하죠. 전 세계적으로 약 8~9억 마리가 사육되고 있습니다. 사람이 약 50억이라고 하면 사람 숫자의 1/5이 지구상에 존재한다고 보면 되겠습니다. 사람과는 무척 친밀하고 가까이 있는 동물입니다.

먼저 돼지의 어원을 알아보겠습니다. 돼지의 기원은 돌에서 시작합니다. 어미돌이죠. 돌의 새끼를 도아지라고 했고 이것이 발전하여 도야지, 돼지로 발전한 것입니다. 송아지, 망아지, 강아지와 같은 새끼를 의미합니다. 우리가 흔히 부르고 있는 돼지는 돌의 새끼입니다. 돼지 새끼를 말하는 것이죠.


[출처 : 동아일보]

돼지꿈은 용꿈에 이어 길몽으로 해몽되는데 돼지 꿈을 꾸면 복권을 사기도 하고 로또방으로 향하게 하는 근거없는 기대의 원흉이 되기도 합니다. 또한 장사를 하는 집이나 개업을 하는 곳에서는 돼지머리를 올리고 부를 기원하는 고사를 올리기도 합니다. 이는 돼지가 한자로 돈(豚), 우리가 좋아하는 돈(金)과 같아서가 아닐까 합니다.

돼지는 약 1만년전(9천년전) 인간의 손에 길들여짐으로써 야성의 힘과 민첩함을 잃어버리고 게으르고 우둔하며 온순한 동물로 인식되고 있습니다. 개와 양에 이어 인간에 길들여진 세번째 가축으로 개와 마찬가지로 주인과 낯선 사람을 구별할 줄 알고 최근에는 컴퓨터도 사용합니다. 하지만 여전히 우매한 동물로 치부되기엔 마찬가지입니다. 하지만 돼지는 개와 돌고래에 견줄만큼 매우 영리하며 깔끔한 것을 좋아합니다. 돼지는 땀샘이 발달하지 못해서 체내의 수분이 소변으로 배설되기 때문에 항상 주변이 습기가 차고 더러운 경향을 보이지만 배설 장소를 따로 만들어주면 배설물이 있는 곳의 냄새를 맡고 그 장소에서만 배설하며, 누울 곳은 항상 깨끗하게 유지합니다. 우리가 알고 있는 것과는 거의 정반대죠. “똑똑하고 깨끗한 동물, 돼지”, 꼭 기억해 주세요.

돼지에 대한 또 다른 면모를 알아보겠습니다.

돼지의 조상인 멧돼지는 야생에 있을 때 포수의 화약 냄새를 수 리에서 수십 리 밖에서 인지하고 멀리 도망간다고 합니다. 포수의 엽총 화약 냄새를 몇 리 밖에서 식별하고서 멀리 달아나 버리는 것이죠. 그래서 산에 올랐을 때 멧돼지에 대한 응급처치 요령으로 우산이나 화약을 지참하라고 합니다. 우산은 갑자기 덩치가 큰 뭔가가 나타나서 순간적으로 놀라서 움츠러들어 방비할 시간을 주는 것이고 화약은 멧돼지가 싫어하는(두려워하는) 냄새이기 때문입니다. 돼지도 살아야 하니까요.

송로버섯의 모습 [출처: 위키피디아]


송로버섯을 이용한 음식 [출처: 위키피디아]

송로버섯을 아세요?
아마 대단한 미식가라면 알고 있을 수 있겠죠.(하지만 아직 먹어보지는 못했습니다. 그나마 자연산 송이버섯은 자주 먹어봤다는 것만으로 위안삼으려 합니다) 거위의 간 푸아그라, 철갑상어의 알 캐비어과 함께 세계 3대 진미라 불리우는 바로 송로버섯(truffle)입니다. 송로버섯은 블랙과 그 보단 열 배쯤 더 가치가 있는 화이트로 구별됩니다. 지구서 나는 자연산 음식 중 가장 비싼 버섯이죠. 맛 보다는 향기를 위한 음식으로 그 향미는 천국의 냄새라 합니다. 그 향기가 말로 형용할 수가 없으며 그 향기에 빠져들면 행복하고 그 느낌을 절대 잊지 못한다고 합니다. 일종의 마약이라고 할 수가 있습니다. 가격이 얼마냐구요? 2007년 마카오의 억만장자 스탠리 호가 1.5kg짜리 화이트 트러플을 33만달러에, 1.08kg은 20만 달러, 2010년 900g과 400g 짜리 두 개를 역시 33만 달러에 구입하였습니다. 대충 따져보면 1g당 220달러. 금 3.75g에 22만원이니까 가격이 대충 짐작되시죠?

이렇게 “땅 속의 다이아몬드”라 불리우며 외국에서 최고의 향미로 칭송받고 있는 송로버섯은 지상이 아닌 지하(5~40cm)에서 자라기 때문에 사람이 육안으로는 거의 찾기 힘듭니다 이 버섯을 찾는 과정을 트러플 헌팅이라고 하는데 사람이 찾을 수는 없고 동물을 이용하는데 그 동물이 바로 개와 돼지입니다. 개의 후각이 뛰어난 것은 주지의 사실로 알고 있지만 돼지는 다소 의외입니다.

개는 익히 알려진 바와 같이 과자를 주면서 훈련을 시켜 이용하고, 돼지는 그 자체 그대로 이용합니다. 돼지를 이용한 트러플 헌팅에서는 암퇘지가 이용됩니다. 트러플에서 발생하는 냄새가 마치 돼지 수컷의 발정기에 나타나는 호르몬 냄새(sex hormone)와 비슷하여 암퇘지가 거의 미친 듯이 달려들기 때문이죠. 즉 트러플에서 발생하는 향미가 수퇘지의 성적인 유인물질과 흡사하여 암퇘지를 이용하는 거죠. 그런데 암퇘지가 버섯을 발견하게 되면 극도로 흥분하여 주둥이와 발굽으로 헤집어 찾아내는데 이때 사람이 돼지를 저지해야만 합니다. 왜냐하면 육중한 체구를 이용하여 즉석에서 먹어 치워 버리기 때문입니다. 그러나 의외로 똑똑하여 버섯을 못 찾은 척 하다가 나중에 혼자 가서 먹어버리기도 한답니다. 하지만 개는 돼지만큼 버섯을 좋아하지 않을 뿐더러 대신 칭찬, 과자같은 보상에 길들여져 개를 많이 이용하는 추세라고 합니다.

여기서 중요한 포인트가 있습니다. 바로 돼지의 후각 능력입니다. 수십리 밖에서 화약 냄새를 맡거나 땅 속에 숨겨진 트러플을 찾아 내는 그 후각 능력말입니다. 돼지의 후각 능력은 인간의 약 2000배에 해당한다고 알려져 있습니다. 왜일까요? 우리가 몰랐던 돼지의 후각 능력, 이제 그 비밀을 알아보고자 합니다.

사용자 삽입 이미지




2012년 국내 연구진과 외국 연구진이 공동 연구하여 돼지의 유전체를 분석하여 네이처지에 그 내용을 발표하였는데 그 분석 내용을 보면 “돼지의 후각은 개보다도 뛰어나다!” 입니다. 정확히 그 정도는 표현할 수 없지만 돼지의 재발견이라고 해도 좋을 것 같습니다.
네이처 표지 [출처: 네이처]



[물론 저 국내 연구진에 저도 들어가 있습니다. 처음에 잘 찾지도 못했네요.] 




앞서 돼지의 후각 능력이 뛰어 나다고 하였는데 먼저 후각이란 무엇인지 알아보겠습니다. 후각은 우리가 냄새를 맡는 감각입니다. 물론 감각 세포 중 후각 감각 세포가 이러한 역활을 담당하고 있습니다. 냄새를 가진 분자가 공기 중에 떠다니면 이 냄새 분자가 콧구멍으로 들어와 콧구멍 안을 덮고 있는 점액에 녹고 이를 후각 수용기라고 하는 부분이 인식해서 뇌로 전달해줍니다. 그럼 뇌가 적절히 정보를 정리해주는 것이죠. 맛있는 냄새, 향기롭다, 역겹다 등의 과학적 정보와 감정적 정보를 주게 됩니다.

[출처 : 네이처] EMBO reports (2007) 8, 629 - 633 doi:10.1038/sj.embor.7401029

사람의 경우 약 500 만개의 수용체가 약 1,000 개의 다른 냄새를 구별할 수 있습니다.
냄새의 숫자는 어마하게 많지만 냄새의 유형은 사실 그리 많지 않습니다. 냄새는 보통 매우 적은 농도의 화학적 화합물에서 발생하는데 이는 향수와 같이 기분 좋은 냄새도 있지만 부패 등 기분 나쁜 냄새도 있죠. 산업적으로 음식/화장품 업체와 같이 기분 좋은 냄새(향기)를 이용하는 경우도 있지만, 사람과의 관계나 커뮤니케이션에 나쁜 영향을 주는 경우도 매우 많습니다. 예를 들면 발냄새, 암내, 땀냄새 등 말이죠. 냄새란 상당 부분 개인적인 면과 관계가 깊습니다. 냄새를 맡고 해석하는 과정은 과거의 경험, 성별, 건강상태, 개인의 경험에 따라 상당히 다르게 나타나기 때문입니다. 특히 동물에 있어서 무의식적인 위험경고, 짝 짓기, 음식 찾기, 포식자 탐색 등 다양한 분야에 이 후각 능력을 이용합니다. 물론 생존적인 면이 가장 크겠죠. 인간에 있어 이러한 후각 능력은 더 복잡한데 건강, 이성교제, 독성물질, 음식의 섭취, 감정 전달, 의사소통 등 모든 분야에 고려되는 중요한 요소입니다. 사실 이것은 다른 어떤 외부의 자극보다 기억에 연관되어 있기 때문입니다. 음식을 섭취할 때 부패했다거나 질병을 일으킬 수 있는 위험이 있다거나 할 때 보통 기억 속에 잠재된 냄새로 그것을 판단하게 됩니다. 음식이나 음료의 냄새가 코의 후각을 통해 인지되어 지고 후각 감각세포가 그 징후를 받아 들임으로써 그것을 먹을지 말지 결정하게 됩니다. 이러한 원칙은 해롭거나 혹은 이롭거나 한 모든 물질에서 그 판단 기준이 되는 것입니다. 그래서 후각(코)은 “뇌의 오랜 연인” 이라고도 합니다.

독일 드레스덴대 연구팀에 의하면 후각 능력이 떨어지는 남성이 후각 능력이 뛰어난 남성에 비해 연애 횟수나, 연애 능력이 떨어진다는 사실을 밝혔습니다. 후각은 사람의 감정을 불러일으키거나 오랫동안 유지시키는 결정적인 역활을 한다고 합니다. 과학적으로도 후각 능력이 떨어지면 모험심이 줄어들고 타인과 소통하거나 평가하는데에도 어려움이 있다고 합니다. 후각이 삶을 살아가는데 있어 알게 모르게 상당한 영향을 끼친다는 거죠.

사람의 기억에 남는 것은 미각이 아니라 후각이 더 많은 영향을 주고 있답니다. 모 광고에서 “낯선 여자에게서 내 남자의 향기를 느꼈다.” 처럼 어깨를 스치며 지나가는 여인의 냄새에서 내 남자의 기억을 되살리고 있는 것이죠. 냄새를 통해 누군가를 기억하거나, 냄새를 통해 누군가에게 호감 또는 혐오감을 느끼는 것입니다. 이는 후각 감각 신경세포가 기억과 감정, 인지와 관련된 뇌의 영역, 예로 대뇌 피질이나 변연계에 속해 있는 해마, 편도체 같은 곳에 서로 신경으로 연결되어 있기 때문입니다.

이런 냄새를 맡기 위해서는 우리의 후각 능력이 절대적으로 중요합니다. 후각 능력은 크게 두 부분으로 나누어 볼수 있는데.

1) 외부 자극을 받아들여 신경 세포의 전기적 신호로 바꾸는 말초적인 면

모든 신호를 받아 중추신경계에서 처리하는 중추적인 면입니다. 여기서 말초적인 면은 후각 감각세포(Olfactory receptor)와 상당 부분 깊게 관련되어 있는데 코를 통해 흡입된 냄새 물질에 반응하는 능력에 따라서 후각능력이 좌우됩니다. 앞서 간단히 냄새 맡는 과정을 언급하였지만 좀 더 생물학적으로 정리하자면 다음과 같습니다.

냄새 물질은 코 내부의 후각 상피와 접촉하는데 후각 상피에는 수많은 후각 감각 세포가 들어 있고 이들은 원래 있던 냄새에서 새 냄새를 구별하고 그 냄새의 농도를 결정합니다. 이 세포들은 후각 상피 내의 후각 감각 신경으로 이어져 있으며 감각 세포가 받아 들인 신호를 뉴런의 전기적인 신호로 바꾸어 주는 역활을 합니다. 이 전기적 신호는 말초 신경계인 후각 신경을 따라 전달되고 이 신경이 중추 신경계로 전달되고 이 때 뇌가 여러 정보를 토대로 우리가 반응해야 할 결과를 알려줍니다. 이것이 일반적인 냄새를 맡는 과정입니다.

사람에게는 500만개, 토끼 1억개, 개는 2억2천만개의 후각 감각 수용체를 가지고 있습니다. 사람의 경우 적은 수용체 수에도 불구하고 다른 포유류보다 냄새를 잘 구별할 수 있는 것(물론 능력이 뛰어나다는 의미는 아닙니다)은 높은 뇌의 메카니즘과 연결되어 있습니다. 물론 사람의 시각 능력과도 전혀 무관할 수 없습니다. 하지만 우리가 짚고 넘어가야 할 중요 포인트는 후각 감각 세포에 있는 수용체, Olfactory receptor입니다. 우리말로 번역하자면 후각 수용체, 후 수용기 라고 합니다. 외 수용기-접촉 수용기-화학 수용기로 재분류 할 수 있습니다.

후각 수용체(Olfactory receptor)는 냄새를 인지하고 반응하는데 이용되는 신경 세포의 일부입니다. 사실 이 수용체가 수 천 가지의 냄새를 인지하는데 결정적인 역활을 하는 것입니다. 이 수용체는 7 transmembrane domain을 가지고 있는 GPCR(G-protein coupled receptor)의 일종으로 약 200년 전에 설치류에서 처음 발견되었습니다. 또한 유전자 영역이 매우 잘 보존되어 있죠. (이 유전자의 구성 중 3/4은 tripodal metal ion binding site를 가지고 있습니다. 그러나 아직까지 이 유전자의 명확한 구조가 밝혀지지는 않고 있습니다. Metalloproteins가 OR(Olfactory receptor) 핵심이라는 설이 있으나 최근에는 양자 간섭 메커니즘을 통해서 분석한 결과 구조적 모티프보다는 분자의 다양한 진동 에너지 수준을 감지함으로써 인식한다는 설이 더 인정받고 있습니다. 이 OR(Olfactory receptor) 유전자는 포유 동물에서 매우 큰 패밀리 유전자입니다. 유사 기능을 하는 유전자가 종 내에 많다는 말이죠. 복어에서는 약 44개, 녹색복어에서는 42개가 발견되었습니다. 쥐에서는 약 1,200개가 발견되었죠. 물고기는 약 100개정도를 가지고 있고 인간은 약 350여개를 가지고 있습니다. 그럼 이쯤해서 돼지는 궁금하지 않으신가요? 몇 개나 존재하는지. 몇 개나 존재해서 돼지가 후각 능력이 뛰어 난지 말입니다.

자. 그 비밀을 밝혀드리도록 하겠습니다. 답은 1,113개 입니다. 물론 이것이 실험적으로 완전히 증명된 것은 아니지만 in silico 상으로 분석했을 때 나타나는 결과입니다. 돼지 유전체 Sscrofa10.2 버전(전체 유전체의 99.9%)으로 분석한 결과입니다. 이 버전은 Nature지에 발표되었던 버전과 동일합니다. 이 유전체 어셈블리 버전에서 OR 유전자 관련해서 1,301개를 밝혀냈습니다. 기능 유전자 1,113개, 슈도진 188개입니다. 염색체별 분포도를 보면 다음과 같습니다. 전체 16개 염색체에서 46영역에서 이들 유전자가 발견되었습니다.
 

보시는 것처럼 염색체 2번과 7번, 9번에서 가장 많이 발견되었습니다. 물론 pseudogene(188개)이 많이 포함되기는 합니다. 좀 더 자세히 테이블로 정리해 보았습니다.

다음은 각 종별 OR 유전자의 분포입니다. 의외로 닭이 82개입니다. 인간은 388개, 개는 872개, 생쥐가 1, 037개, 쥐가 1,201개, 돼지는 1,113 개입니다. 이제 돼지가 개보다 냄새를 더 잘 맡을 수 있다는 이야기에 공감이 가시나요? 물론 이 유전자가 많다고 냄새를 다 잘 맡지는 않겠지만 가능성은 훨씬 높아지죠. 이 유전자가 좀 더 많은 종류의 냄새를 구분해 낼테니까요. 더불어 쥐도 냄새를 무척 잘 맡는 동물에 속합니다. 쥐도 무시하지 마세요.


위의 돼지 관련 후각 감각 세포 분석 내용은 아래 보이는 논문에서 2012년 출판 (BMC Genomics) 되었습니다. 아쉬운 것은 논문을 쓸 당시엔 4.3점대 였는데 출판시점에 4.07점대로 주저 앉았습니다. 아뿔싸!! 그렇지만 이 내용으로 인해 Nature에도 잠시 이름을 얹었습니다.



우리가 막연히 알고 있던 “돼지가 냄새를 잘 맡는다”는 말을 들었을 때 “설마 돼지가?”하고 반문 할 수도 있습니다. 그러나 돼지의 외형적인 모습을 보면 후각이 잘 발달되어 있다는 느낌은 지울수가 없습니다. 물론 돼지 유전체 분석을 통해 그 근거도 증명했습니다.

지난 2년간 돼지 유전체 분석을 통해 돼지의 OR유전자는 1,113개이고 pseudogene 수가 188개로 상대적으로 많은 유전자들이 기능을 잃지 않고 있다는 것을 보여주는 내용입니다. 후각이 민감한 동물일수록 그 세포의 수가 많고 또한 냄새는 다종다양하므로 여러 유형의 세포가 필요하기 때문입니다. 인간은 단 388개의 유전자가 OR 관련 유전자입니다. 이는 근연관계로 볼 때 쥐(1,200개)와 확연한 차이가 존재합니다. 이는 인간이 시각능력과 지적 능력이 발달함에 따라 후각 능력은 점차 퇴화한 것으로 보여집니다. 예전 어느 논문에서인가 컬러를 구분하는 능력과 지적 능력 때문에 우리의 후각 능력이 현저히 떨어지고 있다는 설을 접한 적이 있습니다.

물론 좀 더 깊은 연구는 심리학, 공학, 향수 업계의 기밀, 생물학 등을 기반으로 하는 이어집니다. “냄새의 과학”은 진화론과 동물행동학, 신경과학, 생화학 등을 아루르는 새로운 영역이기에 그 내용은 배제하려고 합니다. 기회가 된다면 정말로 “냄새의 과학”에 대해서 정리해보도록 하겠습니다.

지금까지 우리가 의외로 생각했던 돼지의 후각능력, 그 능력은 단순한 설이 아니라 과학적으로도 근거가 있는 사실이었습니다.


작성자 : KM사업부 개발1팀
이규열 팀장

Posted by 人Co

2013/03/20 15:40 2013/03/20 15:40
Response
1 Trackback , No Comment
RSS :
http://insilicogen.com/blog/rss/response/128

배경

돼지생식기 호흡기 증후군 (Porcine reproductive and respiratory syndrom)은 PRRS 바이러스에 의한 질병으로 자돈이나 육성돈이 이 병에 걸리면 기침, 호흡곤란, 폐렴 등 호흡기 증상을 보이며, 모돈의 경우 임신말기에 유사산 및 조산을 나타내고 허약자돈을 분만하게 되고, 웅돈에서는 정액성상의 이상을 일으키는 등 병명그대로 번식장애와 호흡기 증상으로 인한 성장부진이 특징입니다. 1986년 미국에서 보고되고 1990년 유럽에서 처음 보고된 비교적 새로운 가축질병이며 병원체가 알려지기 전에는 Mystery pig disease라고 불리기도 했습니다.

구제역이나 조류독감처럼 축산산업에는 큰 영향을 주는 질병으로 현재 미국에서는 PADRAP이라는 위해성 평가 프로그램을 구성하여 양돈장이나 종돈장을 체계적으로 관리하기도 합니다.

이번 포스트는 실험에서 얻은 PRRSV 유전자 서열을 기존 서열과 비교해서 PRRSV의 고병원성 여부를 확인하는 Perl 스크립트를 만드는 방법을 살펴보겠습니다. 스크립트를 구현하는 초보자 입장에서 문제를 해결하는 과정을 담아 보려고 했습니다.

고병원성 PRRSV의 특징

Zhou 등에 따르면 고병원성 PRRSV 균주는 Nsp2 유전자 분절의 코딩영역에 고유의 30잔기의 아미노산 결실이 있는 것으로 확인되었습니다. 여기서 Nsp2는 nonstructural protein 2의 약어이며, 중간 부위에 유전자 변이가 매우 많지만, 프로테아제 도메인으로 예상되는 N말단과 트랜스멤브레인으로 예측된 C말단은 보존성이 매우 높은 구조를 가지고 있습니다(Han et al. 2007).


Figure 1. The 30-Amino-Acid Deletion in the Nsp2 of Highly Pathogenic PRRSV. (Zhou et al. 2009)

스크립트 작동조건

실험에서 직접 시퀀싱한 서열을 고병원성인지 확인하는 것이므로 입력 서열은 DNA이며, 이 예제에서의 기준서열은 Figure 1에서 제시된 것처럼 단백질 서열로 가정합니다(VR-2332). 그리고 결실이 있는 위치와 크기의 허용오차를 줄 수 있어야 합니다. 입력인 DNA 서열은 Nsp2의 특정 부위를 증폭한 PCR산물을 직접 시퀀싱한 것입니다.

해결책을 찾아가는...

일단 이 문제는 쌍서열정열(pairwise sequence alignment) 전형적인 예입니다. 서열정열만 하면 거의 해결에 가까이 온 것입니다. 먼저 간단한 퀴즈 하나를 내보겠습니다. 이 문제의 경우 전역정열(global alignment)와 지역정열(local alignment) 알고리즘 중에서 무엇을 선택하는 것이 좋을까요? 이 퀴즈에 답을 하기 위해서는 기준이 되는 단백질 서열의 길이와 입력이 되는 DNA 서열의 길이를 비교해야 합니다. 기준 서열은 PRRSV의 완전유전체 중의 하나이며, 입력 서열은 Nsp2의 PCR 산물이므로 그 길이가 많이 다릅니다. 따라서, 지역정열을 해야 적절한 결과를 얻을 수 있습니다.

많은 지역정열 프로그램이 있지만, 생물정보학의 기본중의 기본이라고 하는 BLAST의 패키지중의 하나인 bl2seq를 이용해서 정열을 구현할 수 있습니다. 여기서 두 번째 퀴즈... 어떤 BLAST 프로그램을 지정해야 할까요? 쿼리가 DNA이고, 서브젝트가 단백질서열이면.... 바로 BLASTX를 이용해야 합니다. 당연히 아시겠지만, bl2seq는 별도의 formatdb없이 바로 두 시퀀스를 지정하면 됩니다.

BLAST를 하고 나면 생물정보 스크립트 단골 메뉴인 파서 구현이 나오겠지만, 여기서는 일단 BioPerl이라는 걸출한 라이브러리를 이용합니다. 이미 잘 짜여 있는데 새로 만들 필요는 없으니까요. 따라서 직접 구현해야하는 스크립트의 핵심 기능은 사용자가 지정하는 오차범위에 일치하는 긴 결실이 있는지를 판단하는 부분입니다.

먼저 bl2seq의 결과 파일을 보면 Figure 2와 같이, 쿼리 요약, HSP (high scoring pair), 파라메터, 통계량 등을 보여줍니다. 

Figure 2. An example BLAST's result of the deletion in Nsp2.

BioPerl의 Bio::SearchIO 모듈을 이용한 BLAST, FASTA, HMMER, Sim4 등의 다양한 정열 프로그램 결과를 읽거나 저장할 수 있습니다. 바로 이 모듈을 이용해서 bl2seq 결과를 파싱(parsing)할 수 있습니다. 구체적인 사용법은 BioPerl 문서의 매뉴얼이나 HOWTO 문서를 읽어보시길 권합니다.

위 의 방법이든 직접 파싱을 하든 일단 HSP에서 긴 결실 부위를 찾는 것이 핵심인데, 연구를 열심히 하는 생물정보 스크립터들이 잘 빠지는 오류중의 하나가 너무 '현학적인'인 방법을 생각하는 것입니다. 이번의 경우에도 입력 서열의 품질이나 정제 상태에 따라서 지역정열의 결과 패턴이 매우 다양하고, 이를 고려하다 보면 각 컬럼별 통계량을 계산하거나, 프레임시프트 여부, 연속 결실을 계산하기 위한 그래프 알고리즘... 이런 상태에 봉착하셨다면 커피한잔이나 산책 후에 "Perl script should be Perlish"를 상기하면 어떨까요?

다음 Perl 코드는 HSP에서 "-"로 연속되는 결실을 포함하고 있는 문자열을 가져오는 것입니다.

my $query_alignment = $hsp->query_string();


이제 Perl의 초강력 정규식을 이용해서 연속하는 결실부위를 찾습니다. 아래 코드는 최소 크기 이상을 가지는 연속되는 결실을 모두 찾는 코드입니다.

my ($ref_start, $ref_end) = $hsp->hit->strand < 0 ? ( $hsp->hit->end, $hsp->hit->start ) : ( $hsp->hit->start, $hsp->hit->end ); while( $query_alignment =~ /(\-{$threshold_length,})/g ) { $indel_start = $-[1] + $ref_start; $indel_end = $-[1] + $ref_start + length($1) - 1; $indel_length = length($1); push @indels, [$indel_start, $indel_end]; }


이렇게 @indel 배열에 결실에 대한 정보를 저장하고, threshold % indentification (-p), expected start position of indel (-s), expected end position of indel (-e), tolerant positional error(-d)와 같은 추가적인 필터 조건을 구현하고 실제로 동작시키면 아래와 같습니다.

[bckang@gxs ~]$ ./gvs_find_indel.pl nsp2.blsx -s 921 -e 949 -d 15 #Mutation dectector's parameters: p=30 s=921 e=949 d=15 >AAO13191(NA_prototype) 920 948 29 >AAO13191(NA_prototype) >AAO13191(NA_prototype) >AAO13191(NA_prototype) >AAO13191(NA_prototype) >AAO13191(NA_prototype)


이 문제를 해결하는 방법은 매우 다양합니다. 위의 방법은 이미 결실 위치와 크기가 알려진 경우에는 간단한 해법이 될 것이라고 생각됩니다. 마지막으로 스크립트를 만드시는 분들께

Perl is supposed to be Perlish and Python looks like Pythonic.

References

  1. Zhou, L. et al. (2009) The 30-amino-acid deletion in the Nsp2 of highly pathogenic porcine reproductive and respiratory syndrome virus emerging in China is not related to its virulence. J. Virol. 83(10):5156-67.
  2. Han, J. et al. (2007) Identification of Nonessential Regions of the Nsp2 Replicase Protein of PRRSV Strain VR-2332 for Replication in Cell Culture. J. Virol. 81(18):9878-90.
  3. Wikipedia: PRRSV.
  4. Altscul, S.F. et al. (1999) Basic local alignment search tool. J. Mol. Biol. 215:403-410.
  5. Thompson, J.D. et al. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22(22):4673-4680.
  6. Perl, http://www.perl.org

  7. BioPerl, http://www.bioperl.org

    KM사업부장 강병철


Posted by 人Co

2013/01/31 12:34 2013/01/31 12:34
Response
No Trackback , No Comment
RSS :
http://insilicogen.com/blog/rss/response/125

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
  5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis



이번 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

3-5. Centralization for High-throughput Data Analysis


 최근 들어 분석하고자 하는 데이터의 용량이 기하급수적으로 늘어남에 따라 데스크탑 컴퓨터 사양으로 분석하기가 어려워지고 있다. 따라서 생물정보 전문가들의 도움이 많이 요구되지만, 한 두 명의 생물정보 전문가들이 처리하기에는 분석하고자 하는 데이터가 급격하게 증가되고 이를 활용한 연구 분야가 다양하여 대규모의 생물정보 전문가를 가용하고 있는 센터가 아닌 곳에서 모든 분석을 지원하는 것은 쉽지가 않다. 또한 유전체 분석과 같은 대규모 프로젝트가 컨소시엄 형식으로 수행되고 있는 상황에서는 다른 연구팀과의 상호 협조를 통한 공동 연구가 중요하며, 이를 위한 데이터의 공유와 관리도 중요시되고 있다. 따라서 연구자들이 공동으로 데이터를 업데이트하거나 다운로드할 수 있는 데이터베이스와 대규모의 용량을 분석할 수 있는 서버, 그리고 서버에서 분석한 결과를 개별 컴퓨터에서 확인할 수 있는 시스템의 유기적인 관계가 요구된다. 하지만 생물데이터의 형식과 이를 분석하는 프로그램의 종류가 다양하므로 데이터의 공유와 관리, 그리고 분석 프로그램의 연계가 상당히 복잡하다.

 대다수의 생물학자들이 윈도우 운영체제의 컴퓨터를 사용하고 있으며 Vector NTI, DNA Star와 같은 생물데이터를 분석하는 상용화 프로그램을 많이 이용하고 있다. 하지만 이런 상용화 소프트웨어는 윈도우에서만 사용가능하며, 분석하는 데이터의 용량 및 길이에 제한을 두고있으므로, 대규모의 데이터를 분석하는 것은 적절하지 않다.

 CLC bio사에서는 대규모의 NGS 데이터 및 대규모의 데이터를 서버에서 분석할 수 있는 CLC Genomics Server(그림 11)와 데스크탑 컴퓨터에서 결과를 확인하고 Vector NTI, DNA Star와 같은 다양한 분석 프로그램에서 나온 결과 데이터를 사용할 수 있는 CLC Genomics Workbench를 개발하였다.

사용자 삽입 이미지
그림 11. Genomics Server 시스템 아키텍처

 CLC Genomics Workbench에서 CLC Genomics Server에 NGS 데이터 및 대규모 분석 데이터를 업데이트하고 분석을 수행한 뒤 CLC Genomic Server에서 분석되어진 결과를 CLC Genomics Workbench에서 확인할 수 있는 플러그인이 있다. 이를 활용하면 대규모 리소스를 필요로 하는 데이터의 분석과 데스크탑 컴퓨터에서 가능한 데이터 분석을 구분하여 연구 업무의 효율성을 증대시킬 수 있다. 또한 윈도우, 리눅스, 매킨토시 등 운영체제에 관계없이 설치가 가능하기 때문에 다양한 운영체제에서 데이터를 분석하는 연구자들이 분석결과를 공유할 수 있다. 대부분의 상용화 프로그램은 연구자들이 원하는 분석 알고리즘이 없을 경우 이후 버전의 업그레이드 내용을 기다리거나, 다른 프로그램을 이용하여 분석할 수밖에 없으므로 분석의 일관성을 유지하기 어렵고, 번거로움이 가증되었다.

 하지만, CLC Genomics Server에서는 External Application 플러그인을 적용하여 CLC Genomics Workbench에 설치되어 있지 않는 알고리즘 및 분석법을 커맨드라인 방식으로 설치한 후 간단한 설정을 통해 별도의 인터페이스를 만들지 않더라도 CLC Genomics Workbench에서 데이터의 입력과 출력을 수행할 수 있으며, 분석 결과를 다른 분석에 응용할 수 있다.

 그림 12는 CLC Genomics Server에서 external application 모듈을 설정하는 것을 보이고 있으며, 그림 13은 external application을 통해서 구축한 새로운 모듈을 이용하여 분석하는 화면을 보이고 있다. 이와 같이 서버급에서 분석할 수 있는 시스템과 데스크탑 컴퓨터에서 분석할 수 있는 프로그램의 연계를 통해서 생물학자들이 복잡하고 다양한 데이터를 분석하는데 많은 도움을 줄 수 있을 것이다.

사용자 삽입 이미지
그림 12. External Application of CLC Genomics Server. 자주 사용되는 커맨드라인 방식의 프로그램은 CLC Genomics Server의 External Application 설정을 통해 별도의 인터페이스를 만들지 않고 CLC Genomics Workbench에서 수행할 수 있다. 이를 이용하여 사용자에 맞춰진 workbench로 재구성할 수 있다.

사용자 삽입 이미지
그림 13. CLC Genomics Workbench 플러그인 적용. External application 플러그인으로 구축된 새로운 모듈은 CLC Genomics Workbench에서 분석이 가능하다.






저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 이 소식지를 통하여 빠르게 발전하는 NGS 시대에 다양한 변화를 습득하고 하시는 연구에 조금이나마 도움이 되길 바라면서 지난 2월부터 약 2개월에 걸쳐 저희 회사 블로그 Quipu(http://www.insilicogen.com/blog/)를 통해 연재를 진행하였습니다. 지난 2개월 동안 최신 생물정보학관련 연구 동향에 대한 기술 소식지 블로그 연재에 많은 관심 가져주셔서 진심으로 감사드리며 저희 (주)인실리코젠은 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.


(주)인실리코젠 Codes팀 배상
Tel: 031-278-0061 / E-mail: codes@insilicogen.com



Posted by 人Co

2010/04/09 09:42 2010/04/09 09:42

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.


3-4. Gene Network Discovery by Text-mining


 최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수  십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.
 
보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

사용자 삽입 이미지
그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

사용자 삽입 이미지
그림 8. Pathway Studio workflow diagram


그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내  프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

사용자 삽입 이미지
그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인


그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.


사용자 삽입 이미지
그림 10. MedScan을 통한 문헌정보의 네트워크 구성


다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


Posted by 人Co

2010/04/05 15:44 2010/04/05 15:44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.



3-3. Semantic Network for Integrated Biology Data

 
 여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

사용자 삽입 이미지
그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

사용자 삽입 이미지
그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

사용자 삽입 이미지
그림 4. Object와 Relation에 대한 개략적인 데이터 모델


그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

사용자 삽입 이미지
그림 5. BioXM 데이터 모델링 구현


BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

사용자 삽입 이미지
암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

사용자 삽입 이미지
사용자 삽입 이미지
그림 6. BioXM 시스템을 이용한 지식 네비게이션


다음 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.



Posted by 人Co

2010/04/01 15:00 2010/04/01 15:00

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
  5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era


 근 들어 웹 2.0에 대한 논란이 뜨겁다. 비단 IT에서 뿐만 아니라 일상생활에서도 웹 2.0이라는 용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003년 처음 사용하기 시작하면서부터 대중화 된 웹 2.0에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를 웹 1.0으로 보고 있다면, 웹 2.0은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의 발전이다(그림 1)[2].

사용자 삽입 이미지
그림 1. Web 2.0이란?

 웹 2.0이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된 사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을 활용하고 있다. 위키라는 개념으로 접근한 웹 2.0은 대영백과사전으로 알려져 있는 브리태니커 백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001년 1월 출범하여 2006년 12월에 기네스북에 인정되기까지 불과 6년의 짧은 기간에 엄청난 정보가 모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운영자가 절대 개입하지 않는다는 원칙하에 모든 방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이 생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고 수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

 (주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을 재구성하였다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는 미팅과 관련된 로그 관리 등을 효율적으로 운영하고 있다. 개별 연구자들이 각자 분석업무를 업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정, 지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고 있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서, 인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고 데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는 다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 영역에서도 웹 2.0의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고, 관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를 어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식 자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다. 그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여 보여주는 의미론적 검색 방법을 개발하였으며, 한국인들이 가장 많이 검색하는 네이버에서도 의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

 2. http://ko.wikipedia.org/wiki/Web2.0



Posted by 人Co

2010/03/30 14:53 2010/03/30 14:53
, , , , ,
Response
14 Trackbacks , No Comment
RSS :
http://insilicogen.com/blog/rss/response/65

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.


3-1. Next Generation Bioinformatics

 
 Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

 현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].
 

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.  많은 관심 부탁드립니다.



참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

2010/03/29 17:30 2010/03/29 17:30
, , , , , , , ,
Response
13 Trackbacks , No Comment
RSS :
http://insilicogen.com/blog/rss/response/64

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재는 Genome Annotation의 마지막 내용으로 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다.


2-4-3. Professional Curation


 A. 상동성 기반의 Annotation 수정


 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 따라서 이러한 부분은 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거쳐 최종적인 유전체 분석을 수행하게 된다. 분석 가능한 소프트웨어로는 Apollo[2] 와  Pedant-Pro가 있다. Apollo는 오픈 소스로 제공되며, Berkeley Drosophila Project 수행을 위해 Sanger Institute에서 개발하였다.

유전자의 구조 정보를 편집하기 위한 프로그램으로 evidence 데이터의 alignment 정보와 structural annotation 결과 형성된 Consensus Gene Model 정보를 같이 보며 수정 작업을 수행 한다(그림 12).

사용자 삽입 이미지
그림 12. Apollo. Consensus gene model의 정확성을 manually curation 한다. 유전자의 길이, 위치를 직접 편집하면서 가능한 AS form과 유전자 모델을 만들며, 이를 다시 xml혹은 GFF 형태로 저장하여 genome browser에 이용할 수 있도록 하였다.

입력 포맷으로 GFF3, Ensemble, XML 형식이 가능하며 Chado 데이터베이스로부터 직접 데이터를 읽어 들일수도 있다.  또한  삽입(Insertion), 삭제(Deletion), 확장(Extension), 분리(Split), 결합(Merge), 이동 그리고 변환(Replacement) 등 가능한 모든 유연한 편집 모드를 이용하여 유전자의 구조 정보를 편집할 수 있다. 또한 편집 시 필요한 주석 태그를 덧붙일 수 있는 것 또한 장점이라 할 수 있다.

 B. 기능 분석 결과의 수정(functional annotation)


 열 상동성 및 도메인 정보를 통해 분석되어진 유전자의 기능 정보에서 전문가의 분석에 의존하여 알고리즘에 의한 오류를 수정하거나 분석 정보를 편집, 수정할 수 있다. 이전 페이지에서 언급한 Pedant-Pro에서는 이와 같은 전문가의 수정 기능과 수정된 정보의 업데이트 기능을 지원하고 있어서 최종적으로 가장 정확한 유전체 분석 정보를 얻을 수 있다(그림 13). 수치상 상동성이 높은 단백질로 유전자 매핑이 이루어져야 하므로 발현 정보, 도메인 정보 등을 종합하여 단백질의 기능을 수정해야 할 때 이용하게 된다. 이러한 작업은 대부분 생물학적 지식을 갖춘 다수의 전문가들에 의해 진행되게 된다. 따라서 전문가에 의한 기능 분석 수정에 대한 이력 정보를 관리하는 것 또한 중요하다고 할 수 있다.

사용자 삽입 이미지
그림 13. Pedant-pro annotaton edition



다음주 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하는 Bioinformatics Knowledge Management에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/26 09:59 2010/03/26 09:59

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에  대해 알아보겠습니다.


B. 비교유전체 분석


 로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다. Ortholog란 한 개체가 진화되어 여러 종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다. 미생물의 경우 단순 ortholog 분석에서 확장되어 오페론 단위의 유전자 그룹을 유전체 상의 위치 정보와 함께 분석하는 Positional linkage 방법이 매우 정확하게 분석되고 있다(그림 10).

사용자 삽입 이미지
그림 10. Positional linkage. 미생물의 경우 보통 operon상에서 유사한 기능을 수행하는 단백질들끼리 서로 이웃하여 존재하므로 이를 positional linkage를 통해 정보를 확인한다.

 화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게 된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여 프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도 최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을 갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다(그림 11).
사용자 삽입 이미지
그림 11. Phylogenetic 프로파일링



다음 연재에서는 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다.  이러한 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/24 10:32 2010/03/24 10:32



« Previous : 1 : 2 : 3 : 4 : Next »