자주 묻는 질문 | ㈜인실리코젠-데이터 바이오 기업

[뉴스레터] Amazon S3 Object Lambda와 함께하는 PetaGene가 곧 찾아옵니다! 조회 2444 2021. 03. 24 - PetaGene은 조직이 데이터를 보호하여 서로 다른 사용자가 볼 수 있는 내용을 제어할 수 있어, 각 파일에 대해 사용자마다 볼 수 있는 콘텐츠의 허용 정도를 다르게 설정할 수 있습니다. Amazon S3 Object Lambda는 AWS S3에서 검색된 데이터를 애플리케이션에 반환하기 전에 자체 코드를 추가하여 처리할 수 있는 새로운 기능으로, 여러 애플리케이션에 서로 다른 데이터 보기를 자체적으로 제공할 수 있습니다. PetaGene에서는 Amazon S3 Object Lambda와 PetaSuite 및 PetaLink의 통합을 위해 지난 몇 달 동안 비공개 베타를 진행하였습니다. 아직 추가적인 작업이 필요하지만 곧 해당 기능을 만나보실 수 있습니다. 해당 내용은 또한 지난 3월 19일, 아마존의 공동 창립자이자 CEO인 Dan Greenfield의 발표에서도 공식적으로 소개되었습니다. PetaGene 사의 제품군과 함께 게이트웨이 솔루션이 제공할 수 있는 추가적인 이점이 어떤 것이 있는지 간단하게 설명하였습니다. 아래는 해당 부분 중 일부를 발췌하였습니다. 원문은 링크에서 확인하실 수 있습니다. "PetaGene을 사용하면 조직이 데이터를 보호하여 사용자마다 각 파일 내의 특정 콘텐츠만 볼 수 있도록 제어할 수 있습니다. 또한 NGS genomic 데이터를 손실없이 최대 11배까지 효율적으로 압축할 수 있습니다. 사용자는 이미 우리의 user-mode readback library를 그들의 환경에 로드하여 고유의 기본 형식으로 투명하게 보호/압축된 데이터에 접근할 수 있습니다. 하지만 S3 Object Lambda와 함께라면 사용자 측에서 라이브러리를 설치할 필요없이 표준 S3 GET 요청을 통해 고유의 기본 형식의 데이터에 접근할 수 있습니다. 이를 통해 고객은 최종 사용자를 위해 PetaGene의 데이터 보호, 규정 준수 및 압축된 데이터를 더욱 쉽게 배포할 수 있습니다."

[릴리즈] OmicSoft 2020R4 릴리즈 조회 2463 2021. 03. 16 - 새로운 QIAGEN OmicSoft 2020R4 릴리즈 R4 릴리즈의 핵심 사항 OncoLand와 DiseaseLand는 새로운 수백 개의 새로운 프로젝트를 추가하였습니다. Select Land의 리스트에서 관심있는 Land가 보이지 않는다면, OmicSoft Server 관리자에게 “Cloud Land Publishing function”을 체크하여 사용가능한 데이터 체크를 요청하세요. OmicSoft GTEx, Blueprint 및 CCLE Land의 최신 버전이 릴리즈되었고, Human.B38과 OmicsoftGenCode.V33에 맵핑되었습니다. 이 Land들을 사용하여 가장 최신 데이터를 얻으세요. 추가적으로 최신 gene model에서는 TRACERx_B38_GC33(멀티오믹스 비소세포폐암, non-small cell lung cancer) 및 DLBCL_NCI_B38_GC33 (미만성 거대 B세포 림프종, diffuse large cell B cell lymphoma)을 사용하실 수 있습니다. OncoLand 2020R4 업데이트 핵심 사항 OncoGEO와 OncoMouse에 수백 개의 새로운 프로젝트 추가 출시 예정: OmicSoftGenCode.V33으로 재처리 된 TCGA_B38 OncoGEO: 이번 릴리즈에서는 추가된 102개의 프로젝트에서 4,110개의 새로운 샘플과 1245개의 새로운 비교를 사용하실 수 있습니다. 이는 신장 투명세포암(renal clear cell carcinoma), 간세포암(hepatocellular carcinoma), 교모세포종(glioblastoma), 결장암 및 대장암(colon and colorectal cancers), 자궁경부암(cervix carcinoma), 그리고 유방암(breast carcinoma)에 초점이 맞춰져 있습니다. Figure 1. OncoGEO 2020R4에서 새로운 종양학-초점의 샘플들에 대한 분포. Y축은 조직으로 그룹화되었고, DiseaseState에 따라 색을 입힘. Hematology(혈액학): 이번 릴리즈에서는 다발성 골수종(multiple myeloma), 급성 골수성 백혈병(acute myeloid leukemia), 미만성 거대 B세포 림프종(diffuse large cell B cell lymphoma), 만성 림프구 백혈병(chronic lymphocytic leukemia) 등 새로운 연구와 함께 55개의 프로젝트와 함께 1922개의 샘플, 557개의 비교가 추가되었습니다. Figure 2. Hematology 2020R4에서 새로운 혈액암-초점의 샘플들에 대한 분포. Y축은 DiseaseState로 그룹화되었고 CellType에 따라 색을 입힘. OncoMouse: 이번 릴리즈에서는 OncoMouse_B38에 만성 림프구 백혈병(chronic lymphocytic leukemia), 골수형성이상증후군(myelodysplastic syndrome), 다발성 골수종(multiple myeloma), 맨틀세포 림프종(mantle cell lymphoma)과 관련된 새로운 연구를 통해 19개의 프로젝트에서 361개의 샘플과 121개의 비교를 추가하였습니다. DiseaseLand 2020R4 업데이트 핵심 사항 HIV와 COVID-19가 포함된 바이러스 감염에 대한 새로운 연구 정신병적 질환, 신경퇴행 질환, 셀리악병 등에 대한 새로운 연구 출시 예정: 인간 유전체 B38, OmicSoftGenCode.V33의 HumanDisease HumanDisease: 이번 릴리즈에서는 137개의 프로젝트로부터 7,579개의 샘플과 3,234개의 비교를 HumanDisease_B37에 추가하였습니다. 새로운 프로젝트에서 다루는 많은 질병들 중 조현병(schizophrenia), 자폐 스펙트럼 장애(autism spectrum), 조울증(bipolar), 셀리악 병(celiac disease), 당뇨병(diabetes) 등에 대한 연구를 포함하여, 특히 바이러스 감염인 COVID-19, MERS와 HIV에 대한 추가 연구에 중점을 두었습니다. Figure 3. HumanDisease 2020R4의 새로운 질병-초점 샘플 분포. Y축은 DiseaseState로 그룹화되었고 조직에 따라 색을 입힘. 정상 및 질병 대조군은 숨긴 상태. MouseDisease: 97개의 프로젝트로부터 4,364개의 샘플과 994개의 비교를 MouseDisease_B38에 추가하였습니다. 새로운 콘텐츠로는 알러지(allergy), 알츠하이머병(Alzheimer’s disease), 자폐 스펙트럼 장애(autism spectrum), 만성신장질환(chronic kidney disease), 이식편대숙주질환(graft-vs-host disease), 헌팅턴병(Huntington's disease), 톡소플라스마증(toxoplasmosis) 및 당뇨병(diabetes)이 있습니다. Figure 4. MouseDisease2020R4의 새로운 질병 모델 샘플에 대한 분포. Y축은 DiseaseState로 그룹화되었고 조직에 따라 색을 입힘. 정상 및 질병 대조군은 숨긴 상태.

[릴리즈] QIAGEN Clinical Insights (QCI) 새로운 기능 업데이트 (2021.03.16 예정) 조회 1834 2021. 03. 03 - New update coming soon for QIAGEN Clinical Insights (QCI) QCI Interpret, OCI Interpret One User에게, 퀴아젠은 2021년 3월 16일에 있을 개선 사항을 발표할 수 있어 기쁘게 생각합니다. 이러한 업데이트는 여러분들의 피드백 반영 결과이며, 다음과 같은 특성들을 포함합니다. Faster upload of your samples - 이제 한 번에 한 샘플 업로드의 대안으로 드래그&드롭하여 여러 개의 샘플을 업로드 하실 수 있습니다 Sample editing - sample names, subject identifiers, 그리고 descriptions을 이제 편집하실 수 있습니다. Dynamic variant list search - 관심있는 질병, HPO term 혹은 유전자와 같은 여러 용어로 검색하여 변이 리스트를 관련 검색에 맞추어 다이내믹 하게 필터링하실 수 있습니다. Improved test product profile and variant filter organization - 이제 여러분은 쉽게 퀴아젠 default setting에서 개별 test product profile과 변이 필터를 구분하실 수 있습니다. Improved biological insights - 관심있는 변이를 포함한 유전자를 퀴아젠의 Ingenuity Pathway Analysis에 export하여 impacted canonical pathway, druggable genes, 및 RNA expression data를 더할 수 있습니다.

[뉴스레터] 아직도 HGMD Public 사용 중이신가요? 당신의 데이터는 3년 뒤처져 있습니다. 조회 1916 2021. 02. 25 - HGMD Professional 로 훨씬 많은 것을 하실 수 있습니다. HGMD Professional 307,000개 이상의 inherited disease-relevant mutations, polymorphism 정보는 public version에 비해 거의 40% 이상 많습니다. 2020에 HGMD Professional은 30,000개의 새로운 변이 정보를 등록하였고 2023년이 되기 전까지는 HGMD Public version에서는 이용하실 수 없습니다. HGMD Professional 로 업그레이드는 강화된 다양한 검색 옵션으로 phenotype, HGVS nomenclature, genomics coordinates, 특정 모티프 위치, regulatory region, splice site 위치 정보를 검색에 활용하실 수 있습니다.

[릴리즈] QIAGEN CLC Single Cell Anaiysis Module 출시 조회 2545 2021. 02. 25 - QIAGEN CLC Single Cell Analysis Module은 raw FASTQ 파일로부터 주석처리된 세포 유형과 차등 발현 유전자를 확인할 수 있는 세포 클러스터까지 분석을 가능하게 합니다. 이 모듈은 오믹스 데이터 분석을 위한 QIAGEN CLC Genomics Premium 패키지의 일부입니다. 분석에 사용되는 알고리즘은 대규모 데이터셋으로 확장되고 광범위한 하드웨어에서 실행되도록 구현되었습니다. 구현된 알고리즘 및 옵션에 대한 자세한 내용은 메뉴얼을 참조해주세요. Feature 1. Single Cell 폴더. FASTQ에서 발현 및 세포 유형 예측까지, scRNA-seq 데이터 분석을 위한 툴 포함 또한 다양한 expression matrix 형식과 함께 세포 및 클러스터의 주석처리에 대한 여러 가져오기 도구를 제공합니다. Figure 2. QIAGEN CLC Single Cell Analysis Module에서 사용 가능한 expression matrix 가져오기 툴 Expression matrix 생성 Expression matrix를 생성하려면 두 단계가 필요합니다. 1) 세포 및 UMI 정보로 주석처리 2) Read mapping Read mapping 과 counting에서는 QIAGEN CLC Genomics Workbench의 RNA-seq 분석 툴의 특화된 버전을 사용합니다. 과거 논문에서 독립적인 성능 평가를 수행했을 때, 해당 툴의 이전 버전은 최고의 성능을 발휘했습니다(Baruzzo et al., 2017). 이 접근 방식은 전사체, 유전체에 read mapping을 진행하고 Spike-in들을 제공하며, 전사체와 유전체에 mapping할 때 노이즈를 제거합니다. Multi-mapping read 들은 기대값-최대화 방식을 통해 배치됩니다. 포괄적인 보고서에는 데이터의 특징 유형(mRNA, lncRNA 등)과 알려진 spike-ins 농도, 발현의 상관 관계가 포함됩니다. 발현 분석 분석의 첫 번째 단계는 QC와 정규화를 포함합니다. 비어 있는 droplet 탐지는 10x Genomics와 같은droplet 방식에 추천됩니다. Quality Control(QC) 단계는 하위 분석에서 허용할 세포를 고려하기 위해 다양한 기준에 대한 임계값을 설정할 수 있습니다. 몇몇 plot은 다음과 같습니다. Figure 3. QC 보고서 중 일부 plot 정규화 한 데이터는 모든 하위 분석에 영향을 미칩니다. 이 구현은 배치 효과를 제거하는데 적합합니다. Figure 4. 배치 교정: 두 샘플 각각에 대해 여러 클러스터가 관찰됩니다. 배치 교정 후에는 클러스터에 두 샘플이 혼합되어 있습니다. UMAP 및 tSNE는 단일 세포 발현 데이터를 시각화하기 위한 사실상의 표준입니다. 인터랙티브 2D 및 3D 시각화는 클러스터 정보, 세포 주석처리 및 유전자 발현 정보를 중첩시킬 수 있습니다. Figure 5. 세포 유형으로 색을 입힌 1000PBMCs (2) 단일 세포 데이터의 UMAP plot Figure 6. 신경 줄기 세포의 마커 유전자로 색이 교차된 백만 개 이상의 뉴런에 대한 tSNE plot 클러스터링은 그래프 기반의 Leiden 알고리즘을 사용합니다. 세포 유형 예측은 전통적으로 세포 클러스터에서 진행됩니다. 이는 너무 조잡한 클러스터링 또는 클러스터링 오류로 인해 부정확한 주석처리가 발생할 수 있다는 단점이 있습니다. QIAGEN CLC Single Cell Analysis Module은 개별 세포에 주석처리가 가능한 세포 분류기를 제공합니다. 이 분류기는 QIAGEN Cell Ontology에 따라 분류된 인간과 마우스의 대규모 단일 세포 프로젝트에 의해 학습되었습니다. Figure 7. QIAGEN Cell Ontology 브라우저 - 수동 큐레이션을 수행할 때 세포 유형 선택 지원, Ontology – 사전 학습된 분류기 지원 Plot 편집기는 표현 분석 도구, 수동 주석처리 도구 및 다양한 시각화 옵션을 제공합니다. 수동 세포 유형 주석처리는 올가미 툴을 사용하여 몇 번의 클릭만으로 진행할 수 있습니다. 포괄적인 필터링 및 선택 옵션을 통해 올바른 세포를 쉽게 선택할 수 있습니다. 차등 유전자 발현은 UMAP 또는 tSNE plot 편집기를 사용하여 선택한 클러스터의 쌍 혹은 클러스터와 나머지 세포 간의 차등 유전자 표현을 다양한 표현 plot으로 나타낼 수 있습니다. (volcano plot, heatmap, dot plot 등). GO 분석에 차등 유전자 발현을 사용하여 추가적인 수동 클러스터 주석처리를 안내하는 데 도움을 줄 수 있습니다. 차등 발현 유전자 결과를 QIAGEN Ingenuity Pathway Analysis(IPA)에 업로드하여 경로 분석을 수행할 수 있습니다. Figure 8. 사전 학습된 분류기를 통해 어떤 세포 유형이 예측되었는지 확인하는 dot plot Workflows Figure 9. Expression matrix 부터 시작하는 워크플로우 예제. 워크플로우는 자동으로 세포 유형과 클러스터를 예측하여 주석처리 된 UMAP plot 생성. 이 워크플로우는 또한 highly variable genes에 대한 각각의 세포 유형과 클러스터에 대한 dot plot 및 Heatmap 생성 References: Baruzzo, G., et. al. (2017) Simulation-based comprehensive benchmarking of RNA-seq aligners. Nature methods 14, 2; DOI: https://doi.org/10.1038/nmeth.4106 10x Genomics support: https://support.10xgenomics.com/single-cell-gene-expression/datasets/3.0.0/pbmc_1k_v3 Dataset: 1.3 million brain cells from mice: https://support.10xgenomics.com/single-cell-gene-expression/datasets/1.0/1M_neurons