QIAGEN CLC Single Cell Analysis Module은 raw FASTQ 파일로부터 주석처리된 세포 유형과 차등 발현 유전자를 확인할 수 있는 세포 클러스터까지 분석을 가능하게 합니다. 이 모듈은 오믹스 데이터 분석을 위한 QIAGEN CLC Genomics Premium 패키지의 일부입니다.

분석에 사용되는 알고리즘은 대규모 데이터셋으로 확장되고 광범위한 하드웨어에서 실행되도록 구현되었습니다. 구현된 알고리즘 및 옵션에 대한 자세한 내용은 메뉴얼을 참조해주세요.

 

Feature 1. Single Cell 폴더. FASTQ에서 발현 및 세포 유형 예측까지, scRNA-seq 데이터 분석을 위한 툴 포함

 

또한 다양한 expression matrix 형식과 함께 세포 및 클러스터의 주석처리에 대한 여러 가져오기 도구를 제공합니다.

Figure 2. QIAGEN CLC Single Cell Analysis Module에서 사용 가능한 expression matrix 가져오기 툴

 

 

Expression matrix 생성

Expression matrix를 생성하려면 두 단계가 필요합니다.
1) 세포 및 UMI 정보로 주석처리
2) Read mapping

Read mapping 과 counting에서는 QIAGEN CLC Genomics Workbench의 RNA-seq 분석 툴의 특화된 버전을 사용합니다. 과거 논문에서 독립적인 성능 평가를 수행했을 때, 해당 툴의 이전 버전은 최고의 성능을 발휘했습니다(Baruzzo et al., 2017).

이 접근 방식은 전사체, 유전체에 read mapping을 진행하고 Spike-in들을 제공하며, 전사체와 유전체에 mapping할 때 노이즈를 제거합니다. Multi-mapping read 들은 기대값-최대화 방식을 통해 배치됩니다. 포괄적인 보고서에는 데이터의 특징 유형(mRNA, lncRNA 등)과 알려진 spike-ins 농도, 발현의 상관 관계가 포함됩니다.

 

 

발현 분석

분석의 첫 번째 단계는 QC와 정규화를 포함합니다.

비어 있는 droplet 탐지는 10x Genomics와 같은droplet 방식에 추천됩니다.

Quality Control(QC) 단계는 하위 분석에서 허용할 세포를 고려하기 위해 다양한 기준에 대한 임계값을 설정할 수 있습니다. 몇몇 plot은 다음과 같습니다.

 

Figure 3. QC 보고서 중 일부 plot

 

 

정규화 한 데이터는 모든 하위 분석에 영향을 미칩니다. 이 구현은 배치 효과를 제거하는데 적합합니다.

Figure 4. 배치 교정: 두 샘플 각각에 대해 여러 클러스터가 관찰됩니다. 배치 교정 후에는 클러스터에 두 샘플이 혼합되어 있습니다.

 

UMAP 및 tSNE는 단일 세포 발현 데이터를 시각화하기 위한 사실상의 표준입니다. 인터랙티브 2D 및 3D 시각화는 클러스터 정보, 세포 주석처리 및 유전자 발현 정보를 중첩시킬 수 있습니다.

Figure 5. 세포 유형으로 색을 입힌 1000PBMCs (2) 단일 세포 데이터의 UMAP plot

Figure 6. 신경 줄기 세포의 마커 유전자로 색이 교차된 백만 개 이상의 뉴런에 대한 tSNE plot

 

클러스터링은 그래프 기반의 Leiden 알고리즘을 사용합니다.

세포 유형 예측은 전통적으로 세포 클러스터에서 진행됩니다. 이는 너무 조잡한 클러스터링 또는 클러스터링 오류로 인해 부정확한 주석처리가 발생할 수 있다는 단점이 있습니다. QIAGEN CLC Single Cell Analysis Module은 개별 세포에 주석처리가 가능한 세포 분류기를 제공합니다. 이 분류기는 QIAGEN Cell Ontology에 따라 분류된 인간과 마우스의 대규모 단일 세포 프로젝트에 의해 학습되었습니다.

Figure 7. QIAGEN Cell Ontology 브라우저 - 수동 큐레이션을 수행할 때 세포 유형 선택 지원, Ontology – 사전 학습된 분류기 지원

 

Plot 편집기는 표현 분석 도구, 수동 주석처리 도구 및 다양한 시각화 옵션을 제공합니다.

수동 세포 유형 주석처리는 올가미 툴을 사용하여 몇 번의 클릭만으로 진행할 수 있습니다. 포괄적인 필터링 및 선택 옵션을 통해 올바른 세포를 쉽게 선택할 수 있습니다.

차등 유전자 발현은 UMAP 또는 tSNE plot 편집기를 사용하여 선택한 클러스터의 쌍 혹은 클러스터와 나머지 세포 간의 차등 유전자 표현을 다양한 표현 plot으로 나타낼 수 있습니다. (volcano plot, heatmap, dot plot 등). GO 분석에 차등 유전자 발현을 사용하여 추가적인 수동 클러스터 주석처리를 안내하는 데 도움을 줄 수 있습니다. 차등 발현 유전자 결과를 QIAGEN Ingenuity Pathway Analysis(IPA)에 업로드하여 경로 분석을 수행할 수 있습니다.

Figure 8. 사전 학습된 분류기를 통해 어떤 세포 유형이 예측되었는지 확인하는 dot plot

 

 

Workflows

Figure 9. Expression matrix 부터 시작하는 워크플로우 예제. 워크플로우는 자동으로 세포 유형과 클러스터를 예측하여 주석처리 된 UMAP plot 생성. 이 워크플로우는 또한 highly variable genes에 대한 각각의 세포 유형과 클러스터에 대한 dot plot 및 Heatmap 생성

 

References:

  1. Baruzzo, G., et. al. (2017) Simulation-based comprehensive benchmarking of RNA-seq aligners. Nature methods 14, 2; DOI: https://doi.org/10.1038/nmeth.4106
  2. 10x Genomics support: https://support.10xgenomics.com/single-cell-gene-expression/datasets/3.0.0/pbmc_1k_v3
  3. Dataset: 1.3 million brain cells from mice: https://support.10xgenomics.com/single-cell-gene-expression/datasets/1.0/1M_neurons