[릴리즈] What's New in the IPA Fall Release (2024)
조회 105
2024. 12. 05 -
What's New in the IPA Fall Release (2024)
Analysis Match Explorer 라이선스에 포함된 새로운 RNA-seq Analysis Portal
데이터 분석의 스트레스를 줄이고 유전자 발현에 대한 통찰력을 빠르게 얻으세요. FASTQ 파일에서 pathway 분석까지의 시간을 수 일이 아닌 몇 시간 내로 단축할 수 있습니다. 이 포털은 입증되고 공개된 알고리즘을 사용하여 20종의 생물을 지원합니다.
QIAGEN RNA-seq Analysis Portal은 QIAseq 및 Illumina, Thermo Fisher, NEB 등의 주요 회사에서 제공하는 QIAseq 및 기타 주요 RNA 라이브러리 키트와 호환되므로 SRA, BaseSpace 또는 보유중인 저장소에서 FASTQ 파일을 처리할 수 있습니다. 포털의 웹 인터페이스를 통해 데이터를 클라우드(AWS)에 업로드하거나 전송한 후, 데이터를 처리하고 QC를 진행하며, 이후 생물학적 해석을 위해 차등 발현 데이터를 IPA 계정으로 바로 업로드할 수 있습니다.
이 포털은 'Analysis Match Explorer' 라이선스(Analysis Match 및 Land Explorer에 접근)를 보유한 모든 사용자에게 포함되어 있습니다. 포털의 링크는 그림 1과 같이 “Process RNA-seq data”라는 문구로, IPA UI의 오른쪽 상단에서 찾을 수 있습니다.
[그림 1] RNA-seq Analysis Portal로의 링크
“Process RNA-seq data”라는 문구의 링크를 점선으로 표시된 빨간 상자로 강조하였습니다. 이 링크는 IPA에서 Analysis Match 및 Land Explorer에 액세스할 수 있는 사용자에게 제공됩니다.
이 포털은 그림 2에서 보이는 것처럼 데이터를 처리하고 확인하는 세 가지 간단한 단계를 안내합니다. BaseSpace 데이터나 SRA에서 연구를 다운로드하려는 경우, 2단계로 건너뛸 수 있습니다.
[그림 2] RNA-seq 데이터를 처리하는 세 가지 간단한 단계
1)Upload, 2) align and count, 3) create experiment을 통해 샘플의 비율을 정의하여 차등 발현 값을 생성하여 "experiment"를 만듭니다.
단계가 완료되면, 그림 3에서 보이는 것처럼 실험을 확인할 수 있습니다. IPA 용어로 각 "experiment"는 하나의 데이터셋으로 구성되며, 이는 하나의 IPA "observation"으로 간주됩니다.
[그림 3] RNA-seq portal의 “experiment view”에 대한 주석
관심 있는 종의 유전체에 샘플을 정렬하고, 샘플을 그룹(예시: treatment type)으로 할당하면 heatmap 및 volcano plot으로 차등 발현 유전자를 시각화할 수 있습니다. cutoff 값을 설정한 후, 생물학적 분석을 위해 데이터를 IPA 계정으로 전송할 수 있습니다.
포털은 또한 데이터 품질이 추가 분석에 적합한 지 확인하는 데 도움이 되는 QC 도구를 제공합니다. 이러한 도구 중 하나로, PCA plot(그림 4)은 샘플의 발현 수준이 사용자가 지정한 group label의 특징인지의 여부를 빠르게 평가할 수 있게 합니다.
[그림 4] PCA (주성분 분석)
각 샘플은 그룹으로 할당할 때 사용된 주요 속성으로 label이 지정됩니다. 이상적으로는 이 예시처럼 "genotype"에 따라 샘플이 명확하게 유전형으로 클러스터링 됩니다. PCA 결과는 샘플들이 그룹 차이에 의해 RNA 발현 수준에서 실제 차이를 보이는지 여부를 나타낼 수 있습니다. 예를 들어, 이 데이터에서 IRF1이 knockout 되었는지 확인할 수 있습니다(GSE215771로부터 유래된 데이터).
포털의 다른 QC 도구들은 genomic region별 mapping, 예를 들어 intron, exon 또는 intergenic region별, biotype별 mapping (그림 5) 또는 오염된 유기체의 taxonomic profile별 mapping(있는 경우)(그림 6)도 확인할 수 있습니다.
[그림 5] Genomic region별 RNA mapping(위) 또는 biotype별 mapping(아래).
포털은 유전체의(넓게는) 어디에서 read가 mapping 되었는지(위), protein coding region 또는 lncRNA와 같이 어떤 RNA 유형에 mapping 되었는지(아래) 설명하는 지표와 같은 QC metrics를 자동으로 제공합니다.
[그림 6] 오염된 RNA의 정량화. 샘플이 박테리아 서열로 오염된 경우, 박테리아 유형을 정량화하기 위해 이 차트가 제공됩니다.
데이터를 다른 사람들과 공유하고, "experiment"가 여러 개일 경우 차등 발현된 유전자 세트의 중복을 Venn diagram으로 만들고, 분석을 위해 IPA로 데이터를 보낼 수 있습니다. 분석을 시작하지 않고 IPA로 데이터를 보내거나, cutoff를 생성하고 포털 내에서 IPA의 Core Analysis를 시작할 수 있습니다.
새로운 RNA-seq Analysis Portal을 사용하면 RNA-seq 데이터를 매우 쉽게 처리하고 QC를 진행한 후 IPA로 보낼 수 있습니다. 전체적으로 1~2시간이 소요되지만, 사용자가 직접 포털을 사용하는 시간은 단 몇 분에 불과합니다.
개정된 ortholog clustering
IPA의 ortholog 구성에 중요한 변경점이 있었습니다.
이번 릴리즈 이전까지는 각 ortholog에 포함되는 gene의 정의가 NCBI의 HomoloGene에서 가져온 것이었습니다. 이 소스는 2014년에 업데이트가 중단되었고 NCBI Eukaryotic Genome Annotation Pipeline의 새로운 방법으로 대체되었습니다.
이제 IPA는 이 새로운 시스템을 사용하도록 업데이트 되었으며, 이로 인해 전체 IPA ortholog의 약 10%에 대한 정의가 변경되었습니다. 새로운 ortholog 정의는 이전 정의보다 우수하고 최신 정보를 반영합니다.
변경된 ortholog의 경우, 이전 분석에서는 기존 ortholog가 새로운 ortholog를 위해 "사용 중단(deprecated)" 될 것입니다.
이는 이 콘텐츠 업데이트 이전에 실행된 이전 분석에 중요한 영향을 미칩니다. 콘텐츠의 변경 사항은 이 도움말 문서에 자세히 설명되어 있습니다.
이러한 개선 사항을 활용하는 가장 간단한 방법은 관심 있는 분석을 다시 실행하는 것입니다(분석을 마우스 오른쪽 버튼으로 클릭하고 "Re-run Analysis"를 선택).
Bubble chart 개선 사항
[그림 7] Canonical Pathway bubble chart의 pathway 카테고리별 색상화.
Reactome pathway는 이제 Ingenuity Signaling 및 Metabolic Pathway와 다르게 색상이 표시됩니다.
콘텐츠 업데이트
11개의 새로운 Ingenuity signaling pathways
Cyclophilin Signaling Pathway
Glycation Signaling Pathway
Hepatitis B Chronic Liver Pathogenesis Signaling Pathway
Irritable Bowel Syndrome Signaling Pathway
Lung Ionic Balance Signaling Pathway
Mitochondrial Division Signaling Pathway
mRNA 3 Prime End Processing Signaling Pathway
NAP1L1 Transcription Regulation Signaling Pathway
Ribosomal Quality Control Signaling Pathway
Sheddase Signaling Pathway
TRIM21 Intracellular Antibody Signaling Pathway
54개의 새로운 Reactome pathways
Cardiogenesis
Cellular response to mitochondrial stress
Chromatin modifications during the maternal to zygotic transition (MZT)
Chromatin organization
Citric acid cycle (TCA cycle)
Complex I biogenesis
Complex III assembly
Complex IV assembly
Formation of ATP by chemiosmotic coupling
Formation of intermediate mesoderm
Formation of the anterior neural plate
Formation of the nephric duct
Formation of the posterior neural plate
Formation of the ureteric bud
Inositol phosphate metabolism
Interconversion of 2-oxoglutarate and 2-hydroxyglutarate
Lysosomal oligosaccharide catabolism
Malate-aspartate shuttle
Maturation of TCA enzymes and regulation of TCA cycle
M-decay: degradation of maternal mRNAs by maternally stored factors
MITF-M-dependent gene expression
Mitochondrial protein degradation
Mitochondrial RNA degradation
Mitochondrial Uncoupling
Nephron development
NFE2L2 regulating ER-stress associated genes
NFE2L2 regulating inflammation associated genes
NFE2L2 regulating MDR associated enzymes
NFE2L2 regulating tumorigenic genes
Nucleotide biosynthesis
Paracetamol ADME
PKR-mediated signaling
Post-translational modification: synthesis of GPI-anchored proteins
Protein lipoylation
Protein repair
Pyruvate metabolism
Regulation of CDH11 Expression and Function
Regulation of CDH19 Expression and Function
Regulation of endogenous retroelements
Replacement of protamines by nucleosomes in the male pronucleus
Respiratory electron transport
Ribavirin ADME
rRNA modification in the nucleus and cytosol
Sialic acid metabolism
Signaling by LTK
Signaling by TGFBR3
SLC15A4:TASL-dependent IRF5 activation
Somitogenesis
Specification of primordial germ cells
Specification of the neural plate border
Transcriptional and post-translational regulation of MITF-M expression and activity
Transcriptional regulation of brown and beige adipocyte differentiation
Z-decay: degradation of maternal mRNAs by zygotically expressed factors
Zygotic genome activation (ZGA)
새로운 GWAS 발견
NHGRI-EBI Catalog의 인간 전장 유전체 연관 분석 연구로부터 얻은 60,000개 이상의 연구 결과가 IPA에 도입되었습니다. 유전자에 할당할 수 있는 모든 관계(intergenic region의 변이와 대조적으로)는 이제 IPA의 기존 소스인 "An Open Access Database of Genome-wide Association Results"에서 사용할 수 있습니다.
이전에 포함되어 있던 2009년의 약 2,000개의 연구 결과는 현재 프로토콜에 따라 큐레이션 되지 않았기 때문에 제거되었습니다.
그림 8은 이러한 GWAS 결과 중 일부를 사용하여 구축된 IPA의 작은 네트워크의 예시를 보여줍니다.
[그림 8] IPA의 새로운 GWAS 관계 예시.
p-value가 1e-05 이하인 association만 가져왔습니다. 특정 결과에 대한 p-value는 향후 IPA 릴리즈에서 표시될 예정입니다.
머신 러닝 disease pathway 업데이트
ML disease pathways는 경로는 최적화, 새로운 콘텐츠, 새로운 ortholog 정의로 다시 계산되었습니다.
새로운 발견들 요약
290,000개 이상의 새로운 발견:
약 141,600개의 전문가 발견 (문헌 큐레이션에서 발견)
약 60,000개의 NHGRI-EBI Catalog에서 발견한 인간 전장 유전체 연관 분석(GWAS) 결과
약 41,000개의 BioGrid에서 발견한 단백질-단백질 상호작용
약 30,000개의 COSMIC에서 발견한 유전자-질병 관계
약 19,400개의 ClinVar에서 발견한 암 변이
약 11,200개의 IntAct에서 발견한 단백질-단백질 상호작용
약 3,400개의 Online Inheritance in Man (OMIM)에서 발견한 유전자-질병 관계
약 3,000개의 ClinicalTrials.gov에서 발견한 타겟-질병 관계
약 2,000개의 ClinicalTrials.gov에서 발견한 약물-질병 관계
약 1,600개의 Gene Ontology 발견
약 168개의 Clinical Genome Resource (ClinGen)에서의 발견
약 200개의 새롭게 맵핑 가능한 chemicals