이번 릴리즈에 대한 간략한 개요
OmicSoft 팀은 향후 릴리즈를 위해 큐레이팅 할 새로운 OncoLand 및 DiseaseLand 표현 프로젝트에 대한 요청을 권유하고 있습니다. 이는 구독의 일부에 포함됩니다.
어떤 중요한 데이터세트를 큐레이팅하여 Land에 포함시키고 싶은지 알려주세요. 인간, 마우스, 랫에 대한 공개된 발현 연구(GEO, SRA 또는 Array Express)를 평가할 것입니다. 단일 세포 전사체 프로젝트, bulk RNA-seq 프로젝트 및 Affymetrix, Illumina 및 Agilent의 상용 발현 array가 호환 가능한 플랫폼입니다. 자세한 내용은 omicsoft.support@qiagen.com으로 이메일을 보내주세요.
또한 2022년 말부터 큐레이션을 위해 proteomics 데이터세트도 평가하고 있습니다.
최신의 가장 포괄적으로 선별된 데이터를 찾을 수 있는 최근 버전(“B38_GC33”)을 사용하는 것이 좋습니다.
B38_GC33이 있는 Land로는 OncoHuman, HumanDisease, GTEx, Blueprint, CCLE, ENCODE_RNAbinding, TCGA, TARGET, TRACERx, METABRIC, CellLines and BeatAML, 그리고 최근 버전의 Single Cell Lands가 포함됩니다.
OmicSoft Server 관리자에게 연락하여 최신 Land 데이터베이스를 다운로드 받을 수 있게 하세요. 이 비디오는 OmicSoft Server 관리자가 수행할 작업에 대한 간단한 설명을 제공합니다.
만약 현재 구독권이 OmicSoft Land “text dump” flat-file 내보내기에 접근할 권한을 포함하고 있다면, 당신은 일련의 인덱싱 된 탭으로 구분된 table 형식이나 MyQDI web 인터페이스를 통해 최신 데이터를 요청할 수 있습니다.
이러한 파일은 더 큰 탐색적 메타 분석 및 ML 연구에 적합합니다. Flat file을 통해 최신 데이터에 액세스하려면 OmicSoft 계정 관리자에게 링크를 요청하세요.
QIAGEN의 전문 현장 응용 과학자들은 OmicSoft Lands 데이터의 초보 및 고급 사용자를 위한 온라인 교육을 정기적으로 개최하여, 리소스를 사용하여 과학적 질문에 답하는 방법을 보여줍니다.
예정된 웨비나와 이전 웨비나의 녹화물을 여기서 확인해주세요. :
https://digitalinsights.qiagen.com/webinars-and-events/
OmicSoft Lands는 이제 새롭고 강력한 Python 및 R API로 검색이 가능합니다. 이는 SQL의 구문 기능을 활용하여 모든 데이터베이스에서 원활하게 검색하여 관심있는 데이터를 정확히 찾을 수 있는 기능입니다. 블로그 포스트를 통해 조금 더 알아보세요.
[그림 1] 새로운 OmicSoft Lands API의 개략도. Python 또는 R API 클라이언트는 SQL 쿼리를 OmicSoft Lands API 쿼리 엔진에 제출하며, 이 쿼리 엔진은 Lands 컬렉션의 모든 큐레이션 된 데이터를 검색합니다. 일치하는 데이터세트는 분석을 위해 클라이언트 환경으로 빠르게 반환됩니다.
[그림 2] DiseaseCategory로 그룹핑된 OncoHuman_B38_GC33의 새로운 샘플들
이번 릴리즈에서는 95개의 데이터세트로부터 6,926개의 샘플과 432개의 비교가 추가되었습니다. 또한 이번 릴리즈에서는 Hematology_B37 Land의 67개 데이터세트로부터 3,316개의 샘플과 584개의 비교가 통합되어 현재 큐레이션 수준에 맞게 수정 및 조정되어 OncoHuman에 통합되었습니다.
[그림 3] Primary colorectal cancer(원발성 대장암)과 한 쌍의 peritoneal metastases(복막 암종증) 사이에서 차등적으로 발현된 상위 109개 유전자의 RNA-seq 발현 heatmap. OncoSampleType(전이 vs 원발성 종양) 및 SubjectID로 그룹화하여 그룹 간의 일관된 차등 발현을 확인했고, 이는 하단의 색상 막대로 표시되고 있습니다.
이번 BeatAML 연구 업데이트는 Bottomly et al., 2022에 발표된 유전체 및 약물 반응 데이터와 Gosline et al., 2022에 발표된 단백체 데이터를 통합하여 AML 및 관련 암을 연구하는 사람들을 위한 데이터의 유용성을 높였습니다.
CCLE_B38_GC33은 28개의 새로운 세포주를 포함하여 DepMap 2022Q2의 업데이트를 포함하도록 업데이트 되었으며 새로운 메타데이터 사전을 사용할 수 있습니다: https://resources.omicsoft.com/downloads/land/CCLE/CCLE_B38_GC33_DataDictionary.xlsx
새로운 메타데이터 열은 다음 매개변수를 설명합니다:
이번 릴리즈에 추가된 OmicSoft CV열: CellLine, CellType, AgeCategory, GeneDependency[XPR1][PMID: 35437317], PairingType, PairingStatus, AgeSummary, SampleMaterial, SampleType, Molecule
이번 릴리즈에는 CellLine_GSK_B37, CellLine_NCI_B37 및 CellLine_Pfizer_B37을 새로운 메타데이터 및 최신 표준과 결합하고 업데이트하는 새로운 Land인 CellLine_B38_GC33이 포함되어 있습니다. 이 데이터를 CCLE_B38_GC33의 보완 자료로 사용하여 거의 2,000개의 세포주에 대한 오믹스 및 메타데이터 정보를 탐색합니다.
[그림 4] CellLine Land인 CellLine_B38_GC33에서 사용 가능한 세포주. CellLine Land는 3가지로 프로파일링 프로젝트(GSK, NCI 및 Pfizer)의 멀티오믹스 데이터를 Y축에 그룹화하고 선별된 조직학 메타데이터 열에 따라 색상을 지정하여 결합합니다.
유방암 분자 분류 국제 컨소시엄(METABRIC, Molecular Taxonomy of Breast Cancer International Consortium) 시험 데이터가 Human Genome 38과 Gencode.V33에서 재분석 및 재큐레이션 되었습니다. 이는 4,128개의 샘플과 큐레이팅 된 메타데이터, CNV(1,992개의 샘플) 및 microarray Expression Intensity Probes(2,136개의 샘플)을 포함합니다.
[그림 5] GeneticSubtype으로 그룹화되고, OncoSample에 따라 색상이 지정된 METABRIC 샘플 분포.
[그림 6] DiseaseCategory로 그룹화된 HumanDisease, MouseDisease 및 RatDisease(대조군 제외) 에 추가된 새로운 샘플의 분포.
이번 HumanDisease 릴리즈에서는 75개의 데이터세트로부터 3,064개의 샘플과 541개의 비교가 추가되었습니다.
이번 MouseDisease 업데이트에서는 62개의 데이터세트로부터 1,499개의 샘플과 564개의 비교가 추가되었습니다.
이 RatDisease 업데이트에서는 20개의 데이터세트로부터 492개의 샘플과 202개의 비교가 추가되었습니다.
이번 Single Cell Lands 릴리즈에서는 HumanUmi_B38_GC33과 4,294개의 비교가 포함된 77개의 새로운 프로젝트와 MouseUmi_B38_GC33과 664개의 새로운 비교가 포함된 18개의 새로운 프로젝트가 추가되었습니다.
또한, HumanUmiLite_B38_GC33 및 MouseUmiLite_B38_GC33의 모든 데이터는 이제 HumanUmi_B38_GC33 및 MouseUmi_B38_GC24 내에 있습니다. 따라서 “Lite” Lands를 안전하게 삭제할 수 있습니다. 이번 릴리즈의 새로운 큐레이션된 “세포 유형”의 비교는 컴퓨터로 식별된 클러스터 간의 비교를 보완하여 서로 다른 세포 유형 간의 차이점을 보여줍니다.
예를 들어, CellMap-차원 축소 분석에서 Schwann cell과 다른 세포 유형간의 비교를 찾을 수 있습니다. 각 비교에서는 CellMap에서 “Schwann cell”로 큐레이션된 모든 클러스터를 함께 그룹화하여 CellMap의 다른 모든 세포와 비교했습니다. 이 분석을 통해 ERBB3과 같이 Schwann cell에서 특히 상향 또는 하향 조절되는 유전자를 발견할 수 있습니다. Percentage Cells Expressing 및 Gene Expression Overlay View와 같은 다른 시각화에서는 여러 프로젝트의 증거가 이를 뒷받침한다는 것을 확인할 수 있습니다.
[그림 7] Schwann cell과 다른 세포 간에 사전 계산된 비교 결과를 검색한 후, 상향 조절되는 유전자 중 상위를 Significant Genes 표로 시각화하여, ERBB3, CADM3, CD9 등의 유전자를 밝혀냈습니다.
[그림 8] ClusterCellType과 ProjectName으로 세포를 그룹화 한 Percentage Expressing Cells plot에서 볼 수 있듯이, Schwann cell이 포함된 일부 데이터세트에서 ERBB3 발현을 검색하면 연구 전반에 걸쳐 일관되게 높은 발현을 확인할 수 있습니다.
[그림 9] Gene Expression Overlay plot은 큐레이팅 된 Schwann Cell(하단 패널)과 함께 여러 CellMaps(상단 패널)에서 ERBB3의 상향 조절을 보여줍니다. 파란색 화살표는 큐레이팅된 Schwann cell을 나타내며, 이는 새로운 Cell Type vs Others 비교의 CellMap에서 다른 모든 세포와 비교되었습니다.
Project.StudyRevision은 새로운 메타데이터 열으로, 데이터세트의 OmicSoft 표현과 원본 데이터세트(즉, source에서 발견됨)간의 중요한 차이점을 포착합니다.
이러한 중요한 차이점에는 OS 파이프라인을 통한 데이터 재처리, 통제된 어휘 사용으로 인한 메타데이터 형식 지정 또는 큐레이션 방법 적용과 같은 표준 변환을 포함하지 않습니다.
예를 들어, 이 열은 큐레이터가 메타데이터 불일치를 명확히 하기 위해 작성자에게 연락한 후, 데이터세트에 대한 작성자의 추가 입력으로 인해 발생한 변경 사항을 포착하는 데 사용됩니다.
저자 입력을 추가하여 land화 된 메타데이터가 변경될 때 마다 Project.StudyRevision에는 “Authers Contacted” 내용이 포함되며, Project.Comments는 동일한 문자열(“Authers Contacted”)과 함께 저자로부터 받은 정보에 따라 수정된 내용에 대한 간단한 설명으로 끝납니다.
CCLE_B38_GC33 2022R4에 대한 DiseaseState 큐레이션은 CCLE 용어와의 일관성을 유지하기 위해 OmicSoft ontology에 정의된 세포주 설명을 사용하는 대신 CCLE source(저장소 및 논문)을 사용합니다.