CLC Genomics Workbench Latest release
CLC Genomics Workbench 24.0이 출시 되었습니다.
Long Read Support Plug in 24.0 New features and improvements
- New tool: Structural Variant Caller for Long Reads
- Sniffles2 v2.2 기반의 Long Reads 데이터를 위한 Structural Variant Caller 길이가 35 bp 이상인 구조적 변이를 감지할 수 있습니다.
- De Novo Assemble Long Reads improvements:
- 10,000 bp보다 짧은 contigs의 Assembly를 지원합니다.
- De Novo Assemble Long Reads 도구가 업데이트되어 PacBio HiFi Read 까지 활용이 가능합니다.
- PacBio HiFi Read 는 Correct Long Reads 도구에서는 현재까지는 사용이 불가합니다.
- Map Long Reads to Reference / RNA-Seq Analysis for Long Reads:
- Read alignment 옵션(Automatic / Manual)이 추가되었으며 Automatic을 선택한다면 input된 reads의 적합하게 값이 설정됩니다. 이 옵션은 PacBio HiFi 데이터의 Mapping 과정을 개선시킵니다.
- Other improvements:
- Long read Assembly 도구의 기반이 되는 Minimap2의 버전이 v2.26으로 업그레이드됨에 따라, Map Long Reads to Reference, Correct Long Reads 및 RNA-Seq Analysis for Long Reads에서 생성되는 Output의 사소한 부분이 개선되었습니다.
Report Content
- 품질이 낮은 샘플에 대한 개요를 제공합니다.
- Trim Reads와 QC 작업에 대한 세부 내용을 포함하는 추가 섹션을 제공합니다.
- Homology Based Cloning 도구의 보고서를 지원하며, 레이아웃이 개선되었습니다.
Configuration
- Contents customizing 가능합니다.
- Traffic light colors를 사용하여 평가 기준을 할당할 수 있습니다. Combine Reports 도구에서는 이 방법을 활용하여 샘플 품질을 빠르게 평가합니다.
- Create Sample Report tool에서는 Sequencing Reads, Read Mapping, Targeted Sequencing 및 RNA-seq Analysis에 의해 생성된 보고서에 대한 추가 QC 요약 항목을 지원합니다.
- Modify Report Type은 보고서 유형을 변경하는 도구로, 해당 보고서의 내용에 영향을 줍니다.
- Sample report에서 사용할 샘플 이름을 설정할 수 있습니다.
Changes
- Create Sample Report 및 Combine Reports에서 지원되지 않는 보고서가 input 될 경우 실패할 수 있습니다.
- Sample report 및 Combine Reports 내에서의 이름 변경:
- Methylation Levels -> Call Methylation Levels
- Duplicated Mapped Reads -> Remove Duplicate Mapped Reads
- Variants -> Create Variant Track Statistics Report
- QC Summary -> Quality Control(Combine Report만 해당)
Workflow
- QIAseq Panel Analysis Assistant는 QIAseq Panels 등을 통한 데이터를 분석하기 위한 workflow에 접근하고, reference 데이터 다운로드 및 workflow의 customized 복사본 생성과 같은 기능을 제공합니다.
- 두 개의 새로운 Control Flow element가 추가되었습니다:
- Branch on Sequence Count: 해당 목록의 Sequence 수에 따라 Sequence 목록의 downstream processing을 제어하는 데 사용됩니다.
- Branch on Sample Quality: 샘플 보고서에서 제공되는 Quality Criteria를 기반으로 어떤 데이터 요소의 downstream processing을 제어하는 데 사용됩니다.
- workflow build ID는 설치된 workflow를 사용하여 생성된 데이터 element에 대한 History View의 workflow details section에 포함되어 있습니다. 이전에는 workflow 이름과 버전만 표시되었습니다.
- element 간 연결의 source 또는 destination에서 workflow element로 이동하는 옵션이 추가되었습니다.
Import and export
New import and export functionality
- Element Bio는 Element Biosciences에서 생성된 fastq 파일을 가져옵니다.
- PacBio Onso는 PacBio Onso에서 생성된 fastq 파일을 가져옵니다.
- Singular는 Singular Genomics에서 생성된 fastq 파일을 가져옵니다.
- Ultima는 Ultima Genomics에서 생성된 CRAM 파일을 가져옵니다.
- SAM/BAM/CRAM Mapping Files에는 CRAM 가져오기 기능이 있습니다.
- Read Mappings는 CRAM 형식으로 내보낼 수 있습니다.
- Public AWS S3 buckets의 데이터에 접근할 수 있습니다.
Other import and export improvements
- 모든 fastq 파일의 importers는 이제 UMI(Unique Molecular Identifier) 정보가 read 헤더에서 감지되면 시퀀스에 UMI를 주석으로 추가합니다.
- Illumina Importer는 20억 개 이상의 read를 포함하는 fastq 형식 파일을 지원하며, 이러한 파일은 여러 개의 작은 sequence 목록으로 가져옵니다.
- MGI/BGI Importer는 paired reads를 가져올 때 파일을 매핑하는 유연성이 높아졌으며 joining lanes를 지원합니다.
- SAM 및 BAM 파일은 AWS S3 bucket에서 import 할 수 있습니다.
- Drag-and-drop은 import tool에서 파일을 선택하는 데 사용할 수 있습니다.
- VCF로 heterozygous Insertion 또는 deletion을 symbolic alleles로 내보낼 때, Export VCF는 reference allele에 대한 non-symbolic VCF line을 생성하지 않습니다.
- CLC 형식이 아닌 파일은 Navigation area에서 "Save-To-Disk" 옵션을 이용하거나, 우클릭 메뉴에서 사용할 수 있는 "Drag-and-drop"을 통해 직접 디스크에 저장할 수 있습니다.
- CLC 형식이 아닌 파일이 CLC 파일 위치에 있을 때, 해당 파일은 Navigation area에서 프로그램 아이콘 또는 유사한 도구 모음에서 프로그램 아이콘으로 드래그하여 해당 프로그램에서 열 수 있습니다.
Usability
- "Save View"는 이제 Side Panels 하단에 있는 "View Settings" 메뉴로 대체되었습니다.
- Navigation Area, Toolbox 탭 및 Favorites 탭의 글꼴 크기를 증가 또는 감소시킬 수 있습니다.
- Navigation Area에서 track element를 선택하고 해당 요소를 Track view에서 열린 호환 가능한 reference 유전체를 기반으로 Track을 끌어오면 새로운 Track List가 생성됩니다.
- Reference Data Manager에서 검색 기능을 사용할 수 있습니다.
Table related
- Column order는 이제 Side Panel에서 해당 열 이름을 위 또는 아래로 이동하여 조절할 수 있습니다.
- 테이블 유형의 열 순서는 View Setting으로 저장하고 적용할 수 있습니다.
- 테이블을 필터링하는 데 사용된 세트는 Filter Sets로 저장할 수 있습니다.
- 내용이 없는 항목을 Excel 형식(.xlsx, .xls)으로 내보낼 때, 생성된 시트에는 Column header가 포함됩니다.
BLAST
- NCBI의 BLAST의 데이터베이스 목록이 확장되었으며, 'Eukaroyta nt (nt_euk)', 'Prokaryota (bacteria and archaea) nt (nt_prok)', 'Viruses nt (nt_viruses)'가 추가되었습니다.
- BLAST 데이터베이스 위치 및 경로 설정 시, 폴더 이름에 공백 포함 가능합니다.
Reference data related
- "Download Genomes"에서, (Homo sapiens) hg19 및 hg38의 dbSNP는 버전 151에서 156으로 업데이트 되었습니다.
- Under the QIAGEN Sets tab에 아래의 data가 추가되었습니다.
- refseq_GRCh38.p14_no_alt_analysis_set
- Clinvar을 위한 20231112_hg38_no_alt_analysis_set Version
- Gene Ontology를 위한 20231009_hg38_no_alt_analysis_set Version
- dbsnp_common_v151_ucsc_hg38_no_alt_analysis_set.
- dbsnp_common_v151_ucsc_hg19 Version
- Multimodal reference data set에 포함된 RNA trim 어댑터 목록이 업데이트 되었습니다.
Other new features and improvements
- 사용자 정의 색상 및 그라데이션을 정의할 수 있습니다. 이는 그라데이션의 유형과 경계의 수, 그리고 해당 경계에서 사용할 색상을 지정할 수 있는 기능을 포함합니다.
- 통계 비교 테이블 및 트랙의 Volcano plot view에서는 p-값과 fold 변화에 따라 특징의 색상을 결정하여 도표를 생성하는 데 지원합니다.
- Extract Reads, Create Reads Track from Selection 및 Extract from Selection을 사용하여 Mapping 데이터에서 방향에 따라 reads를 추출할 수 있습니다.
- Extract 기준에 맞는 한 쌍의 reads 중 하나만 일치할 때 Mapping 데이터에서 끊어진 쌍으로 reads를 추출할 수 있습니다. 이는 Extract Reads 및 Create Reads Track from Selection에서 사용 가능한 옵션과 일치하도록 이 도구의 옵션을 업데이트했습니다.
- Filter on Custom Criteria의 wizard layout과 옵션이 개선되었습니다.
- Filter on Custom Criteria에서 구성된 filter criteria의 future run에서 재사용될 수 있습니다.
- Annotate with Nearby information은 annotation을 위해 어떤 트랙이든 사용할 수 있습니다.
- "Detect with novel exon boundaries" 옵션이 활성화되고 reference sequence에 수천 개의 염색체가 포함되어 있는 경우 Detect and Refine Fusion Genes에서 상당한 속도 향상이 있습니다.
- Variant 트랙에서 조합된 deletion 및 SNV로 구성된 replacement의 SNV가 오른쪽에 정렬되고 deletion이 왼쪽에 정렬되도록 표시됩니다. 이전에는 변이 트랙에서 이러한 replacement의 SNV가 왼쪽에 정렬되고 deletion이 오른쪽에 정렬되도록 표시되었습니다.
- Homology Based Cloning의 ouput명에는 각 서열의 이름이 포함됩니다.
- Amino Acid Changes에 의해 생성된 Amino Acid track의 아미노산 배치가 개선되었습니다.
- Oxford Nanopore 또는 PacBio long reads를 포함하는 Mapping 데이터가 Fixed Ploidy Variant Detection, Low Frequency Variant Detection 또는 Basic Variant Detection에 input 될 때 경고가 표시됩니다.
- Long reads (>10kbp)를 포함하는 Read mapping track이 더 반응적이고 빨리 로드됩니다.
- 대량의 염색체를 reference로 사용하는 경우 (예: 수십만 개), Convert to Tracks, Create Mapping Graph, Identify Graph Threshold Areas와 같은 tool에서 속도가 개선되었습니다.
- Combine Reports의 이상치 계산이 반올림에 둔감하도록 개선되었습니다.
- 큰 보고서의 호환성이 증가하였습니다.
- CLC Server에 연결된 경우, CLC Server File System Locations의 하위 폴더가 액세스 권한에 따라 Workbench Navigation area에 정렬됩니다.
- 외부 응용 프로그램을 사용하여 생성된 element의 history에는 사용된 외부 응용 프로그램의 버전이 포함됩니다.
- CLC File Locations는 Viewing Mode에서 Workbench를 실행 중일 때 제거 및 다시 re-index 할 수 있습니다.
- Navigation Area의 drag-drop 작업 중에 오류 대화 상자가 표시되는 드문 문제가 수정되었습니다.
- New policy property: 'run_on_workbench_when_server_is_available'이 추가되었습니다. 'deny'로 설정하면 CLC Genomics Workbench가 CLC Genomics Server에 연결된 상태에서 로컬에서 실행되지 않습니다.
- 기타 여러 개선 사항이 있습니다.
Bug fixes
- 'Annotate with Repeat and Homopolymer Information'이 염색체 끝에서 두 번째 위치에 있는 변이를 주석으로 처리하는 데 실패하는 문제를 수정했습니다.
- 'Annotate with Repeat and Homopolymer Information'이 homopolymer나 repeat이 Circular Reference Sequence의 원점을 통과할 때 변이를 주석으로 처리하지 않는 문제를 수정했습니다.
- 'QC for Targeted Sequencing' 보고서의 "Target Region Low Coverage" 섹션에서 Coverage가 임계값과 동일하거나 임계값보다 큰 위치도 포함됩니다.
- 'Fixed Ploidy Variant Detection' 및 'Low Frequency Variant Detection'이 특정 상황에서 heterozygous로 할당해야 하는 변이를 실수로 homozygous으로 할당하는 문제가 수정되었습니다.
- "SAM 또는 BAM 매핑 파일을 가져올 때 이름에 * 및/또는 =이 포함된 reference가 건너뛰어지던 문제가 수정되었습니다.
- MGI/BGI Importer에서 "Create subfolders per batch unit" 옵션을 확인해도 효과가 없는 문제가 수정되었습니다.
- VCF export 시 PASS로 주석이 달려있지 않은 fusion track을 export 할 때 실패하는 문제가 수정되었습니다.
- Insertion 부분의 양 끝이 정렬되지 않은 paired reads가 Side Panel 뷰 설정에서 strand를 표시하는 옵션을 선택한 후에도 forward 및 reverse reads에 대해 서로 다른 색상으로 표시되지 않던 문제가 수정되었습니다.
- PDF 형식으로 내보낸 보고서의 plot의 축 scale 범위가 때때로 CLC Workbench에서 해당 plot을 보는 범위와 다른 문제가 수정되었습니다.
- Combined Report에서 box plot을 export PDF 할 때 보고서에 포함되지 않던 문제가 수정되었습니다.
- PDF 형식으로 보고서를 export 할 때 무한한 값이 plot에 포함되는 문제가 수정되었습니다.
- Iterate 요소를 포함하는 workflow를 시작할 때 메타데이터가 불완전하게(예: 열 이름 누락) 제공될 경우 fail 대신 분석이 멈추는 현상을 개선하였습니다.
- Local Search 결과를 크기별로 정렬할 때 이전에 알파벳 순으로 정렬했던 것을 숫자 순서로 정렬되도록 수정되었습니다.
- Download BLAST Databases에서 일부 설명이 launch wizard에서 보이지 않던 문제가 수정되었습니다.
- Illumina 및 MGI/BGI Importers에서 제공된 모든 리드 파일이 zip으로 압축된 경우 "paired reads" 옵션이 비활성화되던 문제가 수정되었습니다.
- Workflow Manager에서 여러 workflow installer 파일(.cpw)을 동시에 선택할 수 있었던 문제가 수정되었습니다.
- "Reference Data Manager"의 "QIAGEN Sets" 탭에서 이미 제거된 데이터가 다운로드할 수 없음에도 불구하고 목록에 표시되는 문제가 수정되었습니다.
- 기타 여러 버그가 수정되었습니다.
Changes
- 아래와 같은 Tool 이름이 더 명확하게 업데이트 되었습니다:
- "SAM/BAM Mapping Files"는 이제 "SAM/BAM/CRAM Mapping Files"로 명칭이 변경되었습니다.
- "PacBio Importer"는 이제 "PacBio Long Reads"로 명칭이 변경되었습니다.
- "Annotate with Nearby Gene Information"는 "Annotate with Nearby Information"으로 명칭이 변경되었습니다.
- Toolbox에서 다음과 같은 Tool들이 이동되었습니다.:
- 이전에는 "Quality Control" 하위에 있던 "Create Sample Report"는 이제 "Utility Tools | Reports" 하위에 있습니다.
- 이전에는 "Quality Control" 하위에 있던 "Combine Reports"는 이제 "Utility Tools | Reports" 하위에 있습니다.
- 이전에는 "Epigenomics Analysis" 하위에 있던 "Annotate with Nearby Information"은 이제 "Utility Tools | Annotate and Filter" 하위에 있습니다.
- "De Novo Assembly"는 이제 PacBio 및 PacBio HIFI등 long reads 를 더 이상 지원하지 않습니다. Long read의 De Novo Assembly가 필요한 경우 "Long Read Support" 플러그인에서 제공하는 도구를 사용해야 합니다.
- "Map Reads to Reference"는 이제 PacBio 리드를 Mapping할 때 특화된 Mapping 알고리즘을 더 이상 사용하지 않습니다. 이 데이터 유형에 대해서는 "Long Read Support" 플러그인에서 제공하는 "Map Long Reads to Reference"를 사용하는 것을 권장합니다.
- SRA(Sequence Read Archive) blast 데이터베이스는 이제 NCBI에서 제공하는 BLAST에서 사용할 수 없습니다. NCBI는 더 이상 해당 데이터베이스에 대한 BLAST를 API를 통해 지원하지 않기 때문입니다.
- BLAST가 BLAST+ 2.14.0으로 업그레이드. BLAST+의 변경 사항은 http://www.ncbi.nlm.nih.gov/books/NBK131777.에서 확인할 수 있습니다.
- SRA Toolkit이 3.0.2 버전으로 업데이트 되었습니다.
- CLC Genomics Workbench 24.0에 번들로 제공된 Java 버전은 Azul OpenJDK 빌드의 Java 17.0.8.1을 사용합니다.
- Intel 및 ARM 기반 Mac 시스템을 위한 전용 설치 프로그램이 제공됩니다.
Functionality retirement
- RNA-Seq Analysis에서 "Minimum read count fusion gene table" 및 "Create fusion gene table" 옵션이 제거되었습니다. Fusion detection을 위해 Detect and Refine Fusion Genes Tool 사용을 권장합니다.
- QIAGEN GeneReader importer (Legacy) tool이 삭제되었습니다.
Plugin notes
- Long read를 분석하는 tool은 Long Read Support 플러그인에서 사용할 수 있습니다.
- Vector NTI import 플러그인에 의해 제공되는 도구는 이제 legacy 상태입니다.