Latest improvements for QIAGEN CLC Genomics Workbench
QIAGEN CLC Genomics Workbench 25.0
Release date : 2025
Long read handling
- long NGS reads를 분석하기 위한 새로운 tool들과 workflow는 다음과 같습니다:
- Import Oxford Nanopore Reads
- Map Long Reads to Reference
- 염색체를 2번 이상 wrap(감싸는) 하는 reads는 이제 Unmapped로 처리되어 보고서에 작성됩니다. 이전에는 이러한 reads가 자동으로 무시되었습니다.
- stand-alone read mapping에서 individual read mapping은 이제 ‘mapping’ 대신 ‘_mapping’ 으로 지정됩니다. 이러한 변경으로 downstream tool과 호환성이 향상되었습니다.
- Structural Variant Caller for Long Reads
- RNA-Seq Analysis for Long Reads
- De Novo Assemble Long Reads
- Hifiasm이 0.19.9 버전으로 업데이트되었습니다. 이 De novo assembler는 PacBio HiFi reads를 assemble 하는데 사용됩니다. 따라서 지금의 결과는 이전 버전의 결과와 다를 수 있습니다.
- Raven이 1.8.3 버전으로 업데이트되었습니다. 이 De novo assembler는 Oxford Nanopore 또는 PacBio non-Hifi reads를 assemble 하는데 사용됩니다. Tool 내에서의 polishing 방식 변경으로 인해, 이제 reference 서열에서 reads와 비교했을 때 insertion이 더 적게 나타납니다.
- Assembly Graph 결과에서 마우스 커서를 contig 위에 놓으면 contig의 이름과 length가 포함된 설명이 표시됩니다.
- Polish Contigs with Reads
- De Novo Assemble Long Reads and Polish with Short Reads template workflow
- minimap2가 2.28 버전으로 업데이트되었습니다. minimap2 mapper는 다음 tool에서 활용됩니다: Map Long Reads to Reference, RNA-seq Analysis for Long Reads 따라서 결과는 이전 버전의 결과와 다를 수 있습니다.
- RNA-seq Analysis for Long Reads의 경우, 로그 파일에는 염색체를 2번 이상 감싸는 reads 수가 포함됩니다. 이전 버전과 마찬가지로 이러한 reads는 발현에 포함되지만 reads track에는 포함되지 않습니다.
- “Polish with Reads“->”Polish Contigs with Reads“ 로 이름이 변경되었습니다.
- De Novo Assemble and Polish with Short Reads Workflow가 개선되었습니다:
- Workflow가 시작되면 추가 옵션을 구성할 수 있습니다.
- 각 분석 Tool로부터 나온 report는 기존에는 summary sample report에 포함되고 개별적으로 저장할 수 없었지만, 이제는 Output으로 생성됩니다.
- Summary report가 업데이트되었습니다. section 순서가 바뀌었으며, 시퀀싱 QC 보고서의 일부 section이 더 이상 포함되지 않습니다. 이제부터는 새로운 형식의 Output으로 출력됩니다.
- 결과로 나오는 Output의 이름 패턴이 업데이트되었습니다.
- Structural Variant Caller (Long Reads) 에 stand-alone read mapping을 input 했을 때 실패하던 문제를 해결했습니다.
Other new functionality
- 새로운 workflow인 Trim and Map Sanger Sequences는 시퀀스에 trim 주석을 추가한 후 이를 reference 서열에 mapping 합니다.
- New workflow control flow elements:
- Fork를 포함하면 workflow가 시작될 때 다운스트림 분석 경로에 대한 선택을 할 수 있으며, 분석의 특정 부분을 실행할지에 대한 여부를 선택할 수 있습니다.
- Save On the Fly Imports 기능을 사용하면, 실시간으로 데이터를 가져온 직후 바로 저장할 수 있습니다.
- Collapse Overlapping Annotations는 주석 트랙에서 중복된 주석을 하나의 주석으로 축소시켜줍니다.
- Resize Annotations을 사용하면 주석 트랙에서 5‘ 또는 3’ 위치를 조정할 수 있습니다.
- Remove Information from Track은 선택한 정보를 유지하거나 제거하여 주석, 표현, 통계적 비교 및 variant 트랙을 다듬을 수 있습니다.
- Create Report from Table은 테이블 view의 내용을 기반으로 보고서를 만듭니다.
- Create Sample Level Heat Map for RNA-Seq은 RNA-seq 데이터에서 샘플 distance에 대한 Heat map을 생성합니다.
- Import Expression Data는 Excel, CSV 또는 TSV 파일에서 RNA-seq 발현 값을 가져옵니다.
- AWS S3 bucket의 파일은 Navigation Area 탭에 있는 Remote Files를 사용하여 찾아볼 수 있습니다.
Detect and Refine Fusion Genes
- 새로운 옵션을 사용하면 fusion을 필터링할 수 있습니다. 이는 알려진 false positive를 제거하거나 관심 있는 유전자 또는 fusion을 감지하는데 유용합니다.
- Fusion은 이제 fusion crossing reads 외에도 fusion spanning reads를 지원합니다. fusion spanning reads는 p-value 및 z-score 계산에 포함됩니다.
- ‘Detection’ 단계에서 식별된 모든 fusion은 fusion WT 트랙에 포함됩니다. 이는 다음에서 유용합니다:
- refinement 단계 전에 특정 fusion이 필터링된 이유를 조사할 수 있습니다.
- break point 위치를 확인할 수 없는 broken pairs를 매핑된 paired reads를 기반으로 잠재적인 fusion을 식별할 수 있습니다.
- 다음 옵션들이 삭제되었습니다:
- opposite strand에 위치한 중복 유전자들의 fusion은 무시해야 합니다. 새 필터 기능을 사용하면 이를 방지할 수 있습니다.
- fusion primer reads만 사용하세요. Detect and Refine Fusion Genes를 실행하기 전에 Filter on Custom Criteria를 사용하여 read를 필터링하는 것을 권장합니다.
- broken pair fusion의 최대 거리는 더 이상 결과에 영향을 미치지 않습니다.
- fusion track의 table view가 개선되었습니다:
- IPA에 대한 링크가 포함된 IPA gene view 열이 포함되어 있으며, 이를 통해 fusion에 대한 추가 정보를 제공받을 수 있습니다.
- table의 배치와 이름이 변경되었습니다.
- Gene 열이 제거되었습니다.
Usability
- Tools와 workflows는 이제 Tools와 Workflows로 각각 분리되었습니다. 분리된 기능 들은 Workbench 상단과 Workbench 왼쪽 하단에 있는 Toolbox panel에서 확인할 수 있습니다.
- Workbench toolbar에 있는 tool들의 이름과 순서가 업데이트 되었습니다.
- Multiple sequence alignments
- Positional stats palette가 side panel에 추가 되었습니다. Alignment된 결과에서 특정 위치 위에 마우스 커서를 올려 놓으면 해당 위치의 염기 또는 펩타이드 frequency에 대한 정보를 palette에서 확인할 수 있습니다.
- Alignment on top의 옵션은 Sequence layout Side Panel palette에서 사용할 수 있습니다. 이 옵션을 활성화하면 aligned 된 sequence 및 sequence logo 등을 확인할 수 있습니다.
- Alignment된 서열 중에 개별 서열에 대한 정보를 볼 수 있는 Table view가 추가되었습니다.
- 하나 이상의 sequence에서 염기를 선택하면 alignment된 서열 모두에서 해당 위치를 확인할 수 있습니다.
- 표에서 작업할 때 키보드 단축키 Ctrl+F (Mac: Cmd+F)를 누르면 간단하게 찾을 수 있습니다.
- Workflow를 편집할 때, 키보드 단축키 Ctrl+F (Mac: Cmd+F)를 누르면 side panel에 검색 창이 활성화됩니다.
- Reference Data Manager에 Download Genomes tab에서 사용 가능한 데이터에 대한 정보를 선택하여 복사할 수 있습니다.
Performance
- Copy Number Variant Detection (Targeted), QC for Targeted Sequencing, QC for Read mapping 그리고 QC for Sequencing에 속도가 크게 개선되었습니다.
- Variant track에서 검색 및 필터링 속도가 향상되었습니다.
- Annotate with Exon Numbers, Annotate with Overlap Information, Filter Based on Overlap 속도가 향상되었습니다.
- Maximum Likelihood Phylogeny 이전보다 더 적은 메모리를 활용합니다.
Import
- GFF3 format을 위한 Tracks importer:
- 파일과 제공된 reference 사이에 일치하지 않는 염색체 길이가 있는 것을 허용하지 않습니다.
- UCSC에서 정의한 모든 염색체 aliases를 지원합니다.
- Gene 및 Transcript의 유사한 annotation 유형을 식별하기 위해 Sequence Ontology 버전을 2024-06-05를 활용합니다.
- Gene track의 pseudogenes를 포함합니다.
- VCF import
- UCSC에서 정의한 모든 염색체 aliases를 지원합니다.
- DUP:TANDEM symbolic 대립유전자는 Variant track에 포함됩니다.
- UMI 정보를 포함하는 세 가지 FASTQ 헤더 형식이 지원됩니다.
- Standard Import를 사용하여 GenBank 형식 파일을 가져올 때, ncRNA 및 rRNA annotation은 다음 중 하나의 정보를 사용하여 명명되며, 이 순서로 고려됩니다: “gene”, “locus_tag”, “product”, “protein_id”, “transcript_id”, “note”. 기존에는 “note” 정보만을 사용하였습니다.
Workflow
- 이제 다음과 같은 workflow를 사용할 수 있습니다.
- Create Pairwise Comparison
- Proteolytic Cleavage
- Motif Search
- Find Binding Sites and Create Fragments
- Assemble Sequences to Reference의 stand-alone read mapping 결과는 workflow에서 Fixed Ploidy Variant Detection, Low Frequency Variant Detection 그리고 Basic Variant Detection에 입력으로 사용할 수 있습니다.
- Annotate with Exon Numbers, Annotate with Overlap Information 그리고 Filter Based on Overlap은 single output channel을 가지며, 이는 track-type 4개를 대체합니다.
Reports
- Combine Reports는 다음과 같은 기능을 제공합니다:
- 샘플 보고서나 결합 보고서에 경우 Set order 페이지에서 순서를 정렬할 수 있습니다.
- Set contents 단계에서 Quality Control 섹션의 샘플 보고서를 제외할 수 있습니다.
- Combine Reports와 Create Sample Report에는 Map reads to Reference 보고서에서 mapping된 염기와 mapping 되지 않은 염기의 수 및 백분율을 포함하는 옵션이 있습니다.
- JSON exporter 기능에서 sample 및 combined report의 품질 조건에 대한 passed/uncertain/failed 상태를 확인할 수 있습니다.
- QC for Sequencing Reads는 average quality가 20, 25, 30, 35보다 높은 read의 백분율을 보고합니다. 보고된 값은 Create Sample Report에서 QC thresholds로 사용할 수 있습니다.
- Copy Number Variant Detection (Targeted)의 결과 보고서에서 genome 및 염색체 plot이 다음과 같이 개선되었습니다:
- axis labels(축 라벨)을 업데이트하였습니다.
- 색상 구성표가 개선되었습니다.
- CNV를 빨간색(gain), 파란색(loss)으로 표현합니다.
- Trim Reads 보고서에서 소수점이 포함된 값은 이제 소수점 둘째 자리까지 나타납니다.
- 보고서 plot에 사용되는 빨간색 음영이 다른 색상과 쉽게 구분할 수 있도록 조정되었습니다.
Other new feature and improvements
- Annotate with Repeat and Homopolymer Information
- 반복 및 homopolymer detection 기능이 개선되었습니다. 이로 인해 이전 버전과 비교했을 때 결과가 차이날 수 있습니다.
- reference 서열은 homopolymers에 대해 variant의 5‘와 3’을 테스트합니다. 이전에는 3‘쪽에서만 테스트하였습니다. Variant의 양쪽에서 다른 homopolymers가 발견되면 가장 긴 것에 대한 정보가 유지됩니다. Variant에 대해 한쪽에서 homopolymers가 발견되고, 다른 쪽에서 repeat이 발견되면 두 정보 다 유지합니다.
- homopolymers와 repeat에 대한 길이, 서열 정보는 Variant track의 annotation으로 추가됩니다.
- 이제 옵션으로 homopolymer/repeat에서 허용되는 최대 불일치 수를 지정할 수 있습니다.
- QC for Targeted Sequencing
- long reads에 대한 mapping이 효율적으로 처리됩니다.
- broken pairs와 non-specific reads의 적용 범위에 대한 정보는 per-region statistics track에 포함됩니다.
- 평균과 중간 값 coverage가 모두 gene coverage track에 포함됩니다.
- QC for Sequencing Reads는 long reads에 대해 효율적으로 처리할 수 있게 되었습니다.
- Filter Based on Overlap에서 annotation을 유지하거나 제거하기 위한 새로운 옵션이 생겼고, 기존 옵션의 이름을 변경하여 기능을 더 잘 반영하였습니다.
- Filter on Custom Criteria는 이제 Sequence list에 input으로 넣을 수 있습니다.
- Merge Annotation Tracks을 사용하면 다양한 gene 또는 RNA 유형 등 유사한 유형의 annotation이 포함된 track을 합칠 수 있습니다.
- Create Consensus Sequences from Variants
- 여러 개의 SNV가 동일한 위치에 존재하는 경우, consensus sequence에 N 대신 관련 IUPAC 코드가 나타납니다.
- 이전에 모든 overlapping insertion을 추가할 수 있었지만, 이제는 가장 빈번한 것만 포함됩니다.
- The Motif Search tool
- “?”문자가 포함된 정규 표현식이 지원되어 예측 표현식이 가능해졌습니다.
- Motif 목록을 input으로 사용하는 경우에는 Table에 이름과 Motif column이 포함되어야 하고, 단일 서열을 분석하는 경우에는 Motif column만 포함되어 있어도 됩니다.
- 검색된 Motif에 대한 match 수를 보고서에서 볼 수 있습니다.
- Multiple sequence alignment 결과를 input으로 활용할 수 있습니다.
- Reads tracks
- Side panel을 통해 정렬되지 않은 끝부분을 강조 표시할 수 있는 옵션이 추가되었습니다.
- Volcano plot view of Statistical Comparison Table and tracks:
- down-regulated에 기본 색상은 이제 파란색이고 up-regulated에 기본 색상은 빨간색입니다. 이전에는 반대였습니다.
- legend의 위치를 조정할 수 있습니다.
- Expression track, statistical comparison track은 Side Panel의 Find palette에 있는 기능을 사용하여 검색할 수 있습니다. 이전에는 이 기능을 annotation track에서만 사용할 수 있었습니다.
- annotation track의 table view에서 이제는 annotation type이 포함됩니다.
- Heatmap elements에는 기본 값이 포함된 table view가 생겼습니다.
Bug fixes
- Detect and Refine Fusion Genes
- 동일한 유전자 pair에 있어서 여러 개의 fusion 영역이 감지되었을 때 일부 fusion이 포함되지 않는 문제를 해결했습니다.
- input된 mRNA track에 mRNA type이 하나도 포함되어 있지 않으면 구동이 안되는 문제를 해결했습니다.
- QC for Targeted Sequencing
- gene coverage track에서 평균 커버리지가 median 커버리지로 표시되는 문제를 해결했습니다.
- Coverage report, per-region statistics track에서 Insertion에 대한 커버리지 오류를 해결했습니다.
- Coverage report에서 중복되는 대상에 대해 두 번 계산되는 오류를 해결했습니다.
- Trim Reads
- Sequence list가 동일한 순서로 제공되지 않을 때 adapter trimming이 다른 결과를 제공할 수 있는 문제를 해결했습니다. 이제는 개별적으로 수행됩니다.
- automatic read-through adapter trimming에 실제로 사용된 서열이 아니라, 식별된 모든 서열을 기반으로 계산된 consensus 서열을 제공했는데, 이러한 문제를 수정했습니다.
- Annotate with Repeat and Homopolymer Information
- 염색체의 특정 위치에 있어서 Variant에 주석을 달 때, 기능이 멈추는 것을 해결했습니다.
- Circular reference 서열에서 원점을 포함하는 homopolymer 또는 repeat 영역에 위치한 variant에 주석이 포함되지 않는 문제를 해결했습니다.
Other bug fixes
- 정렬되지 않은 매우 긴 reads의 바깥쪽 끝이 read track에서 rendering(랜더링)되지 않는 문제를 해결했습니다. 이는 Nanopore 및 PacBio와 같은 long read 데이터를 reference에 정렬할 때, 정렬되지 않은 영역에서 발생합니다.
- SAM/BAM/CRAM Mapping Files과 Ultima Importer가 CRAM 파일을 import 할 때 reference synonyms(동의어)를 허용하여 실패하는 문제를 해결했습니다. 이제 더 이상 동의어를 허용하지 않습니다.
- SVLEN=0인 대립유전자가 있는 VCF 파일을 가져올 때 VCF가 import되지 않는 문제를 해결했습니다. 이러한 대립유전자는 이제 ‘annotation track’으로 가져오고 길이가 0으로 저장됩니다.
- Map Reads to Contigs은 contig 업데이트 옵션이 활성화된 경우 트랙 기반 결과물을 얻지 못합니다.
- GenBank 파일은 standard import에서 SOURCE 또는 ORGANISM 필드 바로 뒤에 ORIGIN 필드가 있는 파일을 읽지 못하는 문제를 해결했습니다.
- Create K-medoids Clustering에서 Cluster 1에 10개가 넘는 유전자가 포함되어 있는 경우 line graph legend가 표시되지 않는 문제를 해결했습니다.
- Windows 파일 공유에 있는 DB를 검색할 때 local BLAST 작업이 실패하는 문제를 해결했습니다.
- Search for Sequences at NCBI에서 OR, ‘,’ 또는 공백으로 구분되게 검색할 경우 일어나는 문제를 해결했습니다. list에서 찾을 수 없는 용어가 하나 이상 포함된 경우 결과가 반환되지 않습니다.
- Side panel에서 palette를 이동할 때 가끔씩 palette가 사라지는 문제를 해결했습니다.
Reference data
Reference Data Manager에서 확인할 수 있습니다.
- QIAGEN Sets tab
- 유전자 제외 목록 및 fusion 제외 목록 reference data가 추가되었습니다. 이러한 데이터는 Detect and Refine Fusion Genes에서 감지된 fusion을 필터링하는 데 사용할 수 있습니다.
- Version ensembl_v106.1_hg38_no_alt_analysis_set
- Version refseq_GRCh38.p14_no_alt_analysis_set
- MANE genes, CDS 및 mRNA Reference Data 추가
- Version ensembl_mane_v1.3_hg38_no_alt_analysis_set.
- Version refseq_mane_v1.3_hg38_no_alt_analysis_set.
- Reference Data Sets
- hg38 (Ensembl MANE) containing Ensembl MANE Genes, CDS and mRNA elements.
- hg38 (RefSeq MANE) containing RefSeq MANE Genes, CDS and mRNA elements.
- Download Genome tab
- Homo sapiens – hg38_no_alt_analysis_set에 대한 gnomAD 엑솜 데이터
Tool and settings
- Create HeatMap for RNA-seq에서 Create Sample Level HeatMap for RNA-seq에 이름으로 변경되었습니다.
- Copy Number Variant Detection (CNVs)가 Copy Number Variant Detection (Targeted)로 이름이 변경되었습니다.
- BLAST at NCBI에서 nr/nt가 기본 값이었는데, blastn 및 blastx로 기본 값이 변경되었습니다.
- Create Tree에서 single alignment만 input으로 가능합니다. 여러 개의 alignment를 개별적으로 처리하는 것은 Batch box를 선택하여 사용 가능합니다.
- Illumina importer에서 .txt 파일은 더 이상 지원되지 않습니다.
- Variant tracks에서 linkage column은 항상 비어있기 때문에 삭제하였습니다.
- InDels and Structural Variants 보고서에서 Translocation 및 Total(Translocation) 행이 더 이상 포함되지 않습니다.
- Utility Tools 하위 폴더에 tool들의 순서가 재정렬되었습니다.
- bypass proxy settings가 CLC Server Connection에서 Workbench Preferences로 이동하였습니다.
Installation
- CLC Genomics Workbench 25.0 이상 버전을 설치할 때, 로컬에 이미 존재하는 Workflow가 새 버전으로 복사됩니다. 새 버전을 시작하면 호환을 위해 업데이트 안내 대화 상자가 열립니다. 이 변경으로 이전 버전에서 새 버전으로 쉽고 빠르게 업그레이드를 할 수 있습니다.
Third party version updates
- Workbench Preferences에 위치한 “Sequence Representation” 옵션이 “Sequence Label”로 이름이 변경되었습니다.
- CLC Genomics Workbench 25.0에 포함된 Java 버전은 21.0.4이며, Azul Open JDK 빌드의 JRE를 사용합니다.
- Pfam domain search에 사용되는 hmmsearch 프로그램이 3.4버전으로 업데이트되었습니다.
- Trim Sequences는 UniVec 데이터베이스 10.1 버전으로 업데이트되었습니다.
- restriction site database인 REBASE가 408 버전으로 업데이트되었습니다.
Functionality retirement
다음은 Workbench 내에서 삭제되었습니다:
- Remove Information from Variants tool이 Remove Information from Track으로 대체되었습니다.
- Import Vector NTI Database
Plugin Retirements
- Ingenuity Pathway Analysis (IPA) 플러그인의 기능은 이제 Biomedical Genomics Analysis 플러그인에서 사용할 수 있습니다.
- Long Read Support 플러그인의 기능은 이제 Workbench 내에서 직접 사용할 수 있습니다.
- Vector NTI Import 플러그인을 더 이상 지원하지 않습니다.
Legacy tools
해당 도구는 Workbench Tools menu의 Legacy 폴더로 이동되었으며, 향후 버전에서는 더 이상 지원되지 않습니다.
- Correct Long Reads (legacy).
Other legacy functionality
- run_on_workbench_when_server_is_available은 향후 릴리스에서 폐기됩니다. 대신 새로운 workbench_save_to_server 정책을 사용하세요.