[릴리즈] QIAGEN CLC Genomics Workbench v.25 새로운 업데이트
조회 290
2025. 02. 06 -
Latest improvements for QIAGEN CLC Genomics Workbench
QIAGEN CLC Genomics Workbench 25.0
Release date : 2025
Long read handling
long NGS reads를 분석하기 위한 새로운 tool들과 workflow는 다음과 같습니다:
Import Oxford Nanopore Reads
Map Long Reads to Reference
염색체를 2번 이상 wrap(감싸는) 하는 reads는 이제 Unmapped로 처리되어 보고서에 작성됩니다. 이전에는 이러한 reads가 자동으로 무시되었습니다.
stand-alone read mapping에서 individual read mapping은 이제 ‘mapping’ 대신 ‘_mapping’ 으로 지정됩니다. 이러한 변경으로 downstream tool과 호환성이 향상되었습니다.
Structural Variant Caller for Long Reads
RNA-Seq Analysis for Long Reads
De Novo Assemble Long Reads
Hifiasm이 0.19.9 버전으로 업데이트되었습니다. 이 De novo assembler는 PacBio HiFi reads를 assemble 하는데 사용됩니다. 따라서 지금의 결과는 이전 버전의 결과와 다를 수 있습니다.
Raven이 1.8.3 버전으로 업데이트되었습니다. 이 De novo assembler는 Oxford Nanopore 또는 PacBio non-Hifi reads를 assemble 하는데 사용됩니다. Tool 내에서의 polishing 방식 변경으로 인해, 이제 reference 서열에서 reads와 비교했을 때 insertion이 더 적게 나타납니다.
Assembly Graph 결과에서 마우스 커서를 contig 위에 놓으면 contig의 이름과 length가 포함된 설명이 표시됩니다.
Polish Contigs with Reads
De Novo Assemble Long Reads and Polish with Short Reads template workflow
minimap2가 2.28 버전으로 업데이트되었습니다. minimap2 mapper는 다음 tool에서 활용됩니다: Map Long Reads to Reference, RNA-seq Analysis for Long Reads 따라서 결과는 이전 버전의 결과와 다를 수 있습니다.
RNA-seq Analysis for Long Reads의 경우, 로그 파일에는 염색체를 2번 이상 감싸는 reads 수가 포함됩니다. 이전 버전과 마찬가지로 이러한 reads는 발현에 포함되지만 reads track에는 포함되지 않습니다.
“Polish with Reads“->”Polish Contigs with Reads“ 로 이름이 변경되었습니다.
De Novo Assemble and Polish with Short Reads Workflow가 개선되었습니다:
Workflow가 시작되면 추가 옵션을 구성할 수 있습니다.
각 분석 Tool로부터 나온 report는 기존에는 summary sample report에 포함되고 개별적으로 저장할 수 없었지만, 이제는 Output으로 생성됩니다.
Summary report가 업데이트되었습니다. section 순서가 바뀌었으며, 시퀀싱 QC 보고서의 일부 section이 더 이상 포함되지 않습니다. 이제부터는 새로운 형식의 Output으로 출력됩니다.
결과로 나오는 Output의 이름 패턴이 업데이트되었습니다.
Structural Variant Caller (Long Reads) 에 stand-alone read mapping을 input 했을 때 실패하던 문제를 해결했습니다.
Other new functionality
새로운 workflow인 Trim and Map Sanger Sequences는 시퀀스에 trim 주석을 추가한 후 이를 reference 서열에 mapping 합니다.
New workflow control flow elements:
Fork를 포함하면 workflow가 시작될 때 다운스트림 분석 경로에 대한 선택을 할 수 있으며, 분석의 특정 부분을 실행할지에 대한 여부를 선택할 수 있습니다.
Save On the Fly Imports 기능을 사용하면, 실시간으로 데이터를 가져온 직후 바로 저장할 수 있습니다.
Collapse Overlapping Annotations는 주석 트랙에서 중복된 주석을 하나의 주석으로 축소시켜줍니다.
Resize Annotations을 사용하면 주석 트랙에서 5‘ 또는 3’ 위치를 조정할 수 있습니다.
Remove Information from Track은 선택한 정보를 유지하거나 제거하여 주석, 표현, 통계적 비교 및 variant 트랙을 다듬을 수 있습니다.
Create Report from Table은 테이블 view의 내용을 기반으로 보고서를 만듭니다.
Create Sample Level Heat Map for RNA-Seq은 RNA-seq 데이터에서 샘플 distance에 대한 Heat map을 생성합니다.
Import Expression Data는 Excel, CSV 또는 TSV 파일에서 RNA-seq 발현 값을 가져옵니다.
AWS S3 bucket의 파일은 Navigation Area 탭에 있는 Remote Files를 사용하여 찾아볼 수 있습니다.
Detect and Refine Fusion Genes
새로운 옵션을 사용하면 fusion을 필터링할 수 있습니다. 이는 알려진 false positive를 제거하거나 관심 있는 유전자 또는 fusion을 감지하는데 유용합니다.
Fusion은 이제 fusion crossing reads 외에도 fusion spanning reads를 지원합니다. fusion spanning reads는 p-value 및 z-score 계산에 포함됩니다.
‘Detection’ 단계에서 식별된 모든 fusion은 fusion WT 트랙에 포함됩니다. 이는 다음에서 유용합니다:
refinement 단계 전에 특정 fusion이 필터링된 이유를 조사할 수 있습니다.
break point 위치를 확인할 수 없는 broken pairs를 매핑된 paired reads를 기반으로 잠재적인 fusion을 식별할 수 있습니다.
다음 옵션들이 삭제되었습니다:
opposite strand에 위치한 중복 유전자들의 fusion은 무시해야 합니다. 새 필터 기능을 사용하면 이를 방지할 수 있습니다.
fusion primer reads만 사용하세요. Detect and Refine Fusion Genes를 실행하기 전에 Filter on Custom Criteria를 사용하여 read를 필터링하는 것을 권장합니다.
broken pair fusion의 최대 거리는 더 이상 결과에 영향을 미치지 않습니다.
fusion track의 table view가 개선되었습니다:
IPA에 대한 링크가 포함된 IPA gene view 열이 포함되어 있으며, 이를 통해 fusion에 대한 추가 정보를 제공받을 수 있습니다.
table의 배치와 이름이 변경되었습니다.
Gene 열이 제거되었습니다.
Usability
Tools와 workflows는 이제 Tools와 Workflows로 각각 분리되었습니다. 분리된 기능 들은 Workbench 상단과 Workbench 왼쪽 하단에 있는 Toolbox panel에서 확인할 수 있습니다.
Workbench toolbar에 있는 tool들의 이름과 순서가 업데이트 되었습니다.
Multiple sequence alignments
Positional stats palette가 side panel에 추가 되었습니다. Alignment된 결과에서 특정 위치 위에 마우스 커서를 올려 놓으면 해당 위치의 염기 또는 펩타이드 frequency에 대한 정보를 palette에서 확인할 수 있습니다.
Alignment on top의 옵션은 Sequence layout Side Panel palette에서 사용할 수 있습니다. 이 옵션을 활성화하면 aligned 된 sequence 및 sequence logo 등을 확인할 수 있습니다.
Alignment된 서열 중에 개별 서열에 대한 정보를 볼 수 있는 Table view가 추가되었습니다.
하나 이상의 sequence에서 염기를 선택하면 alignment된 서열 모두에서 해당 위치를 확인할 수 있습니다.
표에서 작업할 때 키보드 단축키 Ctrl+F (Mac: Cmd+F)를 누르면 간단하게 찾을 수 있습니다.
Workflow를 편집할 때, 키보드 단축키 Ctrl+F (Mac: Cmd+F)를 누르면 side panel에 검색 창이 활성화됩니다.
Reference Data Manager에 Download Genomes tab에서 사용 가능한 데이터에 대한 정보를 선택하여 복사할 수 있습니다.
Performance
Copy Number Variant Detection (Targeted), QC for Targeted Sequencing, QC for Read mapping 그리고 QC for Sequencing에 속도가 크게 개선되었습니다.
Variant track에서 검색 및 필터링 속도가 향상되었습니다.
Annotate with Exon Numbers, Annotate with Overlap Information, Filter Based on Overlap 속도가 향상되었습니다.
Maximum Likelihood Phylogeny 이전보다 더 적은 메모리를 활용합니다.
Import
GFF3 format을 위한 Tracks importer:
파일과 제공된 reference 사이에 일치하지 않는 염색체 길이가 있는 것을 허용하지 않습니다.
UCSC에서 정의한 모든 염색체 aliases를 지원합니다.
Gene 및 Transcript의 유사한 annotation 유형을 식별하기 위해 Sequence Ontology 버전을 2024-06-05를 활용합니다.
Gene track의 pseudogenes를 포함합니다.
VCF import
UCSC에서 정의한 모든 염색체 aliases를 지원합니다.
DUP:TANDEM symbolic 대립유전자는 Variant track에 포함됩니다.
UMI 정보를 포함하는 세 가지 FASTQ 헤더 형식이 지원됩니다.
Standard Import를 사용하여 GenBank 형식 파일을 가져올 때, ncRNA 및 rRNA annotation은 다음 중 하나의 정보를 사용하여 명명되며, 이 순서로 고려됩니다: “gene”, “locus_tag”, “product”, “protein_id”, “transcript_id”, “note”. 기존에는 “note” 정보만을 사용하였습니다.
Workflow
이제 다음과 같은 workflow를 사용할 수 있습니다.
Create Pairwise Comparison
Proteolytic Cleavage
Motif Search
Find Binding Sites and Create Fragments
Assemble Sequences to Reference의 stand-alone read mapping 결과는 workflow에서 Fixed Ploidy Variant Detection, Low Frequency Variant Detection 그리고 Basic Variant Detection에 입력으로 사용할 수 있습니다.
Annotate with Exon Numbers, Annotate with Overlap Information 그리고 Filter Based on Overlap은 single output channel을 가지며, 이는 track-type 4개를 대체합니다.
Reports
Combine Reports는 다음과 같은 기능을 제공합니다:
샘플 보고서나 결합 보고서에 경우 Set order 페이지에서 순서를 정렬할 수 있습니다.
Set contents 단계에서 Quality Control 섹션의 샘플 보고서를 제외할 수 있습니다.
Combine Reports와 Create Sample Report에는 Map reads to Reference 보고서에서 mapping된 염기와 mapping 되지 않은 염기의 수 및 백분율을 포함하는 옵션이 있습니다.
JSON exporter 기능에서 sample 및 combined report의 품질 조건에 대한 passed/uncertain/failed 상태를 확인할 수 있습니다.
QC for Sequencing Reads는 average quality가 20, 25, 30, 35보다 높은 read의 백분율을 보고합니다. 보고된 값은 Create Sample Report에서 QC thresholds로 사용할 수 있습니다.
Copy Number Variant Detection (Targeted)의 결과 보고서에서 genome 및 염색체 plot이 다음과 같이 개선되었습니다:
axis labels(축 라벨)을 업데이트하였습니다.
색상 구성표가 개선되었습니다.
CNV를 빨간색(gain), 파란색(loss)으로 표현합니다.
Trim Reads 보고서에서 소수점이 포함된 값은 이제 소수점 둘째 자리까지 나타납니다.
보고서 plot에 사용되는 빨간색 음영이 다른 색상과 쉽게 구분할 수 있도록 조정되었습니다.
Other new feature and improvements
Annotate with Repeat and Homopolymer Information
반복 및 homopolymer detection 기능이 개선되었습니다. 이로 인해 이전 버전과 비교했을 때 결과가 차이날 수 있습니다.
reference 서열은 homopolymers에 대해 variant의 5‘와 3’을 테스트합니다. 이전에는 3‘쪽에서만 테스트하였습니다. Variant의 양쪽에서 다른 homopolymers가 발견되면 가장 긴 것에 대한 정보가 유지됩니다. Variant에 대해 한쪽에서 homopolymers가 발견되고, 다른 쪽에서 repeat이 발견되면 두 정보 다 유지합니다.
homopolymers와 repeat에 대한 길이, 서열 정보는 Variant track의 annotation으로 추가됩니다.
이제 옵션으로 homopolymer/repeat에서 허용되는 최대 불일치 수를 지정할 수 있습니다.
QC for Targeted Sequencing
long reads에 대한 mapping이 효율적으로 처리됩니다.
broken pairs와 non-specific reads의 적용 범위에 대한 정보는 per-region statistics track에 포함됩니다.
평균과 중간 값 coverage가 모두 gene coverage track에 포함됩니다.
QC for Sequencing Reads는 long reads에 대해 효율적으로 처리할 수 있게 되었습니다.
Filter Based on Overlap에서 annotation을 유지하거나 제거하기 위한 새로운 옵션이 생겼고, 기존 옵션의 이름을 변경하여 기능을 더 잘 반영하였습니다.
Filter on Custom Criteria는 이제 Sequence list에 input으로 넣을 수 있습니다.
Merge Annotation Tracks을 사용하면 다양한 gene 또는 RNA 유형 등 유사한 유형의 annotation이 포함된 track을 합칠 수 있습니다.
Create Consensus Sequences from Variants
여러 개의 SNV가 동일한 위치에 존재하는 경우, consensus sequence에 N 대신 관련 IUPAC 코드가 나타납니다.
이전에 모든 overlapping insertion을 추가할 수 있었지만, 이제는 가장 빈번한 것만 포함됩니다.
The Motif Search tool
“?”문자가 포함된 정규 표현식이 지원되어 예측 표현식이 가능해졌습니다.
Motif 목록을 input으로 사용하는 경우에는 Table에 이름과 Motif column이 포함되어야 하고, 단일 서열을 분석하는 경우에는 Motif column만 포함되어 있어도 됩니다.
검색된 Motif에 대한 match 수를 보고서에서 볼 수 있습니다.
Multiple sequence alignment 결과를 input으로 활용할 수 있습니다.
Reads tracks
Side panel을 통해 정렬되지 않은 끝부분을 강조 표시할 수 있는 옵션이 추가되었습니다.
Volcano plot view of Statistical Comparison Table and tracks:
down-regulated에 기본 색상은 이제 파란색이고 up-regulated에 기본 색상은 빨간색입니다. 이전에는 반대였습니다.
legend의 위치를 조정할 수 있습니다.
Expression track, statistical comparison track은 Side Panel의 Find palette에 있는 기능을 사용하여 검색할 수 있습니다. 이전에는 이 기능을 annotation track에서만 사용할 수 있었습니다.
annotation track의 table view에서 이제는 annotation type이 포함됩니다.
Heatmap elements에는 기본 값이 포함된 table view가 생겼습니다.
Bug fixes
Detect and Refine Fusion Genes
동일한 유전자 pair에 있어서 여러 개의 fusion 영역이 감지되었을 때 일부 fusion이 포함되지 않는 문제를 해결했습니다.
input된 mRNA track에 mRNA type이 하나도 포함되어 있지 않으면 구동이 안되는 문제를 해결했습니다.
QC for Targeted Sequencing
gene coverage track에서 평균 커버리지가 median 커버리지로 표시되는 문제를 해결했습니다.
Coverage report, per-region statistics track에서 Insertion에 대한 커버리지 오류를 해결했습니다.
Coverage report에서 중복되는 대상에 대해 두 번 계산되는 오류를 해결했습니다.
Trim Reads
Sequence list가 동일한 순서로 제공되지 않을 때 adapter trimming이 다른 결과를 제공할 수 있는 문제를 해결했습니다. 이제는 개별적으로 수행됩니다.
automatic read-through adapter trimming에 실제로 사용된 서열이 아니라, 식별된 모든 서열을 기반으로 계산된 consensus 서열을 제공했는데, 이러한 문제를 수정했습니다.
Annotate with Repeat and Homopolymer Information
염색체의 특정 위치에 있어서 Variant에 주석을 달 때, 기능이 멈추는 것을 해결했습니다.
Circular reference 서열에서 원점을 포함하는 homopolymer 또는 repeat 영역에 위치한 variant에 주석이 포함되지 않는 문제를 해결했습니다.
Other bug fixes
정렬되지 않은 매우 긴 reads의 바깥쪽 끝이 read track에서 rendering(랜더링)되지 않는 문제를 해결했습니다. 이는 Nanopore 및 PacBio와 같은 long read 데이터를 reference에 정렬할 때, 정렬되지 않은 영역에서 발생합니다.
SAM/BAM/CRAM Mapping Files과 Ultima Importer가 CRAM 파일을 import 할 때 reference synonyms(동의어)를 허용하여 실패하는 문제를 해결했습니다. 이제 더 이상 동의어를 허용하지 않습니다.
SVLEN=0인 대립유전자가 있는 VCF 파일을 가져올 때 VCF가 import되지 않는 문제를 해결했습니다. 이러한 대립유전자는 이제 ‘annotation track’으로 가져오고 길이가 0으로 저장됩니다.
Map Reads to Contigs은 contig 업데이트 옵션이 활성화된 경우 트랙 기반 결과물을 얻지 못합니다.
GenBank 파일은 standard import에서 SOURCE 또는 ORGANISM 필드 바로 뒤에 ORIGIN 필드가 있는 파일을 읽지 못하는 문제를 해결했습니다.
Create K-medoids Clustering에서 Cluster 1에 10개가 넘는 유전자가 포함되어 있는 경우 line graph legend가 표시되지 않는 문제를 해결했습니다.
Windows 파일 공유에 있는 DB를 검색할 때 local BLAST 작업이 실패하는 문제를 해결했습니다.
Search for Sequences at NCBI에서 OR, ‘,’ 또는 공백으로 구분되게 검색할 경우 일어나는 문제를 해결했습니다. list에서 찾을 수 없는 용어가 하나 이상 포함된 경우 결과가 반환되지 않습니다.
Side panel에서 palette를 이동할 때 가끔씩 palette가 사라지는 문제를 해결했습니다.
Reference data
Reference Data Manager에서 확인할 수 있습니다.
QIAGEN Sets tab
유전자 제외 목록 및 fusion 제외 목록 reference data가 추가되었습니다. 이러한 데이터는 Detect and Refine Fusion Genes에서 감지된 fusion을 필터링하는 데 사용할 수 있습니다.
Version ensembl_v106.1_hg38_no_alt_analysis_set
Version refseq_GRCh38.p14_no_alt_analysis_set
MANE genes, CDS 및 mRNA Reference Data 추가
Version ensembl_mane_v1.3_hg38_no_alt_analysis_set.
Version refseq_mane_v1.3_hg38_no_alt_analysis_set.
Reference Data Sets
hg38 (Ensembl MANE) containing Ensembl MANE Genes, CDS and mRNA elements.
hg38 (RefSeq MANE) containing RefSeq MANE Genes, CDS and mRNA elements.
Download Genome tab
Homo sapiens – hg38_no_alt_analysis_set에 대한 gnomAD 엑솜 데이터
Tool and settings
Create HeatMap for RNA-seq에서 Create Sample Level HeatMap for RNA-seq에 이름으로 변경되었습니다.
Copy Number Variant Detection (CNVs)가 Copy Number Variant Detection (Targeted)로 이름이 변경되었습니다.
BLAST at NCBI에서 nr/nt가 기본 값이었는데, blastn 및 blastx로 기본 값이 변경되었습니다.
Create Tree에서 single alignment만 input으로 가능합니다. 여러 개의 alignment를 개별적으로 처리하는 것은 Batch box를 선택하여 사용 가능합니다.
Illumina importer에서 .txt 파일은 더 이상 지원되지 않습니다.
Variant tracks에서 linkage column은 항상 비어있기 때문에 삭제하였습니다.
InDels and Structural Variants 보고서에서 Translocation 및 Total(Translocation) 행이 더 이상 포함되지 않습니다.
Utility Tools 하위 폴더에 tool들의 순서가 재정렬되었습니다.
bypass proxy settings가 CLC Server Connection에서 Workbench Preferences로 이동하였습니다.
Installation
CLC Genomics Workbench 25.0 이상 버전을 설치할 때, 로컬에 이미 존재하는 Workflow가 새 버전으로 복사됩니다. 새 버전을 시작하면 호환을 위해 업데이트 안내 대화 상자가 열립니다. 이 변경으로 이전 버전에서 새 버전으로 쉽고 빠르게 업그레이드를 할 수 있습니다.
Third party version updates
Workbench Preferences에 위치한 “Sequence Representation” 옵션이 “Sequence Label”로 이름이 변경되었습니다.
CLC Genomics Workbench 25.0에 포함된 Java 버전은 21.0.4이며, Azul Open JDK 빌드의 JRE를 사용합니다.
Pfam domain search에 사용되는 hmmsearch 프로그램이 3.4버전으로 업데이트되었습니다.
Trim Sequences는 UniVec 데이터베이스 10.1 버전으로 업데이트되었습니다.
restriction site database인 REBASE가 408 버전으로 업데이트되었습니다.
Functionality retirement
다음은 Workbench 내에서 삭제되었습니다:
Remove Information from Variants tool이 Remove Information from Track으로 대체되었습니다.
Import Vector NTI Database
Plugin Retirements
Ingenuity Pathway Analysis (IPA) 플러그인의 기능은 이제 Biomedical Genomics Analysis 플러그인에서 사용할 수 있습니다.
Long Read Support 플러그인의 기능은 이제 Workbench 내에서 직접 사용할 수 있습니다.
Vector NTI Import 플러그인을 더 이상 지원하지 않습니다.
Legacy tools
해당 도구는 Workbench Tools menu의 Legacy 폴더로 이동되었으며, 향후 버전에서는 더 이상 지원되지 않습니다.
Correct Long Reads (legacy).
Other legacy functionality
run_on_workbench_when_server_is_available은 향후 릴리스에서 폐기됩니다. 대신 새로운 workbench_save_to_server 정책을 사용하세요.