[릴리즈] CLC Genomics Workbench 21.0 release
조회 2072
2021. 01. 25 - CLC Genomics Workbench 21.0 Release date: 2021-01-12
Full workflow support for Sanger sequence analysis
Workflow를 사용하여 Sanger trace data의 자동 분석을 지원하기 위해 새로운 기능이 도입되고 개선되었습니다.
Trim Sequences
Workflow에서 사용할 수 있습니다.
CLC Genomics Server에서 사용할 수 있습니다.
트리밍된 시퀀스를 포함하는 새 시퀀스 요소가 아웃풋으로 생성됩니다.
트리밍된 read수와 트리밍 이유에 대한 요약이 포함되어 있는 보고서가 생성됩니다. 이 보고서는 Combine Reports tool에서 지원됩니다.
이 도구에 사용된 UniVec 데이터베이스는 UniVec_Core 버전이 10.0으로 업데이트 되었습니다.
Other improvements supporting trace data analysis in workflows
Workflow에서 on-the-fly import를 사용하여 trace data를 import할 수 있습니다.
Assemble Sequences to Reference & Assemble Sequences tools의 아웃풋 이름이 개선되었습니다. 샘플 이름은 아웃풋의 파일 이름과 시퀀스 이름에 포함됩니다.
New tools
Create Sample Report는 단일 샘플과 관련된 여러 보고서에서 선택한 정보의 summary 보고서를 생성합니다. 특정 유형의 정보는 Quality Control 섹션에 포함되도록 지정할 수 있습니다.
Extract IsomiR Counts는 각 miRNA 또는 기타 custom added 데이터베이스 유형, 즉, piRNA 등의 read 매핑에서 정보를 추출하고, 내보낼 수 있는 테이블의 모든 매핑에 대한 정보를 수집합니다.
Annotate with Repeat and Homopolymer Information로 repeat 및 homopolymer 상태에 대한 정보가 포함된 새로운 두개의 column을 추가하여 variants에 annotation을 추가합니다.
Merge Variant Tracks은 여러 variant 트랙을 단일 트랙으로 병합합니다. Overlapping variant로부터 annotation을 추가하는 옵션을 사용할 수 있습니다.
Extract IsomiR Counts, Annotate with Repeat and Homopolymer Information, Merge Variant Tracks은 이전에 Biomedical Genomics Analysis 플러그인을 통해 사용할 수 있었습니다.
Workflow related
내보내기 기능이 있는 workflow가 배치 모드에서 실행되면 각 배치 실행에서 내보낸 파일을 별도의 폴더에 저장할 수 있습니다.
BED & VCF 파일은 workflow안의 on-the-fly로 import할 수 있습니다.
On-the-fly import는 배치 모드에서 workflow를 실행할 때와 단일 반복 요소가 포함된 workflow를 실행할 때 메타 데이터 없이 사용할 수 있습니다.
Name placeholders for output elements and export elements가 업데이트 되었으며, 배치 모드에서 실행되는 workflow의 아웃풋 이름 지정을 보다 세밀하게 제어할 수 있습니다.
Improvements for Workflow Input elements:
Workflow 입력 요소는 탐색 영역에서 데이터 요소를 선택하거나 on-the-fly import를 사용하여 가져올 파일 선택으로 데이터 입력 방법을 제한하도록 구성할 수 있습니다.
기본값은 workflow를 시작할 때 입력 방법을 선택할 수 있도록 하는 것입니다.
Iterate & Collect and Distribute workflow 요소에 대한 추가 구성 옵션을 사용할 수 있습니다.
반복 요소가 있는 workflow가 “Batch” 체크박스를 선택된 상태에서 실행되면 workflow 결과 메타 데이터 테이블의 “Batch identifier”열에 모든 수준의 일괄 처리 및 반복을 반영하는 결합된 배치 식별자가 포함됩니다.
다음 도구를 workflow에 포함할 수 있습니다.
Convert to Tracks
Demultiplex Reads
Trim Sequences
Performance improvements
Large alignment를 위한 alignment 편집기의 성능이 향상되었습니다.
Jukes-Cantor 거리 측정을 사용하여 large tree를 만들 때, Create Tree가 훨씬 빠릅니다.
Find Binding Sites and Create Fragments에 의해 생성된 large 바인딩 사이트 테이블을 내보낼 때, CLC Workbench가 응답하지 않는 문제를 수정하였습니다.
“Find Associated Data” 버튼을 사용할 때, 메타 데이터 테이블과 연관된 데이터 요소 검색 성능이 향상되었습니다.
많은 수의 시퀀스 (예: Trim Reads)를 생성하는 도구와 Demultiplex Read가 스레드가 많은 시스템에서는 빨리 처리할 수 있도록 성능이 향상되었습니다.
Basic Variant Detection, Fixed Ploidy Variant Detection 및 Low Frequency Variant Detection 도구의 속도가 크게 향상되었습니다.
CNV (Copy Number Variant Detection)의 속도가 향상되었습니다.
Download Genomes 기능을 통해 다운로드 한 참조를 사용하여 Map Reads to Reference를 실행할 때 이미 캐시 된 참조 인덱스를 다시 사용할 수 있는지 여부를 결정하는 것이 더 빨라졌습니다.
RNA-Seq에 대한 차등 발현 및 두 그룹의 차등 발현에서 일반화된 선형 모델의 계산을 위한 성능이 향상되었습니다
Working with tables
열 순서는 테이블을 볼 때 조정할 수 있으며 수정된 열 순서는 열린 테이블을 예를 들어 csv 또는 Excel 형식 파일로 내보낼 때 적용됩니다 ("열 순서"에서 Working_with_tables.html로 연결하려는 의도).
보고서의 테이블은 새 탭에서 열 수 있습니다. 마우스 오른쪽 버튼 클릭-> 테이블 열기.
오른쪽 클릭 옵션을 사용하여 테이블을 내보낼 수 있습니다: "파일"-> "테이블 내보내기". 내보내기는 열 필터링, 순서 지정 및 선택 취소를 고려합니다.
Export
내보낸 파일은 사용자 정의 파일 이름 정의 시작 부분에 슬래시 문자 /를 사용하여 선택한 출력 영역의 하위 폴더에 저장할 수 있습니다.
트랙, 트랙 목록, 시퀀스, 정렬 및 Read 매핑의 그래픽 내보내기는 workflow에 포함되고 CLC Genomics 서버에서 실행할 수 있는 표준 내보내기로 지원됩니다.
Fastq exporter를 사용하여 내보낸 파일의 이름 이정 패턴이 Illumina importer가 예상하는 이름 지정 형식과 일치하도록 업데이트되었습니다.
내보낸 파일 이름은 이제 "_R1.fastq"및 "_R2.fastq"로 끝납니다. 이전에 사용 된 확장자는 단일 파일을 내보낼 때 ".R1.fastq"였습니다. 두 파일로 내 보낸 쌍의 경우 두 번째 파일의 확장자는 ".R2.fastq"였습니다. (원래 이름의 첫 번째 "."는 "_"로 대체되었습니다).
Export VCF가 업데이트 되었습니다.
CNV & fusion 데이터 내보내기를 지원합니다.
내보내기 위해 여러 요소를 선택한 경우 단일 파일로 내보내는 옵션이 있습니다.
“.”값을 사용하여 누락된 variant annotation을 나타냅니다.
VCF 4.3에 지정된대로 variant annotation의 특수 문자는 백분율 인코딩을 사용하여 내보내집니다.
Illumina importer
“Paired reads” 옵션은 기본적으로 활성화 되어있습니다.
“Paired reads’ 옵션이 활성화된 경우, 유효성 검사가 향상되었고, 파일 쌍의 이름은 다음과 같이 검증됩니다.
파일 이름이 Illumina 이름 지정 형식을 따르는 경우 두 파일은 동일한 샘플 이름과 레인을 가져야합니다.
파일 이름이 Illumina 이름 지정 형식을 따르지 않지만 이름에서 _R1 / _R2가 감지되면 첫 번째 파일에는 _R1이 포함되고 두 번째 파일에는 _R2가 포함되어야 합니다.
"Join reads from different lanes"옵션이 활성화된 경우 _L001 형식의 감지된 레인은 두 파일에 대해 동일해야 합니다.
파일 쌍이 위의 요구 사항을 충족하지 않으면 로그에 메시지가 인쇄되고 파일 쌍은 건너 뜁니다.
Imported 요소의 naming 개선
가져온 파일이 Illumina 이름 지정 형식을 따르는 경우 가져온 요소에 더 이상 _R1_001 접미사가 포함되지 않습니다.
그렇지 않고 파일 이름에서 _R1 / _R2가 감지되면 가져온 요소의 이름에서 제거됩니다.
Create Protein Report
Create Protein Report에 BLAST functionality와 관련된 업데이트가 있습니다.
NCBI에서 BLAST 검색에 대한 기본 기대값(e-value)은 0.05이며 NCBI에서 사용되는 값과 일치합니다.
상위 10개 BLAST alignment는 리포트에 포함되어 있으며, 이전에는 상위 100개였습니다. 전체 BLAST 리포트는 리포트에 결과 부분을 클릭하여 계속 이용할 수 있으며 전체 BLAST hit 테이블은 계속해서 보고서에 포함됩니다.
Local sequences 혹은 databases에 대한 검색 결과는 더 이상 리포트에 포함될 수 없습니다. (표준 BLAST 툴은 Local 검색 시 계속 사용할 수 있습니다.)
Local Realignment
Local Realignment에서 다시 정렬될 시 가장 왼쪽에 있는 리드가 바뀌면서 paired 리드가 realignment 되는 것에 제한을 제거하였습니다. 이러한 변경에 전반적인 효과는 드물게 insertion을 감지하는 가능성을 높이는 것입니다.
리드의 시작 부분에 큰 insertion의 realignment 경우에 대한 개선이 있습니다.
염색체 경계 끝 부분에 alignment 되지 않은 리드가 제거되는 문제를 수정했습니다.
QC for Targeted Sequencing
QC for Targeted Sequencing tool에서 새로운 옵션이 추가되면서 커버리지 커스텀 리스트를 구체화
리포트에는 “Targeted region overview” 섹션에서 최대 200개의 염색체 레퍼런스를 사용시 전체 염색체 세트를 포함합니다. 이전에는 염색체 제한이 100개였습니다. 이 변경은 hg38_no_alt_analysis_set 레퍼런스 데이터 세트가 Reference Data Manger에서 이제 지원됨을 의미합니다.
리포트는 최소 임계 값 이상이거나 같은 커버리지에 타겟 영역에서 염기 수와 백분율 값을 보고합니다.
Working with a CLC Server
CLC Server connection dialog는 해당 정보를 사용할 수 있는 경우 로그인하기 전에 선택한 CLC 서버의 버전 및 포트 정보를 표시합니다.
“Log In” 버튼 클릭 시, CLC Server connection dialog는 자동으로 닫힙니다. 로그인 프로세스는 백그라운드에서 실행되며, Workbench의 왼쪽 하단 모서리에 깜박이는 서버 아이콘이 표시됩니다
Workbench가 CLC 서버와의 연결이 끊기면 연결을 다시 시도합니다. CLC 서버에 저장된 Open view는 닫히지 않습니다.
CLC 서버에 저장된 파일 선택 시, 관련 확장자를 가진 파일 만 마지막 수정 날짜 및 파일 크기를 확인할 수 있습니다.
Other improvements
Alignment 점수가 0인 끝 부분을 제거하여 리드 매핑에서 alignment 품질을 개선하였습니다. 결과적으로 일부 alignment는 더 짧아지고 최소 길이 기준을 통과하지 않을 시 필터링 될 수 있습니다. 이 변경은 Map Read to Reference, RNA-Seq Analysis, Map Reads to Contigs 그리고 Map Bisulfite Reads to Reference에 적용됩니다.
Trim Reads 툴에서 옵션 이름 및 정보와 워크플로우 구성 요소들이 업데이트 되었습니다.
De Novo Assembly 보고서는 Combine Reports tool에 input 파일로 사용할 수 있습니다.
새로운 옵션인 “Filter on average expression for FDR correction”이 Differential Expression for RNA-Seq 와 Differential Expression in Two Groups tools에서 이용하실 수 있습니다. 체크 시, 자동적으로 FDR correction 수행 전에 독립적인 필터링이 수행되며, 정확도를 높입니다.
Chromosome Table View는 트랙 및 트랙 리스트에서 이용할 수 있으며, 트랙 또는 트랙 목록에 포함한 염색체 수준의 데이터를 제공합니다.
Stand-alone Read Mapping, Contig 와 BLAST Graphics views는 wrapped sequence 레이아웃을 지원합니다. 관련된 옵션은 사이드 패널에서 확인할 수 있습니다. 특히 Sanger trace 데이터로 작업할 시 관심이 있을 부분입니다.
Download Genomes에서 레퍼런스 데이터 다운로드는 이름의 일부로 버전 넘버를 포함합니다.
Insertion 근처에서 선택 시 트랙 보기 동작이 개선되었습니다
Import Metadata는 결과 메타데이터 테이블의 이름을 지정할 때 가져온 스프레드 시트의 이름을 사용합니다.
History view 가 업데이트되고, 많은 히스토리 항목을 처리할 때 성능이 향상되었습니다.
Navigation Area에 Sequence List에 마우스 커서를 가져 가면 시퀀싱 플랫폼에 대한 정보가 있을 시 툴 팁에 포함됩니다.
“Export whole area” 옵션에 사용되는 Export Graphics 툴에서 주석 랜더링이 개선되었습니다.
Demultiplex Reads 도구를 구성할 때 태그를 위아래로 이동할 수 있습니다.
Workbench와 자동으로 연결된 파일 유형 목록이 CLC 파일 (.clc) 만 포함하도록 업데이트되었습니다. Mac OS에서만 워크 벤치는 이전에 ‘Standard Import’ 툴을 사용하여 가져올 수 있는 파일 유형이 포함할 수 있습니다. Workbench는 기존처럼 standard tool을 이용하여 어떤 유형의 파일이든지 연결할 수 있습니다.
Annotate with Overlap Information 과 Filter Based on Overlap 은 insertion 과 길이가 0으로 주석된 부분과 경계선의 중첩된 영역까지 카운트합니다. 예를 들어, 한 유전자의 오른쪽 경계 부위 insertion이 있을 시 insertion overlap으로 구분합니다.
BGISEQ 플랫폼의 데이터는 SRA 툴에서 리드 검색을 사용하여 다운로드 할 수 있습니다.
SRA toolkit 이 버전 2.10.7로 업데이트되었습니다.
QC for Sequencing Reads에서 생성한 플롯과 테이블은 특히 긴 리드에서 작업 시 더 좋습니다. 데이터 포인트가 500개 이상인 테이블은 처음 100개 항목을 표시한 다음 나머지 데이터 포인트를 bin 처리합니다. 그래프에서 리드 전체 커버리가 0.005% 미만인 끝 부분은 포함되지 않습니다.
Quantify miRNA에서 seed counting에 사용되는 “"Minimum sequence length"설정의 최소값이 8로 변경되었습니다 (시드는 mature miRNA의 위치 2-8에서 7개 뉴클레오티드 서열입니다).
Quantify miRNA 결과로, “Grouped on mature” 및 “Grouped on seed table”에는 miRBase에 대한 링크가 포함되어 있습니다.
Call Methylation level에 새로운 섹션인 read conversion and direction에 대한 세부 정보가 추가되었습니다.
Combine Reports 출력의 "Trim summary" 섹션에 있는 "Reads trimmed (%)"열은 "Reads after trim (%)"열의 중복이므로 제거되었습니다.
데이터 요소를 복사할 때 속성 값이 복사되지 않도록 데이터 위치에서 사용자 지정 속성을 구성할 수 있습니다.
보기 모드에서 워크 벤치를 사용할 때 데이터 위치를 추가할 수 있습니다.
사소한 개선사항이 다양하게 있습니다.
Changes
Other changes
CLC Genomics Workbench 21.0과 함께 번들로 제공되는 Java 버전은 Java 11.08이며 AdoptOpenJDK의 JRE를 사용합니다.
CLC Genomics Workbench의 다양한 도구 (예: Map Reads to Reference, RNA-Seq Analysis, Map Reads to Contigs 및 Map Bisulfite Reads to Reference)에서 사용하는 읽기 매핑 도구가 이 릴리스에 대해 업데이트되었으며 CLC Assembly Cell 5.2.1 버전에 해당합니다. 다른 바이너리는 변경되지 않았으며 CLC 어셈블리 셀 5.1.1의 버전과 계속 일치합니다.
내보내는 요소의 기본 이름은 {input} 대신 {name}을 사용하여 지정됩니다. 해당 숫자 인 {1}은 변경되지 않습니다. 이에 따라 기본 내보내기 이름 지정 패턴이 {name}. {extension}으로 변경되었습니다. (GxS notes에만 해당되며 다음과 같이 추가됩니다: 이 변경 사항은 외부 애플리케이션에 구성된 내보내기에도 적용됩니다.) 이전에는 {input}이 사용되었습니다.
NCBI에서 BLAST에 대한 기본 예상 값 (e-값)은 0.05이고 최대 hit 수는 NCBI에서 사용되는 기본값에 맞춰 5000입니다.
BLAST 데이터베이스 생성을 사용할 때 시퀀스 식별자 처리가 변경되었습니다. 이러한 변경으로 인해 데이터베이스를 만드는 데 사용되는 시퀀스 이름 지정을 유연하게 해주고 길거나 중복된 시퀀스 이름을 허용하지 않는 것과 같은 기본 BLAST+ 프로그램 인 makeblastdb에 있는 제한을 피할 수 있습니다.
자세한 내용은 FAQ에서 제공됩니다.
Trio Analysis의 “Chromosome M name” 옵션이 “Chromosome MT name”으로 변경되었으며 기본값은 "M"대신 "MT"입니다.
Workflow Result Metadata 테이블 생성은 CLC Genomics 서버에서 워크 플로우를 실행할 때 선택 사항입니다.