[릴리즈] CLC Genomics Workbench 21.0 release 공유
[릴리즈] CLC Genomics Workbench 21.0 release 링크드인 공유 페이스북 공유 트위터 공유

CLC Genomics Workbench 21.0               Release date: 2021-01-12

 

Full workflow support for Sanger sequence analysis

Workflow를 사용하여 Sanger trace data의 자동 분석을 지원하기 위해 새로운 기능이 도입되고 개선되었습니다.

 

Trim Sequences

  • Workflow에서 사용할 수 있습니다.
  • CLC Genomics Server에서 사용할 수 있습니다.
  • 트리밍된 시퀀스를 포함하는 새 시퀀스 요소가 아웃풋으로 생성됩니다.
  • 트리밍된 read수와 트리밍 이유에 대한 요약이 포함되어 있는 보고서가 생성됩니다. 이 보고서는 Combine Reports tool에서 지원됩니다.
  • 이 도구에 사용된 UniVec 데이터베이스는 UniVec_Core 버전이 10.0으로 업데이트 되었습니다.

Other improvements supporting trace data analysis in workflows

  • Workflow에서 on-the-fly import를 사용하여 trace data를 import할 수 있습니다.
  • Assemble Sequences to Reference & Assemble Sequences tools의 아웃풋 이름이 개선되었습니다. 샘플 이름은 아웃풋의 파일 이름과 시퀀스 이름에 포함됩니다.


New tools

  • Create Sample Report는 단일 샘플과 관련된 여러 보고서에서 선택한 정보의 summary 보고서를 생성합니다. 특정 유형의 정보는 Quality Control 섹션에 포함되도록 지정할 수 있습니다.
  • Extract IsomiR Counts는 각 miRNA 또는 기타 custom added 데이터베이스 유형, 즉, piRNA 등의 read 매핑에서 정보를 추출하고, 내보낼 수 있는 테이블의 모든 매핑에 대한 정보를 수집합니다.
  • Annotate with Repeat and Homopolymer Information로 repeat 및 homopolymer 상태에 대한 정보가 포함된 새로운 두개의 column을 추가하여 variants에 annotation을 추가합니다.
  • Merge Variant Tracks은 여러 variant 트랙을 단일 트랙으로 병합합니다. Overlapping variant로부터 annotation을 추가하는 옵션을 사용할 수 있습니다.
  • Extract IsomiR Counts, Annotate with Repeat and Homopolymer Information, Merge Variant Tracks은 이전에 Biomedical Genomics Analysis 플러그인을 통해 사용할 수 있었습니다.

 

Workflow related

  • 내보내기 기능이 있는 workflow가 배치 모드에서 실행되면 각 배치 실행에서 내보낸 파일을 별도의 폴더에 저장할 수 있습니다.
  • BED & VCF 파일은 workflow안의 on-the-fly로 import할 수 있습니다.
  • On-the-fly import는 배치 모드에서 workflow를 실행할 때와 단일 반복 요소가 포함된 workflow를 실행할 때 메타 데이터 없이 사용할 수 있습니다.
  • Name placeholders for output elements and export elements가 업데이트 되었으며, 배치 모드에서 실행되는 workflow의 아웃풋 이름 지정을 보다 세밀하게 제어할 수 있습니다.
  • Improvements for Workflow Input elements:
  • Workflow 입력 요소는 탐색 영역에서 데이터 요소를 선택하거나 on-the-fly import를 사용하여 가져올 파일 선택으로 데이터 입력 방법을 제한하도록 구성할 수 있습니다.
  • 기본값은 workflow를 시작할 때 입력 방법을 선택할 수 있도록 하는 것입니다.
  • Iterate & Collect and Distribute workflow 요소에 대한 추가 구성 옵션을 사용할 수 있습니다.
  • 반복 요소가 있는 workflow가 “Batch” 체크박스를 선택된 상태에서 실행되면 workflow 결과 메타 데이터 테이블의 “Batch identifier”열에 모든 수준의 일괄 처리 및 반복을 반영하는 결합된 배치 식별자가 포함됩니다.
  • 다음 도구를 workflow에 포함할 수 있습니다.
    •  Convert to Tracks
    •  Demultiplex Reads
    •  Trim Sequences

 

Performance improvements

  •  Large alignment를 위한 alignment 편집기의 성능이 향상되었습니다.
  •  Jukes-Cantor 거리 측정을 사용하여 large tree를 만들 때, Create Tree가 훨씬 빠릅니다.
  •  Find Binding Sites and Create Fragments에 의해 생성된 large 바인딩 사이트 테이블을 내보낼 때, CLC Workbench가 응답하지 않는 문제를 수정하였습니다.
  •  “Find Associated Data” 버튼을 사용할 때, 메타 데이터 테이블과 연관된 데이터 요소 검색 성능이 향상되었습니다.
  • 많은 수의 시퀀스 (예: Trim Reads)를 생성하는 도구와 Demultiplex Read가 스레드가 많은 시스템에서는 빨리 처리할 수 있도록 성능이 향상되었습니다.
  •  Basic Variant Detection, Fixed Ploidy Variant Detection 및 Low Frequency Variant Detection 도구의 속도가 크게 향상되었습니다.
  •  CNV (Copy Number Variant Detection)의 속도가 향상되었습니다.
  •  Download Genomes 기능을 통해 다운로드 한 참조를 사용하여 Map Reads to Reference를 실행할 때 이미 캐시 된 참조 인덱스를 다시 사용할 수 있는지 여부를 결정하는 것이 더 빨라졌습니다.
  •   RNA-Seq에 대한 차등 발현 및 두 그룹의 차등 발현에서 일반화된 선형 모델의 계산을 위한 성능이 향상되었습니다

 

Working with tables

  • 열 순서는 테이블을 볼 때 조정할 수 있으며 수정된 열 순서는 열린 테이블을 예를 들어 csv 또는 Excel 형식 파일로 내보낼 때 적용됩니다 ("열 순서"에서 Working_with_tables.html로 연결하려는 의도).
  • 보고서의 테이블은 새 탭에서 열 수 있습니다. 마우스 오른쪽 버튼 클릭-> 테이블 열기.
  • 오른쪽 클릭 옵션을 사용하여 테이블을 내보낼 수 있습니다: "파일"-> "테이블 내보내기". 내보내기는 열 필터링, 순서 지정 및 선택 취소를 고려합니다.

 

Export

  • 내보낸 파일은 사용자 정의 파일 이름 정의 시작 부분에 슬래시 문자 /를 사용하여 선택한 출력 영역의 하위 폴더에 저장할 수 있습니다.
  • 트랙, 트랙 목록, 시퀀스, 정렬 및 Read 매핑의 그래픽 내보내기는 workflow에 포함되고 CLC Genomics 서버에서 실행할 수 있는 표준 내보내기로 지원됩니다.
  • Fastq exporter를 사용하여 내보낸 파일의 이름 이정 패턴이 Illumina importer가 예상하는 이름 지정 형식과 일치하도록 업데이트되었습니다.
  • 내보낸 파일 이름은 이제 "_R1.fastq"및 "_R2.fastq"로 끝납니다. 이전에 사용 된 확장자는 단일 파일을 내보낼 때 ".R1.fastq"였습니다. 두 파일로 내 보낸 쌍의 경우 두 번째 파일의 확장자는 ".R2.fastq"였습니다. (원래 이름의 첫 번째 "."는 "_"로 대체되었습니다).
  • Export VCF가 업데이트 되었습니다.
  • CNV & fusion 데이터 내보내기를 지원합니다.
  • 내보내기 위해 여러 요소를 선택한 경우 단일 파일로 내보내는 옵션이 있습니다.
  •  “.”값을 사용하여 누락된 variant annotation을 나타냅니다.
  •   VCF 4.3에 지정된대로 variant annotation의 특수 문자는 백분율 인코딩을 사용하여 내보내집니다.

 

Illumina importer

  • “Paired reads” 옵션은 기본적으로 활성화 되어있습니다.
  •  “Paired reads’ 옵션이 활성화된 경우, 유효성 검사가 향상되었고, 파일 쌍의 이름은 다음과 같이 검증됩니다. 
    • 파일 이름이 Illumina 이름 지정 형식을 따르는 경우 두 파일은 동일한 샘플 이름과 레인을 가져야합니다.
    • 파일 이름이 Illumina 이름 지정 형식을 따르지 않지만 이름에서 _R1 / _R2가 감지되면 첫 번째 파일에는 _R1이 포함되고 두 번째 파일에는 _R2가 포함되어야 합니다.
    • "Join reads from different lanes"옵션이 활성화된 경우 _L001 형식의 감지된 레인은 두 파일에 대해 동일해야 합니다.
    • 파일 쌍이 위의 요구 사항을 충족하지 않으면 로그에 메시지가 인쇄되고 파일 쌍은 건너 뜁니다.
  •   Imported 요소의 naming 개선
    • 가져온 파일이 Illumina 이름 지정 형식을 따르는 경우 가져온 요소에 더 이상 _R1_001 접미사가 포함되지 않습니다.
    • 그렇지 않고 파일 이름에서 _R1 / _R2가 감지되면 가져온 요소의 이름에서 제거됩니다.

 

Create Protein Report

Create Protein Report에 BLAST functionality와 관련된 업데이트가 있습니다.

  • NCBI에서 BLAST 검색에 대한 기본 기대값(e-value)은 0.05이며 NCBI에서 사용되는 값과 일치합니다.
  • 상위 10개 BLAST alignment는 리포트에 포함되어 있으며, 이전에는 상위 100개였습니다. 전체 BLAST 리포트는 리포트에 결과 부분을 클릭하여 계속 이용할 수 있으며 전체 BLAST hit 테이블은 계속해서 보고서에 포함됩니다. 
  • Local sequences 혹은 databases에 대한 검색 결과는 더 이상 리포트에 포함될 수 없습니다. (표준 BLAST 툴은 Local 검색 시 계속 사용할 수 있습니다.)

 

Local Realignment 

  • Local Realignment에서 다시 정렬될 시 가장 왼쪽에 있는 리드가 바뀌면서 paired 리드가 realignment 되는 것에 제한을 제거하였습니다. 이러한 변경에 전반적인 효과는 드물게 insertion을 감지하는 가능성을 높이는 것입니다.
  • 리드의 시작 부분에 큰 insertion의 realignment 경우에 대한 개선이 있습니다.
  • 염색체 경계 끝 부분에 alignment 되지 않은 리드가 제거되는 문제를 수정했습니다. 

 

QC for Targeted Sequencing 

  • QC for Targeted Sequencing  tool에서 새로운 옵션이 추가되면서 커버리지 커스텀 리스트를 구체화
  • 리포트에는 “Targeted region overview” 섹션에서 최대 200개의 염색체 레퍼런스를 사용시 전체 염색체 세트를 포함합니다. 이전에는 염색체 제한이 100개였습니다. 이 변경은 hg38_no_alt_analysis_set 레퍼런스 데이터 세트가 Reference Data Manger에서 이제 지원됨을 의미합니다.
  • 리포트는 최소 임계 값 이상이거나 같은 커버리지에 타겟 영역에서 염기 수와 백분율 값을 보고합니다.


Working with a CLC Server 

  • CLC Server connection dialog는 해당 정보를 사용할 수 있는 경우 로그인하기 전에 선택한 CLC 서버의 버전 및 포트 정보를 표시합니다.
  • “Log In” 버튼 클릭 시, CLC Server connection dialog는 자동으로 닫힙니다. 로그인 프로세스는 백그라운드에서 실행되며, Workbench의 왼쪽 하단 모서리에 깜박이는 서버 아이콘이 표시됩니다
  • Workbench가 CLC 서버와의 연결이 끊기면 연결을 다시 시도합니다. CLC 서버에 저장된 Open view는 닫히지 않습니다.
  • CLC 서버에 저장된 파일 선택 시, 관련 확장자를 가진 파일 만 마지막 수정 날짜 및 파일 크기를 확인할 수 있습니다.

 

Other improvements 

  • Alignment 점수가 0인 끝 부분을 제거하여 리드 매핑에서 alignment 품질을 개선하였습니다. 결과적으로 일부 alignment는 더 짧아지고 최소 길이 기준을 통과하지 않을 시 필터링 될 수 있습니다. 이 변경은 Map Read to Reference, RNA-Seq Analysis, Map Reads to Contigs 그리고 Map Bisulfite Reads to Reference에 적용됩니다. 
  • Trim Reads 툴에서 옵션 이름 및 정보와 워크플로우 구성 요소들이 업데이트 되었습니다.
  • De Novo Assembly 보고서는 Combine Reports tool에 input 파일로 사용할 수 있습니다.
  • 새로운 옵션인 “Filter on average expression for FDR correction”이 Differential Expression for RNA-Seq 와 Differential Expression in Two Groups tools에서 이용하실 수 있습니다. 체크 시, 자동적으로 FDR correction 수행 전에 독립적인 필터링이 수행되며, 정확도를 높입니다.
  • Chromosome Table View는 트랙 및 트랙 리스트에서 이용할 수 있으며, 트랙 또는 트랙 목록에 포함한 염색체 수준의 데이터를 제공합니다.
  • Stand-alone Read Mapping, Contig 와 BLAST Graphics views는 wrapped sequence 레이아웃을 지원합니다. 관련된 옵션은 사이드 패널에서 확인할 수 있습니다. 특히 Sanger trace 데이터로 작업할 시 관심이 있을 부분입니다.
  • Download Genomes에서 레퍼런스 데이터 다운로드는 이름의 일부로 버전 넘버를 포함합니다.
  • Insertion 근처에서 선택 시 트랙 보기 동작이 개선되었습니다
  • Import Metadata는 결과 메타데이터 테이블의 이름을 지정할 때 가져온 스프레드 시트의 이름을 사용합니다.
  • History view 가 업데이트되고, 많은 히스토리 항목을 처리할 때 성능이 향상되었습니다.
  • Navigation Area에 Sequence List에 마우스 커서를 가져 가면 시퀀싱 플랫폼에 대한 정보가 있을 시 툴 팁에 포함됩니다. 
  • “Export whole area” 옵션에 사용되는 Export Graphics 툴에서 주석 랜더링이 개선되었습니다.
  • Demultiplex Reads 도구를 구성할 때 태그를 위아래로 이동할 수 있습니다.
  • Workbench와 자동으로 연결된 파일 유형 목록이 CLC 파일 (.clc) 만 포함하도록 업데이트되었습니다. Mac OS에서만 워크 벤치는 이전에 ‘Standard Import’ 툴을 사용하여 가져올 수 있는 파일 유형이 포함할 수 있습니다. Workbench는 기존처럼 standard tool을 이용하여 어떤 유형의 파일이든지 연결할 수 있습니다.
  • Annotate with Overlap Information 과 Filter Based on Overlap 은 insertion 과 길이가 0으로 주석된 부분과 경계선의 중첩된 영역까지 카운트합니다. 예를 들어, 한 유전자의 오른쪽 경계 부위 insertion이 있을 시 insertion overlap으로 구분합니다.
  • BGISEQ 플랫폼의 데이터는 SRA 툴에서 리드 검색을 사용하여 다운로드 할 수 있습니다.
  • SRA toolkit 이 버전 2.10.7로 업데이트되었습니다.
  • QC for Sequencing Reads에서 생성한 플롯과 테이블은 특히 긴 리드에서 작업 시 더 좋습니다. 데이터 포인트가 500개 이상인 테이블은 처음 100개 항목을 표시한 다음 나머지 데이터 포인트를 bin 처리합니다. 그래프에서 리드 전체 커버리가 0.005% 미만인 끝 부분은 포함되지 않습니다.
  • Quantify miRNA에서 seed counting에 사용되는 “"Minimum sequence length"설정의 최소값이 8로 변경되었습니다 (시드는 mature miRNA의 위치 2-8에서 7개 뉴클레오티드 서열입니다).
  • Quantify miRNA 결과로, “Grouped on mature” 및 “Grouped on seed table”에는 miRBase에 대한 링크가 포함되어 있습니다.
  • Call Methylation level에 새로운 섹션인 read conversion and direction에 대한 세부 정보가 추가되었습니다.
  • Combine Reports 출력의 "Trim summary" 섹션에 있는 "Reads trimmed (%)"열은 "Reads after trim (%)"열의 중복이므로 제거되었습니다.
  • 데이터 요소를 복사할 때 속성 값이 복사되지 않도록 데이터 위치에서 사용자 지정 속성을 구성할 수 있습니다.
  • 보기 모드에서 워크 벤치를 사용할 때 데이터 위치를 추가할 수 있습니다.
  • 사소한 개선사항이 다양하게 있습니다.

 

Changes
Other changes

  • CLC Genomics Workbench 21.0과 함께 번들로 제공되는 Java 버전은 Java 11.08이며 AdoptOpenJDK의 JRE를 사용합니다.
  • CLC Genomics Workbench의 다양한 도구 (예: Map Reads to Reference, RNA-Seq Analysis, Map Reads to Contigs 및 Map Bisulfite Reads to Reference)에서 사용하는 읽기 매핑 도구가 이 릴리스에 대해 업데이트되었으며 CLC Assembly Cell 5.2.1 버전에 해당합니다. 다른 바이너리는 변경되지 않았으며 CLC 어셈블리 셀 5.1.1의 버전과 계속 일치합니다.
  • 내보내는 요소의 기본 이름은 {input} 대신 {name}을 사용하여 지정됩니다. 해당 숫자 인 {1}은 변경되지 않습니다. 이에 따라 기본 내보내기 이름 지정 패턴이 {name}. {extension}으로 변경되었습니다. (GxS notes에만 해당되며 다음과 같이 추가됩니다: 이 변경 사항은 외부 애플리케이션에 구성된 내보내기에도 적용됩니다.) 이전에는 {input}이 사용되었습니다.
  • NCBI에서 BLAST에 대한 기본 예상 값 (e-값)은 0.05이고 최대 hit 수는 NCBI에서 사용되는 기본값에 맞춰 5000입니다.
  • BLAST 데이터베이스 생성을 사용할 때 시퀀스 식별자 처리가 변경되었습니다. 이러한 변경으로 인해 데이터베이스를 만드는 데 사용되는 시퀀스 이름 지정을 유연하게 해주고 길거나 중복된 시퀀스 이름을 허용하지 않는 것과 같은 기본 BLAST+ 프로그램 인 makeblastdb에 있는 제한을 피할 수 있습니다. 
  • 자세한 내용은 FAQ에서 제공됩니다.
  • Trio Analysis의 “Chromosome M name” 옵션이 “Chromosome MT name”으로 변경되었으며 기본값은 "M"대신 "MT"입니다.
  • Workflow Result Metadata 테이블 생성은 CLC Genomics 서버에서 워크 플로우를 실행할 때 선택 사항입니다.

목록