HISAT2: Smaller files, same tools, faster analysis

HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts 2)는 그래프 기반의 DNA 및 RNA 서열 모두의 read를 mapping하는 프로그램입니다. HISAT2는 graph index를 통해 빠른 검색을 가능하게 하여, 대량의 변이와 함께 인간 유전체에 대해 read를 mapping할 수 있도록 합니다. PetaGene에서는 PetaSuite와 PetaLink를 통해 생성된 무손실 압축 파일과 널리 사용되는 HISAT2과의 호환성을 보여주고, 더 빠른 전송 및 짧은 분석 시간과 같은 이점을 공개합니다.

Paired FASTQ 파일에 대해 gzip 압축 후(회색)과 PetaSuite 압축 후(파란색) 파일 크기 비교 결과, PetaSuite로 압축된 파일 용량이 원래 gzip으로 압축된 파일보다 60% 감소한 것을 확인할 수 있습니다.

HISAT2에서 PetaSuite 압축 데이터를 사용하기 위해서는 PetaLink라는 압축 해제 라이브러리가 필요합니다. PetaLink는 압축 파일의 해제를 통해 원본 데이터를 HISAT2에 제공합니다. PetaLink 라이브러리가 로드되면 압축되지 않은 가상의 파일이 파일 시스템에 삽입되는 방식으로 작동합니다(하늘색 글씨). 가상 파일은 압축되지 않은 원본 파일과 똑같이 보이고 작동하지만, 가상파일은 inode 리소스를 사용하지 않습니다.

아래 예시 명령어를 통해, 가상 파일을 HISAT2에 직접적으로 사용할 수 있다는 것을 확인할 수 있습니다.

HISAT2 및 samtools를 통해 PetaSuite 압축파일에 대한 벤치마킹을 진행하였습니다.

Comparison of file sizes before and after compression

결과

1 PetaSuite로 압축된 파일은 완벽히 HISAT2에서 작동합니다.

2. 아래 사진과 같이, local이나 클라우드 환경 모두에서 PetaSuite로 압축된 파일을 통해 분석하면 더 빨리 완료되는 것을 확인할 수 있습니다.

3. PetaLink Cloud Edition을 통해 클라우드에서 직접적으로 데이터를 스트리밍하여 분석되는 것을 확인하였습니다. 라이브러리를 통한 압축 해제도 즉각적으로 진행됩니다. 이는 클라우드를 통해 local 환경에서 저장소에 관련한 많은 노력을 상쇄시킬 수 있습니다.

4. PetaLink는 HISAT2에 추가 모듈이나 변형 없이 클라우드에 저장된 input 파일을 바로 분석할 수 있게 합니다.