• [뉴스레터] Amazon S3 Object Lambda와 함께하는 PetaGene가 곧 찾아옵니다! 조회 1930 2021. 03. 24 - PetaGene은 조직이 데이터를 보호하여 서로 다른 사용자가 볼 수 있는 내용을 제어할 수 있어, 각 파일에 대해 사용자마다 볼 수 있는 콘텐츠의 허용 정도를 다르게 설정할 수 있습니다. Amazon S3 Object Lambda는 AWS S3에서 검색된 데이터를 애플리케이션에 반환하기 전에 자체 코드를 추가하여 처리할 수 있는 새로운 기능으로, 여러 애플리케이션에 서로 다른 데이터 보기를 자체적으로 제공할 수 있습니다. PetaGene에서는 Amazon S3 Object Lambda와 PetaSuite 및 PetaLink의 통합을 위해 지난 몇 달 동안 비공개 베타를 진행하였습니다. 아직 추가적인 작업이 필요하지만 곧 해당 기능을 만나보실 수 있습니다. 해당 내용은 또한 지난 3월 19일, 아마존의 공동 창립자이자 CEO인 Dan Greenfield의 발표에서도 공식적으로 소개되었습니다. PetaGene 사의 제품군과 함께 게이트웨이 솔루션이 제공할 수 있는 추가적인 이점이 어떤 것이 있는지 간단하게 설명하였습니다. 아래는 해당 부분 중 일부를 발췌하였습니다. 원문은 링크에서 확인하실 수 있습니다.   "PetaGene을 사용하면 조직이 데이터를 보호하여 사용자마다 각 파일 내의 특정 콘텐츠만 볼 수 있도록 제어할 수 있습니다. 또한 NGS genomic 데이터를 손실없이 최대 11배까지 효율적으로 압축할 수 있습니다. 사용자는 이미 우리의 user-mode readback library를 그들의 환경에 로드하여 고유의 기본 형식으로 투명하게 보호/압축된 데이터에 접근할 수 있습니다. 하지만 S3 Object Lambda와 함께라면 사용자 측에서 라이브러리를 설치할 필요없이 표준 S3 GET 요청을 통해 고유의 기본 형식의 데이터에 접근할 수 있습니다. 이를 통해 고객은 최종 사용자를 위해 PetaGene의 데이터 보호, 규정 준수 및 압축된 데이터를 더욱 쉽게 배포할 수 있습니다."  
  • [뉴스레터] PetaSuite 압축 파일을 이용한 HISAT2 벤치마킹 결과 조회 2084 2021. 02. 04 - HISAT2: Smaller files, same tools, faster analysis HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts 2)는 그래프 기반의 DNA 및 RNA 서열 모두의 read를 mapping하는 프로그램입니다. HISAT2는 graph index를 통해 빠른 검색을 가능하게 하여, 대량의 변이와 함께 인간 유전체에 대해 read를 mapping할 수 있도록 합니다. PetaGene에서는 PetaSuite와 PetaLink를 통해 생성된 무손실 압축 파일과 널리 사용되는 HISAT2과의 호환성을 보여주고, 더 빠른 전송 및 짧은 분석 시간과 같은 이점을 공개합니다. Paired FASTQ 파일에 대해 gzip 압축 후(회색)과 PetaSuite 압축 후(파란색) 파일 크기 비교 결과, PetaSuite로 압축된 파일 용량이 원래 gzip으로 압축된 파일보다 60% 감소한 것을 확인할 수 있습니다. HISAT2에서 PetaSuite 압축 데이터를 사용하기 위해서는 PetaLink라는 압축 해제 라이브러리가 필요합니다. PetaLink는 압축 파일의 해제를 통해 원본 데이터를 HISAT2에 제공합니다. PetaLink 라이브러리가 로드되면 압축되지 않은 가상의 파일이 파일 시스템에 삽입되는 방식으로 작동합니다(하늘색 글씨). 가상 파일은 압축되지 않은 원본 파일과 똑같이 보이고 작동하지만, 가상파일은 inode 리소스를 사용하지 않습니다. 아래 예시 명령어를 통해, 가상 파일을 HISAT2에 직접적으로 사용할 수 있다는 것을 확인할 수 있습니다. HISAT2 및 samtools를 통해 PetaSuite 압축파일에 대한 벤치마킹을 진행하였습니다. 결과 1 PetaSuite로 압축된 파일은 완벽히 HISAT2에서 작동합니다. 2. 아래 사진과 같이, local이나 클라우드 환경 모두에서 PetaSuite로 압축된 파일을 통해 분석하면 더 빨리 완료되는 것을 확인할 수 있습니다. 3. PetaLink Cloud Edition을 통해 클라우드에서 직접적으로 데이터를 스트리밍하여 분석되는 것을 확인하였습니다. 라이브러리를 통한 압축 해제도 즉각적으로 진행됩니다. 이는 클라우드를 통해 local 환경에서 저장소에 관련한 많은 노력을 상쇄시킬 수 있습니다. 4. PetaLink는 HISAT2에 추가 모듈이나 변형 없이 클라우드에 저장된 input 파일을 바로 분석할 수 있게 합니다.
전체 2개 중 2개 표시
  • 1