Skip to content

GATK 安装及使用

基因组分析工具包(Genome Analysis Toolkit,简称GATK)是由布罗德研究所开发的软件包,用于分析新一代重测序数据。该工具包提供了多种工具,主要侧重于变异发现和基因分型,并强调数据质量保证。其稳健的架构、强大的处理引擎和高性能计算功能使其能够应对任何规模的项目。

本教程将介绍如何在 SonmiHPC 集群上安装 GATK4 版本,并提供给集群中用户使用。

下载安装

在安装 GATK 之前请先确认集群上是否已有 Java 8/ JDK 1.8 环境,如果没有可以查看 OpenJDK 的安装文档进行安装。可以通过下面命令查看是否已经安装以及版本:

shell
which java
java -version
which java
java -version

部分工具集需要集群上有 R 或者 Python 环境,如果没有的话也可以查看本站的相关安装文档。

直接从 GATK 的 Github 仓库下载软件压缩包,如果由于国内防火长城原因无法下载,请在本地电脑使用代理进行下载后再上传到集群上:

shell
wget https://github.com/broadinstitute/gatk/releases/download/4.6.0.0/gatk-4.6.0.0.zip
wget https://github.com/broadinstitute/gatk/releases/download/4.6.0.0/gatk-4.6.0.0.zip

下载完成后直接进行解压:

shell
unzip gatk-4.6.0.0.zip
unzip gatk-4.6.0.0.zip

为方便集群上用户使用,创建一个文件夹,并把解压出来的文件复制到新建的文件夹中:

shell
mkdir -p /share/apps/gatk/4.6.0.0
cp -r gatk-4.6.0.0/. /share/apps/gatk/4.6.0.0/
chmod -R 755 /share/apps/gatk/4.6.0.0/
mkdir -p /share/apps/gatk/4.6.0.0
cp -r gatk-4.6.0.0/. /share/apps/gatk/4.6.0.0/
chmod -R 755 /share/apps/gatk/4.6.0.0/

Modulefile 编写

将 GATK 以模块加载的方式提供给集群中其他用户使用时,创建下面文件夹,并在该路径下创建 Modulefile 文件:

shell
mkdir -p /share/apps/modulefiles/gatk
cd /share/apps/modulefiles/gatk/ && vim 4.6.0.0
mkdir -p /share/apps/modulefiles/gatk
cd /share/apps/modulefiles/gatk/ && vim 4.6.0.0

新建文件内容如下:

#%Module###########################################
set modulefilename "GATK"
set modulefilever  "4.6.0.0"

set min_tcl_ver 8.4
if { $tcl_version < $min_tcl_ver } {
    puts stderr " "
    puts stderr "ERROR: This modulefile requires tcl $min_tcl_ver or greater."
    puts stderr "Your system reports that tclsh version $tcl_version is installed."
    exit 1
}

if { [ module-info mode load ] } {
    puts stderr "Loading $modulefilename version $modulefilever"
}

if { [ module-info mode ] == "unload" || [ module-info mode ] == "remove" } {
    puts stderr "Removing $modulefilename version $modulefilever"
    puts stderr "Use  to view any remaining dependent modules."
}

prepend-path PATH /share/apps/gatk/4.6.0.0
#%Module###########################################
set modulefilename "GATK"
set modulefilever  "4.6.0.0"

set min_tcl_ver 8.4
if { $tcl_version < $min_tcl_ver } {
    puts stderr " "
    puts stderr "ERROR: This modulefile requires tcl $min_tcl_ver or greater."
    puts stderr "Your system reports that tclsh version $tcl_version is installed."
    exit 1
}

if { [ module-info mode load ] } {
    puts stderr "Loading $modulefilename version $modulefilever"
}

if { [ module-info mode ] == "unload" || [ module-info mode ] == "remove" } {
    puts stderr "Removing $modulefilename version $modulefilever"
    puts stderr "Use  to view any remaining dependent modules."
}

prepend-path PATH /share/apps/gatk/4.6.0.0

保存后,设置一下权限:

shell
chmod -R 755 /share/apps/modulefiles
chmod -R 755 /share/apps/modulefiles

集群上面的其他用户可以通过下面的命令来加载该模块:

shell
module load gatk/4.6.0.0
module load gatk/4.6.0.0

参考链接

  1. Getting started with GATK4
  2. GATK Github 仓库
  3. GATK Tutorials

本站内容未经授权禁止转载
联系邮箱: [email protected]