GATK 安装及使用
基因组分析工具包(Genome Analysis Toolkit,简称GATK)是由布罗德研究所开发的软件包,用于分析新一代重测序数据。该工具包提供了多种工具,主要侧重于变异发现和基因分型,并强调数据质量保证。其稳健的架构、强大的处理引擎和高性能计算功能使其能够应对任何规模的项目。
本教程将介绍如何在 SonmiHPC 集群上安装 GATK4 版本,并提供给集群中用户使用。
下载安装
在安装 GATK 之前请先确认集群上是否已有 Java 8/ JDK 1.8 环境,如果没有可以查看 OpenJDK 的安装文档进行安装。可以通过下面命令查看是否已经安装以及版本:
shell
which java
java -version
which java
java -version
部分工具集需要集群上有 R 或者 Python 环境,如果没有的话也可以查看本站的相关安装文档。
直接从 GATK 的 Github 仓库下载软件压缩包,如果由于国内防火长城原因无法下载,请在本地电脑使用代理进行下载后再上传到集群上:
shell
wget https://github.com/broadinstitute/gatk/releases/download/4.6.0.0/gatk-4.6.0.0.zip
wget https://github.com/broadinstitute/gatk/releases/download/4.6.0.0/gatk-4.6.0.0.zip
下载完成后直接进行解压:
shell
unzip gatk-4.6.0.0.zip
unzip gatk-4.6.0.0.zip
为方便集群上用户使用,创建一个文件夹,并把解压出来的文件复制到新建的文件夹中:
shell
mkdir -p /share/apps/gatk/4.6.0.0
cp -r gatk-4.6.0.0/. /share/apps/gatk/4.6.0.0/
chmod -R 755 /share/apps/gatk/4.6.0.0/
mkdir -p /share/apps/gatk/4.6.0.0
cp -r gatk-4.6.0.0/. /share/apps/gatk/4.6.0.0/
chmod -R 755 /share/apps/gatk/4.6.0.0/
Modulefile 编写
将 GATK 以模块加载的方式提供给集群中其他用户使用时,创建下面文件夹,并在该路径下创建 Modulefile 文件:
shell
mkdir -p /share/apps/modulefiles/gatk
cd /share/apps/modulefiles/gatk/ && vim 4.6.0.0
mkdir -p /share/apps/modulefiles/gatk
cd /share/apps/modulefiles/gatk/ && vim 4.6.0.0
新建文件内容如下:
#%Module###########################################
set modulefilename "GATK"
set modulefilever "4.6.0.0"
set min_tcl_ver 8.4
if { $tcl_version < $min_tcl_ver } {
puts stderr " "
puts stderr "ERROR: This modulefile requires tcl $min_tcl_ver or greater."
puts stderr "Your system reports that tclsh version $tcl_version is installed."
exit 1
}
if { [ module-info mode load ] } {
puts stderr "Loading $modulefilename version $modulefilever"
}
if { [ module-info mode ] == "unload" || [ module-info mode ] == "remove" } {
puts stderr "Removing $modulefilename version $modulefilever"
puts stderr "Use to view any remaining dependent modules."
}
prepend-path PATH /share/apps/gatk/4.6.0.0
#%Module###########################################
set modulefilename "GATK"
set modulefilever "4.6.0.0"
set min_tcl_ver 8.4
if { $tcl_version < $min_tcl_ver } {
puts stderr " "
puts stderr "ERROR: This modulefile requires tcl $min_tcl_ver or greater."
puts stderr "Your system reports that tclsh version $tcl_version is installed."
exit 1
}
if { [ module-info mode load ] } {
puts stderr "Loading $modulefilename version $modulefilever"
}
if { [ module-info mode ] == "unload" || [ module-info mode ] == "remove" } {
puts stderr "Removing $modulefilename version $modulefilever"
puts stderr "Use to view any remaining dependent modules."
}
prepend-path PATH /share/apps/gatk/4.6.0.0
保存后,设置一下权限:
shell
chmod -R 755 /share/apps/modulefiles
chmod -R 755 /share/apps/modulefiles
集群上面的其他用户可以通过下面的命令来加载该模块:
shell
module load gatk/4.6.0.0
module load gatk/4.6.0.0