中科院超级计算青岛分中心mireap安装手册

安装目录: 
/public/bio_app/mireap
软件介绍: 

相对与针对某条miRNA简单的克隆来讲,高通量测序技术给我们提供了一个新的发现microRNA的机会,mireap软件就是处理高通量测序技术获得的miRNA序列,它依据miRNA的产生原理,通过miRNA独特的发夹前体结构和酶切位点的保守性等,考虑前体的折叠自由能等信息,预测已经发现的和新的miRNA序列。

安装步骤: 

Mireap软件是一个perl脚本程序,运行前需要在电脑中安装perl脚本解释程序,并且需要安装ViennaRNA1.7压缩包,VienaRNA是Ivo Hofacker编写的,用于预测RNA二级结构,其下载地址为:
http://www.tbi.univie.ac.at/RNA

复制mireap_0.2.tar.gz到一个文件夹,接下来运行下面的脚本进行解压缩:

tar -zxvf mireap_0.2.tar.gz 

在运行mireap之前,需要将/foo/bar/mireap_0.1/lib这个路径加入到PERL5LIB的环境变量:

针对csh/tcsh的命令行: 

setenv PERL5LIB /foo/bar/mireap_0.2/lib

针对sh/ksh/bash的命令行: 

export PERL5LIB=/foo/bar/mireap_0.2/lib

使用方法:

mireap默认的使用方法如下: 

perl /export/training/software/mireap_0.2/bin/mireap.pl -i input/smrna.fa -m

input/map.txt -r input/ref.fa -o result -t test 

其中smrna.fa是测序小RNA序列,reference.fa是参考基因组的序列,这两个文件都是标准的fasta格式文件:

>t0000035 3234 

GAATGGATAAGGATTAGCGATGATACA 

** t0000035

是测序序列的ID, 3234是此序列表达的次数,下一行表示序列。

map.txt是测序小RNA序列和参考基因组的比对结果,以制表符隔开的每一列分别代表:

测序序列ID,参考序列中染色体ID,染色体比对的起始位置,与染色体比对的终止位置,比对的正反向(+/-) 

而outdir是存放结果的目录,test则是此样品的名称。

我们还可以通过调整mireap程序的各个参数来调整软件的运行,从而获得更加适用于我们自身情况的一些结果。

perl /export/training/software/mireap_0.2/bin/mireap.pl -i input/smrna.fa -m

input/map.txt -r input/ref.fa -o result -t test [-A int] [-B int] [-a int] [-b int] [-u int] [-e folat] [-d int] [-p int] [-v int] [-s int] [-f int] 

其中:str表示一个字符串,如sample1。

Int表示一个整数,如1,2,3,5。

Folat表示一个浮点数,如1.2355。

每个参数的意义如下:

-i <file> 测序小RNA序列,fasta格式,必选参数

-m <file> 测序小RNA和参考基因组的比对结果,列表格式,必选参数

-r <file> 参考基因组序列,fasta格式,必选参数

-o <dir> 结果文件存放位置(默认为当前目录)

-t <str> 样品名称(默认为XXX)

-A <int> 测序小RNA的最小长度(默认为18)

-B <int> 测序小RNA的最大长度(默认为26)

-a <int> 成熟体miRNA的最小长度(默认为20)

-b <int> 成熟体miRNA的最大长度(默认为24)

-u <int> 同一miRNA在基因组上多个位置出现时,要求最多出现的次数(拷贝数,默认为20)

-e <folat> miRNA前体能量的最大值(折叠自由能,越小越稳定,默认为-18 kcal/mol)

-d <int> miRNA和miRNA*之间的允许最大距离(默认为35)

-p <int> miRNA和miRNA*之间能够匹配的碱基数应不低于此数值(默认为14)

-v <int> miRNA和miRNA*之间的bulge部分允许的最大值(默认为4)

-s <int> miRNA/miRNA* duplex的overhang允许的最大值(默认为5)

-f <int> miRNA和miRNA*两侧的最大长度(默认为10)

-h  帮助文档2.4 

运行结果:

Mireap在输出目录下会产生三个文件,分别是:

*.aln 

这个文件包含新预测的发夹前体序列及结构.测序得到的小RNAs也会比对到这个前体结构,通过检查这个前体结构,我们可以对新预测的miRNA有更深的了解。

*.gff 

这个文件包含mireap产生的新的miRNA及其前体、结构信息,文件格式为GFF3.详细了解GFF3格式可以参考网站:

http://www.sequenceontology.org/gff3.shtml

*.gff文件中的’count’表示测序序列表达的次数。

*.log 

Log文件中寄存了软件的一些参数及序列等详细预测信息.