当然不是机器人总动员中的伊娃~但是开发作者却巧妙的借用了其名,还给了伊娃的图标,作者是想开发一个像伊娃一样战斗力爆表的工具吗?
EVA,EV细胞外囊泡简写,A,Analysis的缩写,名字就是这么来的吧?(不是,是我瞎猜的...)
image-20240116231645334.png
软件地址:http://bioinfo.life.hust.edu.cn/EVAtool/
软件目的:An optimized reads assignment tool for extracellular vesicle small ncRNA quantification
软件的工作流
支持sra、fastq、gz三种格式的数据输入,使用fastqc对数据进行质量评估,Bowtie2比对,比对过程中有一个ORAA算法,主要是为了分配一个read比对到多个sRNA上时,分配给哪一种sRNA比较合理。接着进行了定量和标准化,最后是生成结果的可视化报告。
image-20240116232141727.png
安装软件
# 创建conda环境
conda create -y -n EVAtool python=3。7
# 安装依赖环境
conda install -y samtools
conda install -y bowtie2
conda install -y fastq-dump
conda install -y trimmomatic-0.39.jar
conda install -y bedtools
# pip安装
pip install evatool
## 查看是否安装成功
evatool -h
usage: evatool [-h] -i INPUT -o OUTPUT [-c CONFIG] [-n [NCRNA ...]]
EVAtool could be used to estimate the quantification and abundence of small ncRNA from EV or other sources.
options:
-h, --help show this help message and exit
-i INPUT, --input INPUT
The path of the input file, the file type could be '.sra, .fastq.gz or .fastq'.
-o OUTPUT, --output OUTPUT
The path of output file.
-c CONFIG, --config ConFIG
The path of the Config file. User can download the config file from url, or define yourself.
-n [NCRNA ...], --ncrna [NCRNA ...]
The list of small ncRNA types. User can use default ncRNA list (miRNA, rRNA, tRNA, piRNA, snoRNA, snRNA, YRNA), or define yourself.
下载准备数据
参考基因组
# 下载参考基因组 人的 和config文件
wget "http://bioinfo.life.hust.edu.cn/EVAtool/ref/refs.zip"
# 解压
unzip refs.zip
# refs内容如下:
├── four_elements.sort.bed
├── Homo_sapiens.GRCh38.86.chr.gtf
├── Homo_sapiens_v86
├── miRNA
├── piRNA
├── reference_config.json
├── rRNA
├── snoRNA
├── snRNA
├── sRNA.fa
├── tRNA
├── two_elements.sort.bed
└── YRNA
目前官网只放了人类的,其他的物种可以参考这个表格去下载:
image-20240120205536156.png
下载示例fastq数据
# Download example data
wget http://bioinfo.life.hust.edu.cn/EVAtool/example/example.fastq.gz
# fq内容
@SRR8185773.1 1 length=36
NCTACAGTGCACGTGTCTCCAGAGATCGGAAGAGCA
+SRR8185773.1 1 length=36
#AAAAEEEEEEEEEEEEEEAEEAEEAEEEE6EEEEE
@SRR8185773.2 2 length=36
GGCTGGTCCGATGGTAGTGGGTTATCAGAACAGATC
+SRR8185773.2 2 length=36
AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE
@SRR8185773.3 3 length=36
CCTGTCTGAGGGTCGGAGATCGGAAGAGCACACGTC
+SRR8185773.3 3 length=36
AAAAAEEEEAEE/E/EEEEEEEEEEE/EE/E/EEE<
运行EVAtool
# Run EVAtool
evatool -i example.fastq.gz -o ./
更多详细输入参数可以如下选择:
image-20240120203136096.png
输出结果
输出结果为一个html报告
fastq的read长度分布
image-20240120204948134.png
image-20240120204959448.png
比对到不同sRNA上的read的比例
image-20240120205029106.png
image-20240120205047822.png
加上没有比对上的reads
image-20240120205107517.png
定量结果,是一个tab键的表格
image-20240120205133456.png
每种sRNA表达top5的数据:
image-20240120205213828.png
不同sRNA的表达分布图:
image-20240120205303422.png
鉴定到的sRNA数目:
image-20240120205335945.png
image-20240120205346691.png
结果还挺丰富的,可以去用用看~
ref:
Xie G Y, Liu C J, Guo A Y. EVAtool: an optimized reads assignment tool for small ncRNA quantification and its application in extracellular vesicle datasets[J]. Briefings in Bioinformatics, 2022. link: https://doi.org/10.1093/bib/bbac310