上篇文章我们知道怎么下载数据、了解了关于GEO数据库的构成。
今天学习以下内容:
① “从GEO数据库批量下载原始测序数据的最简单方法”;
② “合并多个NCBI-Bioproject的metadata”。
1、从 GEO 数据库批量下载原始测序数据的最简单方法通常涉及以下步骤:
1)获取 SRR 编号
从 GEO 数据库找到目标数据集(如 GSE 编号),然后通过工具(如 SRA Run Selector)下载相应的 SRR 编号列表。
2)批量下载数据
使用 sratoolkit 提供的 prefetch 和 fasterq-dump 工具,可以直接下载并处理 SRR 数据。
3)具体步骤
① 准备工作:
从 GEO 网站获取目标数据集(GSE 编号)。
在SRA Run Selector中输入 GSE 编号,导出包含 SRR 编号的SRR_Acc_List.txt文件。
② 安装依赖工具:
确保安装了最新版本的sratoolkit。
测试工具是否安装成功:prefetch --version和fasterq-dump --version。
③ 运行脚本:
将SRR_Acc_List.txt放到与脚本相同的目录中。
运行脚本:bash download_geo_data.sh。
这个放在LINUX上运行bash download_geo_data.sh
下载好了之后,解压,便可以用于后续分析!
2、合并多个NCBI-Bioproject的metadata
1)数据下载和整理
主要有2种类型的数据
① PRJNA开头的编号
按图示点击即可
下载后,重命名为:
SraRunTable_PRJNA656167.txt
注意:
① 当遇到PRJNA开头的编号,下载、重命名过程如上图例。
② 当遇到SRA开头的编号,需按照以下图例搜索:
例如:SRA065095
一步步就下载了,也是补充上一篇文章中,这部分数据下载内容
本次演示主要用以下5个数据,PRJNA656167、SRA065095、PRJNA268900、PRJNA559678、 andPRJNA522942。大家按照以上步骤下载好就行。也可以留言发给大家。
2)数据储存
可新建一个空的文件夹储存他们
3)数据处理
① 在R代码中,metadata的合并原则:
1. 合并所有表格的信息,且不损失任何信息;
2. 只认准各个表格的表头或列的名称,名称完全匹配时直接合并;
3. 任何表格中多出的 (即特有的)表头或列的名称,保留到最终的表格中,其它表格在此列没有信息时输出NA值。rm(list = ls())
代码示例:
最终生成metadata.txt
最终的表格里,菌株/病毒的分离时间、地点 (国家、城市、洲、经纬度均可保留)都比较重要。经纬度的"受控列名"为:Lat_Lon。
② 如果你想,查找文献中的进化树样本名、菌株名或尖端名 (Tip name),在合并后的元数据表中找到对应的 Run 编号 (SRRxxx)。
match(c("Sample.Name", "Strain", "Run", "Isolate"), colnames(prj_all))一句代码
③ 如果你想,无缝接入合并元数据后的结果。并且,最终生成的 final_metadata.txt 可直接用于后续分析,例如下载 FastQ 文件或构建进化树等。
bash match_tip_names.sh需要代码留言
④ 如果你想,使用 fastq-dump 工具下载细菌全基因组的测序数据,关键部分是提取 Run 列 的值,然后并行执行下载任务。
bash download_sra_data.sh
好吧以上内容介绍完了。
下次开始绘图了。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~