热点新闻
GEO数据下载加知识点(中上)
2024-12-18 14:33  浏览:165  搜索引擎搜索“手机财发网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在手机财发网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

上篇文章我们知道怎么下载数据、了解了关于GEO数据库的构成。

今天学习以下内容:

① “从GEO数据库批量下载原始测序数据的最简单方法”;

② “合并多个NCBI-Bioproject的metadata”。



1、从 GEO 数据库批量下载原始测序数据的最简单方法通常涉及以下步骤:

1)获取 SRR 编号

从 GEO 数据库找到目标数据集(如 GSE 编号),然后通过工具(如 SRA Run Selector)下载相应的 SRR 编号列表。

2)批量下载数据

使用 sratoolkit 提供的 prefetch 和 fasterq-dump 工具,可以直接下载并处理 SRR 数据。

3)具体步骤

① 准备工作

从 GEO 网站获取目标数据集(GSE 编号)。

在SRA Run Selector中输入 GSE 编号,导出包含 SRR 编号的SRR_Acc_List.txt文件。

② 安装依赖工具

确保安装了最新版本的sratoolkit。

测试工具是否安装成功:prefetch --version和fasterq-dump --version。

③ 运行脚本

将SRR_Acc_List.txt放到与脚本相同的目录中。

运行脚本:bash download_geo_data.sh。




这个放在LINUX上运行bash download_geo_data.sh

下载好了之后,解压,便可以用于后续分析!


2、合并多个NCBI-Bioproject的metadata

1)数据下载和整理

主要有2种类型的数据

① PRJNA开头的编号




按图示点击即可

下载后,重命名为:

SraRunTable_PRJNA656167.txt

注意:

① 当遇到PRJNA开头的编号,下载、重命名过程如上图例。

② 当遇到SRA开头的编号,需按照以下图例搜索:

例如:SRA065095




一步步就下载了,也是补充上一篇文章中,这部分数据下载内容

本次演示主要用以下5个数据,PRJNA656167、SRA065095、PRJNA268900、PRJNA559678、 andPRJNA522942。大家按照以上步骤下载好就行。也可以留言发给大家。

2)数据储存




可新建一个空的文件夹储存他们

3)数据处理
① 在R代码中,metadata的合并原则:  

1. 合并所有表格的信息,且不损失任何信息;

2. 只认准各个表格的表头或列的名称,名称完全匹配时直接合并; 

3. 任何表格中多出的 (即特有的)表头或列的名称,保留到最终的表格中,其它表格在此列没有信息时输出NA值。rm(list = ls())

代码示例:




最终生成metadata.txt

最终的表格里,菌株/病毒的分离时间、地点 (国家、城市、洲、经纬度均可保留)都比较重要。经纬度的"受控列名"为:Lat_Lon。

② 如果你想,查找文献中的进化树样本名、菌株名或尖端名 (Tip name),在合并后的元数据表中找到对应的 Run 编号 (SRRxxx)。




match(c("Sample.Name", "Strain", "Run", "Isolate"), colnames(prj_all))一句代码

③ 如果你想,无缝接入合并元数据后的结果。并且,最终生成的 final_metadata.txt 可直接用于后续分析,例如下载 FastQ 文件或构建进化树等。




bash match_tip_names.sh需要代码留言

④ 如果你想,使用 fastq-dump 工具下载细菌全基因组的测序数据,关键部分是提取 Run 列 的值,然后并行执行下载任务。




bash download_sra_data.sh

好吧以上内容介绍完了。

下次开始绘图了。


生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

发布人:145e****    IP:124.223.189***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发