探序基因肿瘤研究院整理
1. ICGC网站
ICGC胰腺癌数据集总览,EXP-A代表有芯片的基因表达数据,EXP-S有RNASeq的基因表达数据。点击进入一个数据集,再点击Open in DCC Data Releases,可进入下载文件的页面。下载了一个exp_seq.PACA-CA.tsv.gz,里面不是一个矩阵文件,而是一个一行代表一个样本的一个基因的表达情况,要将这个表格转换成矩阵形式。同时,它的基因名字是ENSG编号的,要转换成常规基因名字。注意,同一个病人可能有多个样本的基因表达记录,要注意考虑样本类型。specimen.PACA-CA.tsv.gz文件记录有样本的来源种类,比如是肿瘤组织的,还是癌旁或者血液。donor.PACA-CA.tsv.gz记录有病人的临床信息,诸如生存时间,分期等等。关于RNASeq,基因表达表格中,有raw_read_count和normalized_read_count,也列了所使用的软件。但有时候normalized这列数据,表格并未交代清楚是TPM还是FPKM值。
2. TCGA网站