TCGA数据相当有利用价值,然而其提供开放下载数据很少,都是大于level1的数据,除非其数据已发表相关文章,否则很难下载到。前一段时间,为了下载TCGA的原始数据花了不少时间,虽然可以下载,但下载速度很慢,至今找不到解决方法。但下载过程,使用可以记录一下,方便后续解决问题寻根究源。
TCGA介绍
截止到目前已经发现至少200种形式的癌症,还有许多这些癌症的子类型。这些癌症都是由于DNA的编码错误导致细胞生长不受控制。那么想要找到癌症根源所在,就必须得到每个癌症相关的基因组信息,从而找到治疗癌症的方法,这就是TCGA数据库存收集各种癌症的基因水平信息的目的。
TCGA是由美国国家癌症研究院(National Cancer Institute, NCI)和国家人类基因组研究所(National Human Genome Research Institute, NHGRI)合作创建的,目前为止收集了33种类型癌症的多维度基因组信息,记录了癌症相关的关键的基因组变化。TCGA数据集不仅包含癌症基因组也包含正常人类组织细胞的基因组数据,超过11000名病人的信息被记录,其中一些病人的临床信息也被记录,然而这些基因组信息包括病人临床信息大部分都没有open access,需要申请使用。
TCGA数据申请及下载
在此之前,我一直在做一个WGS生物信息分析流程,然而苦于找不到数据,实验室里现有数据都是信息不全且单一样本的数据,无法完善WGS分析流程。首先想到了TCGA数据,一看发现提供下载的都是level很高的vcf和一些注释信息,原始数据怎么下载看图:
首先进入GDC data portal,没有账号就不能下载原始数据,但其他的都可以下载,下载方式是利用其新开发工具gdc-client(之前下载方式是aspera,速度快),但这个工具对于原始数据下载(G级别)太肉了,不仅下载速度慢还断线(写了脚本 中断重新提交下载,但好像没卵用,一言难尽)。
对于level很低没有open的原始数据下载:
- 首先要有个dbGaP的账户,一般做这个的PI都会有。
- 需要写数据申请,先在dbGaP中新建自己的project,选择含有相关数据的已有的project,然后写下数据使用目的,具体如何使用数据等,然后填写各种联系人(好像学校有专门的数据接入联系人,申请需要其先通过才能达到TCGA数据管理方。所以自己要书写证明 “数据会合理规范使用” 让院里盖章,再交学校的联系人,到让其通过数据申请。)。
- 提交后学校通过,再等10天左右TCGA会邮件通知你数据申请结果,一般都会通过。至此相当于已经得到授权使用所申请的那部分数据(好像是TCGA的全部数据都可以下载)。
- 进入GDC data portal,利用得到授权的dbGaP账号登陆就可以下载到token,利用这个token就可以利用其工具gdc-client下载原始数据了。值得注意这个token好像是有期限的,大概一个月就会失效,需要重新获取一个token。
TCGA原始数据使用
花费几个月时间,这两天终于下载了一组TARGET中的神经母细胞瘤NBLs的WGS和RNA-seq原始数据(比对后bam文件),当我准备使用其call snp发现我需要准备GRCh38.d1.dv1的人参考基因组序列,于是我在NCBI的ftp资源中找到了GRCh38的版本GCA_000001405.15_GRCh38_full_plus_hs38d1_analysis_set.fna.gz,下载后做如下步骤:
- 使用samtools做了index和faidx。
- 使用picard创建了dict。
本以为大功告成,使用GATK去call snp上来就报错:
##### ERROR ------------------------------------------------------------------------------------------
##### ERROR A USER ERROR has occurred (version 3.5-0-g36282e4):
##### ERROR
##### ERROR This means that one or more arguments or inputs in your command are incorrect.
##### ERROR The error message below tells you what is the problem.
##### ERROR
##### ERROR If the problem is an invalid argument, please check the online documentation guide
##### ERROR (or rerun your command with --help) to view allowable command-line arguments for this tool.
##### ERROR
##### ERROR Visit our website and forum for extensive documentation and answers to
##### ERROR commonly asked questions http://www.broadinstitute.org/gatk
##### ERROR
##### ERROR Please do NOT post this error to the GATK forum unless you have really tried to fix it yourself.
##### ERROR
##### ERROR MESSAGE: SAM/BAM/CRAM file C310.6258_3671-T.4_gdc_realn.bam is malformed. Please see http://gatkforums.broadinstitute.org/discussion/1317/collected-faqs-about-input-files-for-sequence-read-data-bam-cramfor more information. Error details: java.util.zip.DataFormatException: invalid distance too far back
##### ERROR ------------------------------------------------------------------------------------------
好吧,一看以为下载的bam文件没有按照coordinate排序,去使用了samtools排序,结果悲剧:
[E::inflate_block] inflate failed: invalid distance too far back
[E::bgzf_read_block] inflate_block error -1
[E::bgzf_read] bgzf_read_block error -1 after 145 of 350 bytes
[bam_sort_core] truncated file. Aborting.
不死心换个工具试试,picard结果:
Exception in thread "main" htsjdk.samtools.SAMFormatException: Did not inflate expected amount
后来觉得不对啊,看了一下原始的bam文件的header文件,发现本来就是已经按照coordinate排序的了,那么问题出在哪了?在官网上samtools,GATK,picard上找了半天的不出个结果。这条路就此作罢?
我又想参考序列和bam文件contig是不是匹配,使用了picard的reordersam发现报错,果然contig不一样,samtools -H 查看就是不一样。难道问题在这里,希望如此。我在Google又查找了它指定版本,发现原来TCGA的data portal 提供指定版本GRCh38.d1.vd1参考序列下载包含:
- GCA_000001405.15_GRCh38_no_alt_analysis_set
- Sequence Decoys (GenBank Accession GCA_000786075)
- Plain text iconVirus Sequences
不仅如此这个网站还提供index文件下载,如是赶紧下载试试,发现仍然报错。
md5sum检查原始数据,发现原始数据有问题,只能重新下载,悲剧!
版权声明:本文为博主原创文章,未经博主允许不得转载。