让您的科研更简单

make your research easier

Email:service@ws-bio.com

QQ:2851832131,2851832138

#

行业动态

首页 > 关于我们 > 行业动态

NCBI测序数据提交-发文章必备技能

2017-11-09 1480

什么数据是被提交对象?

就数据类型而言,上传的数据可归纳为两大类:测序原始数据和分析数据

原始数据(Raw data)指测序下机的初始文件,未经任何处理和分析,二代测序中常见的是 illumina 机器产生的 fastq 文件,454 机器产生的 sff 文件等。三代测序中主要指parbio测序仪产生的4个文件:3个bax.h5文件和1个bas.h5文件

分析数据提交则根据不同的项目类型需要向不同的数据库提交不同的分析结果。目前的高通量测序就项目类型而言可概括分类为:基因组测序、转录组测序和 meta 测序(如 16S 测序等)

什么数据应当提交到什么对应的数据库?


16055M437-0.png

如何提交呢?

以提交至SRA数据库为例,SRA 是收录各种测序原始数据的数据库,所以也是常用的数据库,无论三代还是二代测序原始数据(Raw data)都需要往SRA数据库进行提交。

数据提交流程简要一览:

1、注册NCBI账号;  

2、建立 BioSample 账号,BioSample 号以 SAMN 开头;

3、建立 BioProject  账号,BioProject 号以 PRJNA 开头;

4、登陆SRA界面,关联BioSample和BioProject;获取NCBI 服务器的链接地址以及对应的登陆账户和密码;

5、在我的电脑登陆NCBI服务器上传数据,或用软件FileZilla上传。


其他数据库提交呢?

比如基因组组装结果及注释信息提交,这类分析结果提交相对步骤繁琐,还需借助一些特定的程序和命令对数据进行处理修改,难度较高。也是先要建立 sample和project号。通常可以使用 sequin 和 tbl2asn 完成。

对数据进行处理修改需要注意的要点有:

1、序列需要去除载体或者测序引物;序列长度不能少于 200bp;序列不能包括太多的 N,少于 10% 或者小于 14 个 N。

2、注释信息文件需要与序列文件严格对应匹配。

3、样本属性描述要尽量详尽,如样本来源、物种属性、strain 信息等。


其余数据比如Meta 的测序分析数据,如 16S/18S/ITS 测序的 OTU 序列,需要使用 BankIt、Sequin、tbl2asn 等软件提交到 GenBank 数据库;基因组的组装结果和注释信息需要提交到 WGS 或者 Complete Genomes,而基因组草图 draft 只能提交到 WGS 数据库,可以借助 Sequin、tbl2asn 软件;TSA 是收录转录组测序组装结果 EST 的数据库;表观遗传学等数据则需要提交到 GEO 数据库。

如果想要更为详细的什么数据该传到什么数据库,数据库有些什么具体要求,可以登陆NCBI的官方信息进行查看,以下是提交数据库的链接,https://submit.ncbi.nlm.nih.gov/

为了保证提交的数据准确有效,一定要仔细阅读提交要求了。


请拨打:0571-86495259

咨询服务