NCBI测序数据批量下载与使用

    技术2022-07-16  98

    一. 数据下载:SRA Tookit下载

    SRA Tookit是NCBI 提供的下载软件,我们需要下载安装,下载地址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 。

    选择需要的SRA Tookit 版本进行下载,下载后直接解压到某个指定位置即可。然后搜索SRA数据,例如,我们要下载SRP108428(阅读文献可以找到公开数据的project号)下的所有数据,打开NCBI网址:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP108428(此处为project号),点击"Accession List"键,下载得到SRR List 储存在sra.txt文件中。

    得到sra.txt文件如下:

    使用SRA Tookit 的prefetch进行下载,prefetch放在sratoolkit文件夹下的bin目录。

    $ sratoolkit-centos_linux64/bin/prefetch --option-file sra.txt

    二. SRA文件格式转换

    最近NCBI的数据格式由于空间缘故都转换成了*.sra格式,不再支持*.fastq.gz,因此需要一个SRA Tookit 的fastq-dump来转换下载的*.sra数据文件。

    $ fastq-dump -A <SRR_accession> -D <Path_to_SRR_Directory> -O <Output_Path>

    Processed: 0.012, SQL: 9