如何下载生物数据(二):利用ftp下载参考基因组

二叶草 2020年3月19日21:00:14ftp工具评论阅读模式

前面我们介绍了如何进行生物数据的检索,当得到了数据的下载地址之后,接下来就可以开始下载了,那么下载数据的方式有很多种,最常用的就是使用浏览器进行下载,不过浏览器使用的是http(s)协议,下载速度慢,而且如果突然中断,断点续传也比较麻烦,这次我们介绍更好用的ftp协议下载方式。

FTP下载

FTP 是File Transfer Protocol(文件传输协议)的英文简称,相比于http协议,更加稳定,传输速度也更快。
很多网站提供ftp协议的数据下载。

#例如ncbi的ftp地址为:
ftp://ftp.ncbi.nlm.nih.gov/
#embl的ftp地址为:
ftp://ftp.ensembl.org/pub/

访问ftp服务器需要四个元素。

  • ftp的地址,
  • 用户名和密码,可以匿名访问,Anonymous,也就是数据是公开的,不需要要填写。
  • 端口号,ftp默认端口号是21,一般也不用填写;
  • 连接工具,有很多工具,这里面我们使用filezilla作为演示。

其实ftp的地址是可以直接通过浏览器或者资源管理器进行访问的。通过浏览器访问非常不方便,不能直接下载整个文件夹,而且不能断点续传。
通过windows系统的资源管理器,也可以访问,那么就是这种文件夹的形式,这个看起来比较工整,可以直接拖拽文件夹,但是访问速度比较忙。
所以,还是强烈推荐ftp链接工具进行访问。

Filezilla下载

filezilla的下载和安装比较容易,直接搜索,然后下载安装即可。

#Filezilla官网:
https://filezilla-project.org/

实除了还有很多ftp链接工具,比如winscp,xftp,mobaxterm等,使用方法都类似。这里我们将利用Filezilla从ncbi下载人全基因组参考序列,和对应的gff文件。

一、打开Filezilla,添加ncbi ftp地址;
ftp://ftp.ncbi.nlm.nih.gov ,ftp默认端口号为21,可以不填写,ncbi默认可以采用匿名用户访问,什么都不用填。

如何下载生物数据(二):利用ftp下载参考基因组

二、在ncbi ftp中寻找要下载的数据;
直接双击genomes目录,这里面包含了很多内容,如果想知道具体的目录内容,可以查看README文件。然后进入refseq目录,人属于脊椎动物的哺乳动物,在vertebrate_mammalian目录下,然后是Homo_sapiens目录中,表示智人。NCBI比较讨厌的是,这些目录结构经常换,过几天你按照这个目录结构也许就找不到了。

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/

如何下载生物数据(二):利用ftp下载参考基因组

其实人基因组直接在genomes目录下就有一个H_sapiens目录,也可以直接从这里下载。

三、直接拖拽到本地即可。
注意人染色体有多个版本,确定是自己需要的版本,其他基因组下载方法类似。

如何下载生物数据(二):利用ftp下载参考基因组

本文来源于:如何下载生物数据(二):利用ftp下载参考基因组-变化吧门户
特别声明:以上文章内容仅代表作者本人观点,不代表变化吧门户观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与变化吧联系。

  • 赞助本站
  • 微信扫一扫
  • weinxin
  • 加入Q群
  • QQ扫一扫
  • weinxin
二叶草
FTP-主动模式和被动模式的分析 ftp工具

FTP-主动模式和被动模式的分析

FTP,很多人都非常熟悉了。很多FTP实现的软件使用主动模式来传输数据,那主动模式和被动模式的区别在哪呢? 为啥有了主动模式还有被动模式呢? 借助wireshark来分析FTP主动模式和被动模式的区别...

发表评论