python GISAID 网站爬虫:fasta文件下载

python GISAID 网站爬虫:fasta文件下载

 关键词: GISAID;下载;fasta数据;DNA序列;脚本;python;自动化。

简介:

GISAID是流行病毒共享组织,网址“www.gisaid.org”,服务器位于美国洛杉矶、旧金山等地, 需要教育邮箱注册账号才能访问其数据。它的网站比较老旧,其中的病例数据、DNA序列文件有单次获取量限制。网站管理员从不回复任何消息。最关键的是,网站代码是动态的、并且有验证码,所以爬虫初学者往往很难在几周之内完成这个爬虫。

我已经写好了fasta文件和病例信息自动化获取的程序,发布在博客园。(估计也没人会转载吧,想拿就随便拿去吧)

使用步骤:

1.安装python

安装好python, 将python安装路径加入系统路径Path

2. 安装selenium软件包

同时按住win徽标键 + R键,输入cmd打开DOS窗口,

 输入命令:

pip install selenium

3.下载火狐浏览器selenium驱动

下载火狐;

Issues · mozilla/geckodriver (github.com) ,下载对应版本的geckodriver驱动,解压出geckodriver.exe。

 

 

4.下载脚本并运行

c4-driod/GISAID-spiders: A selenium spider for GISAID (github.com)下载gis_fasta文件,将geckodriver.exe放入脚本所在目录。

双击“start_gui.py”,输入信息,开始运行(界面有更新,这里懒得放了)。

 

 

 

 

posted @   小鱼圆又圆  阅读(1871)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示