会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
宋讼颂
博客园
首页
新随笔
联系
订阅
管理
2019年9月22日
采集万方医药方向的期刊+文章+作者信息(数据量千万级)
摘要: 最近将万方数据的爬取代码进行了重构,速度大概有10w每小时吧,因为属于公司项目,代码暂时就不开源了,所以在这里先说说思路和一些注意事项吧,顺带吐槽一下万方。 先上图: 其实逻辑也蛮简单的,医学类的期刊分了16个大类,那么首先手动将这16大类所对应的唯一id拿下来拼接出该类型的url,然后翻页请求它就
阅读全文
posted @ 2019-09-22 23:29 宋讼颂
阅读(623)
评论(0)
推荐(0)
编辑
公告