摘要: 最近将万方数据的爬取代码进行了重构,速度大概有10w每小时吧,因为属于公司项目,代码暂时就不开源了,所以在这里先说说思路和一些注意事项吧,顺带吐槽一下万方。 先上图: 其实逻辑也蛮简单的,医学类的期刊分了16个大类,那么首先手动将这16大类所对应的唯一id拿下来拼接出该类型的url,然后翻页请求它就 阅读全文
posted @ 2019-09-22 23:29 宋讼颂 阅读(598) 评论(0) 推荐(0) 编辑