抓取Web of Science经验分享

受新加坡某科研机构委托，需要对国内469所高校，156个学科，25年内在中的“引文报告”（如下图示例）数据进行采集。检索次数超180万次。

该网站“需要登陆，并且会封账号”，具有很强的典型性，特对本网站的采集经验分享如下：

1. Web of Science必须登陆才能检索，而且同一个账号不能重复登陆，新的登陆会造成同一账号老的会话失效。

2. 同一账号的会话可以多线程使用，不会互相干扰检索结果。

3. 账号可能会被封，被封之后会提示“您帐户的 "漫游" 功能已被禁用”（如下图所示）。这个可能是Web of Science运维人工干预的，在我们的测试过程中，在相同的访问频率下，有的账号只能搜索一两万次就被封了，而有的却能搜索十几万次。在爬虫中我们加入了自动切换账号的功能，如果检测到账号被封则自动换用下一个账号，不需要人工介入。我们总共进行了超过180次的搜索，总共使用了25个账号。

4. 账号每日访问次数有限制，超过之后会提示“Server.IDLimit”之类错误（如下图所示），如果检测到账号被封则自动换用下一个账号，也不需要人工介入。

5. Cookie会不停的变动，每次查询网站都会返回新的Cookie，不能持续的使用老的Cookie（有时效性），否则一段时间后会出现Timeout问题。我们一开始以为是代理的问题，后来经过多次验证是因为Cookie变化了造成的，应该是触发了WAF的防护策略。在我们的爬虫中，如果连续检测到多次出现Timeout问题，爬虫自动重新登陆，即可恢复正常。

6. 每搜索满200次系统会提示“记录本次会话中所有检索的“检索历史” 列表已满”，造成检索失败。所以爬虫中需要每隔200次清空一下搜索结果。

7. 会出现搜索失败的情况，爬虫需要进行重试直至成功。

8. 可以不使用代理IP，我们采集的过程中未发现该系统对IP访问频率有限制。

9. 为了不对系统造成过重负担（Richard曾说过在采集别人网站的时候要心怀感恩），我们爬虫仅使用了5个线程。进行180万搜索，共耗时约20天。

10. 由于搜索需要大量时间，爬虫使用了缓存机制，防止客户修改字段后需要二次下载。

posted on 2021-04-06 09:45 宏宇阅读(1183) 评论(0) 编辑收藏举报

随笔分类

随笔档案

友情链接

搜索

常用链接

最新随笔

积分与排名

随笔分类 (773)

随笔档案 (2153)

文章分类 (15)

文章档案 (19)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论