该文被密码保护。 阅读全文
posted @ 2019-04-25 19:54 xiaohe520 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 使用浏览器渲染引擎。直接用浏览器在显示网页时解析HTML,应用CSS样式并执行JavaScript的语句。 这方法在爬虫过程中会打开一个浏览器,加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来。用一句简单而通俗的话说,使用浏览器渲染方法,爬取动态网页变成了爬取静态网页。 我们可以用Pytho 阅读全文
posted @ 2019-04-25 12:22 xiaohe520 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 函数式线程写起来比较简单,但是功能没有threading那么高级,先来个函数式编程样例: 然后就是threading线程样例: 如果觉得这个还慢有不足的地方,可以试试queue的多线程爬虫 阅读全文
posted @ 2019-04-25 11:29 xiaohe520 阅读(563) 评论(0) 推荐(0) 编辑