摘要: python爬虫之selenium和PhantomJS 主要的内容 ​ selenium ​ phantomjs 谷歌无头浏览器 ​ 图片的懒加载 一 什么是selenium? 介绍 它是python中的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 安装 !!!这里需要 阅读全文
posted @ 2019-03-02 21:16 茉莉花M 阅读(16085) 评论(0) 推荐(0) 编辑
摘要: python网络爬虫之requests模块 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 一 获取验证码 步骤: ​ 1 注册云大码 http://www.yundama.com/about.html ​ 2登录 开发者登录 和用户者登录 3 在开发者登录 阅读全文
posted @ 2019-03-02 20:40 茉莉花M 阅读(768) 评论(0) 推荐(0) 编辑
摘要: 引入 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么使用requess模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如下: 手动处理url 阅读全文
posted @ 2019-03-02 19:56 茉莉花M 阅读(323) 评论(0) 推荐(0) 编辑