摘要: 【第1章】爬虫介绍及环境软件 【第2章】requests基本使用 【第3章】requests高级部分 【第4章】多任务异步爬虫及selenium模块使用 阅读全文
posted @ 2019-12-02 16:33 犇羴鱻龘毳 阅读(144) 评论(0) 推荐(0) 编辑
摘要: requests模块的基本使用 基于网络请求的模块。 环境的安装:pip install requests 作用:模拟浏览器发起请求 分析requests的编码流程: 1.指定url 2.发起了请求 3.获取响应数据 4.持久化存储 需求:爬取搜狗首页的页面源码数据 需求:简易的网页采集器 上述代码 阅读全文
posted @ 2019-12-02 16:27 犇羴鱻龘毳 阅读(854) 评论(0) 推荐(0) 编辑
摘要: 爬虫 什么是爬虫 就是通过编写程序模拟浏览器上网,让其去互联网中抓取数据的过程。 爬虫的分类: 通用爬虫:爬取一整张页面源码数据。 聚焦爬虫:爬取页面中局部的数据。一定是在通用爬虫的基础上实现。 数据解析 增量式爬虫:用来监测网站数据更新的情况。以便于爬取最新更新出来的数据! 爬虫合法性探究: 爬虫 阅读全文
posted @ 2019-12-02 16:24 犇羴鱻龘毳 阅读(259) 评论(0) 推荐(0) 编辑