摘要: [TOC] 1. BeautifulSoup4简介 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你 阅读全文
posted @ 2020-01-06 19:30 油饼er 阅读(168) 评论(0) 推荐(0) 编辑
摘要: selenium [TOC] 1. selenium简介 官方文档:https://selenium python.readthedocs.io/ 2. 安装 2.1 安装selenium pip3 install selenium 2.2 安装chromedriver 2.3 验证安装 注意 se 阅读全文
posted @ 2020-01-06 17:17 油饼er 阅读(177) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. requests html简介 官方文档:http://html.python requests.org/ GiHub项目地址:https://github.com/kennethreitz/requests html 使用Python开发的同学一定听说过Requsts库,它是一个 阅读全文
posted @ 2020-01-06 17:11 油饼er 阅读(991) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. 什么是爬虫 爬虫 :一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 2. 爬虫工作原理 发送请求 模拟浏览器向web服务端 获取数据 如果服务器能正常响应,则会得到一个Response Response包含:html,json,图片,视频等 解析数据 解析得到有 阅读全文
posted @ 2020-01-06 15:43 油饼er 阅读(192) 评论(0) 推荐(0) 编辑
摘要: [TOC] requests官方中文文档: "https://requests.readthedocs.io/zh_CN/latest/" 1.安装 pip install requests 2.引入 3.请求方式 3.1 GET请求 HTTP默认的请求方法就是GET 没有请求体 数据必须在1K之内 阅读全文
posted @ 2020-01-06 00:47 油饼er 阅读(290) 评论(0) 推荐(0) 编辑