摘要: 阅读目录: 数据解析的三种方式: 正则 Bs4 xpath 习题练习 数据解析的原理 实现标签定位 将标签中存储的文本内容或者相关的属性值进行提取 正则 正则回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数 阅读全文
posted @ 2019-05-03 18:18 小萍瓶盖儿 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-05-03 17:25 小萍瓶盖儿 阅读(162) 评论(0) 推荐(0) 编辑
摘要: Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。Requests是网络请求的一个模块 环境的安装: pip install requests requests模块的作用: 模拟浏览器发请求 requests使用(编码)流程: 指定url 基于requests模块 阅读全文
posted @ 2019-05-03 17:12 小萍瓶盖儿 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? 爬虫:通过编写程序模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程。 爬虫分类: 通用爬虫:爬取一整张页面数据,“抓取系统”。 通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备 阅读全文
posted @ 2019-05-03 16:18 小萍瓶盖儿 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 01.jupyter环境安装:https://www.cnblogs.com/Bottle-cap/articles/10805389.html 02.爬虫概述:https://www.cnblogs.com/Bottle-cap/articles/10805486.html 03.requests 阅读全文
posted @ 2019-05-03 15:50 小萍瓶盖儿 阅读(343) 评论(0) 推荐(0) 编辑
摘要: jupyter notebook环境安装 阅读目录: 一、什么是Jupyter Notebook? 二、安装Jupyter Notebook 三、运行Jupyter Notebook 一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的 阅读全文
posted @ 2019-05-03 15:49 小萍瓶盖儿 阅读(87) 评论(0) 推荐(0) 编辑