学霸君主

2021年3月30日

摘要： 2.2　网页基础用浏览器访问网站时，页面各不相同，你有没有想过它为何会呈现这个样子呢？本节中，我们就来了解一下网页的基本组成、结构和节点等内容。 2.2.1　网页的组成网页可以分为三大部分 —— HTML、CSS 和 JavaScript。如果把网页比作一个人的话，HTML 相当于骨架，Java 阅读全文

posted @ 2021-03-30 21:57 学霸君主阅读(152) 评论(0) 推荐(0)

3.1 使用 urllib

摘要： 3.1 使用 urllib 在 Python 2 中，有 urllib 和 urllib2 两个库来实现请求的发送。而在 Python 3 中，已经不存在 urllib2 这个库了，统一为 urllib，其官方文档链接为：https://docs.python.org/3/library/urlli 阅读全文

posted @ 2021-03-30 21:53 学霸君主阅读(217) 评论(0) 推荐(0)

第三章基本库的使用

摘要：第三章基本库的使用学习爬虫，最初的操作便是模拟浏览器向服务器发出请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？需要关心请求这个数据结构的实现吗？需要了解 HTTP、TCP、IP 层的网络传输通信吗？需要知道服务器的响应和应答原理吗？可能你不知道无从下手，不过不用担心，Pytho 阅读全文

posted @ 2021-03-30 21:50 学霸君主阅读(37) 评论(0) 推荐(0)

3.3　正则表达式

摘要： 3.3　正则表达式本节中，我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然，对于爬虫来说，有了它，从 HTML 里提取想要的信息就非常方便了。 1. 实例引入说了这么多，可能我们对它到底是个什么还阅读全文

posted @ 2021-03-30 21:47 学霸君主阅读(171) 评论(0) 推荐(0)

3.2　使用 requests

摘要： 3.2　使用 requests 上一节中，我们了解了 urllib 的基本用法，但是其中确实有不方便的地方，比如处理网页验证和 Cookies 时，需要写 Opener 和 Handler 来处理。为了更加方便地实现这些操作，就有了更为强大的库 requests，有了它，Cookies、登录验证、代阅读全文

posted @ 2021-03-30 21:44 学霸君主阅读(219) 评论(0) 推荐(0)

4.3 使用 pyquery

摘要： 4.3 使用 pyquery 在上一节中，我们介绍了 Beautiful Soup 的用法，它是一个非常强大的网页解析库，你是否觉得它的一些方法用起来有点不适应？有没有觉得它的 CSS 选择器的功能没有那么强大？如果你对 Web 有所涉及，如果你比较喜欢用 CSS 选择器，如果你对 jQuery 阅读全文

posted @ 2021-03-30 21:41 学霸君主阅读(123) 评论(0) 推荐(0)

4.1　使用 XPath

摘要： 4.1　使用 XPath XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取。本节中，我们就阅读全文

posted @ 2021-03-30 21:38 学霸君主阅读(151) 评论(0) 推荐(0)

第四章解析库的使用

摘要：第四章解析库的使用上一章中，我们实现了一个最基本的爬虫，但提取页面信息时使用的是正则表达式，这还是比较烦琐，而且万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多少少还是有些不方便。对于网页的节点来说，它可以定义 id、class 或其他属性。而且节点之间还有层次关系，在网阅读全文

posted @ 2021-03-30 21:35 学霸君主阅读(37) 评论(0) 推荐(0)

第五章数据存储

摘要：第五章数据存储用解析器解析出数据之后，接下来就是存储数据了。保存的形式可以多种多样，最简单的形式是直接保存为文本文件，如 TXT、JSON、CSV 等。另外，还可以保存到数据库中，如关系型数据库 MySQL，非关系型数据库 MongoDB、Redis 等。阅读全文

posted @ 2021-03-30 21:31 学霸君主阅读(17) 评论(0) 推荐(0)

6.1 什么是 Ajax

摘要： 6.1 什么是 Ajax Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。它不是一门编程语言，而是利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页阅读全文

posted @ 2021-03-30 21:28 学霸君主阅读(110) 评论(0) 推荐(0)

公告