《Python3网络爬虫开发实战》读书笔记 - 随笔分类 - 橘子酱ing

《Python3网络爬虫开发实战》读书笔记5（第4章：解析库的使用pyquery）

摘要：4.3 使用pyquery 1、准备工作在开始之前，请确保已经正确安装好了pyquery。 2、初始化像Beautiful Soup一样，初始化pyquery的时候，也需要传入HTML文本来初始化一个PyQuery对象。它的初始化方式有多种，比如直接传入字符串，传入URL，传入文件名，等等。字阅读全文

posted @ 2019-08-29 16:30 橘子酱ing 阅读(240) 评论(0) 推荐(0) 编辑

《Python3网络爬虫开发实战》读书笔记4（第4章：解析库的使用Beautiful Soup）

摘要：4.2 使用Beautiful Soup 1、简介 Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将阅读全文

posted @ 2019-08-29 14:26 橘子酱ing 阅读(245) 评论(0) 推荐(0) 编辑

《Python3网络爬虫开发实战》读书笔记3（第4章：解析库的使用Xpath）

摘要：4.1 使用XPath XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。 1、XPath概览官方文档：https://www.w3.org/TR/xpath/。 2、XPa 阅读全文

posted @ 2019-08-29 08:41 橘子酱ing 阅读(304) 评论(0) 推荐(0) 编辑

《Python3 网络爬虫开发实战》读书笔记2（第3章：基础库的使用）

摘要：3.1 使用urllib urllib是python内置的HTTP请求库，包含以下四个模块。 request: 它是最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入URL以及额外的参数，就可以模拟实现这个过程。 error: 异常处理模块，如果出阅读全文

posted @ 2019-08-28 09:47 橘子酱ing 阅读(565) 评论(0) 推荐(0) 编辑

《Python3 网络爬虫开发实战》读书笔记1（第2章：爬虫基础）

摘要：之前看的是《Python网络爬虫权威指南》，看到了第三章，进度有些慢，可能是我领悟比较低。本来打算一本一本来，现在觉得变通一下可能比较好，所以想先补一下基础知识。 2.1 HTTP基本原理 2.1.1 URI和URL URI，全称：Uniform Resource Identifier，即统一资源标阅读全文

posted @ 2019-08-23 17:15 橘子酱ing 阅读(306) 评论(0) 推荐(0) 编辑

随笔分类 - 《Python3网络爬虫开发实战》读书笔记

公告