随笔分类 - 《Python3网络爬虫开发实战》读书笔记
摘要:4.3 使用pyquery 1、准备工作 在开始之前,请确保已经正确安装好了pyquery。 2、初始化 像Beautiful Soup一样,初始化pyquery的时候,也需要传入HTML文本来初始化一个PyQuery对象。它的初始化方式有多种,比如直接传入字符串,传入URL,传入文件名,等等。 字
阅读全文
摘要:4.2 使用Beautiful Soup 1、简介 Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将
阅读全文
摘要:4.1 使用XPath XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。 1、XPath概览 官方文档:https://www.w3.org/TR/xpath/。 2、XPa
阅读全文
摘要:3.1 使用urllib urllib是python内置的HTTP请求库,包含以下四个模块。 request: 它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程。 error: 异常处理模块,如果出
阅读全文
摘要:之前看的是《Python网络爬虫权威指南》,看到了第三章,进度有些慢,可能是我领悟比较低。本来打算一本一本来,现在觉得变通一下可能比较好,所以想先补一下基础知识。 2.1 HTTP基本原理 2.1.1 URI和URL URI,全称:Uniform Resource Identifier,即统一资源标
阅读全文