摘要: 学习参考:Python3网络爬虫开发实战 lxml、 Beautiful Soup、 pyquery 4.1 使用 XPath //title[@lang='eng'] :它代表选择所有名称为 title,同时属性 lang 的值为 eng 的节点 from lxml import etree ht 阅读全文
posted @ 2019-07-03 22:16 zheng1076 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 学习参考:Python3网络爬虫开发实战 3.1 urllib 官方文档链接为 : https://docs.python.org/3/library/urllib.html 3.1.1 发送请求 1. urlopen() import urllib.requestresponse = urllib 阅读全文
posted @ 2019-07-03 15:47 zheng1076 阅读(662) 评论(0) 推荐(0) 编辑
摘要: 参考:python3 网络爬虫开发实战 HTTP基本原理 URL https://github.com/favicon.ico,用 URL用RI来唯一指定了它的访问方式,这其中包括了访问协 议 https 、 访问路径 (/即根目录)和资源名称 favicon.ico。 通过这样一个链接,我们便可以 阅读全文
posted @ 2019-07-03 11:23 zheng1076 阅读(280) 评论(0) 推荐(1) 编辑
摘要: 系列学习笔记参考:python3网络爬虫开发实战 requests selenium Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 。 对于一些 JavaScript谊染的页面来说,这种抓取方式非常有效. # pip install seleni 阅读全文
posted @ 2019-07-03 09:51 zheng1076 阅读(398) 评论(0) 推荐(0) 编辑