摘要:
全面支持解析JavaScript! CSS 选择器 (jQuery风格, 感谢PyQuery). XPath 选择器, for the faint at heart. 自定义user-agent (就像一个真正的web浏览器). 自动追踪重定向. 连接池与cookie持久化. 令人欣喜的请求体验,魔 阅读全文
摘要:
1、什么是XPath XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 XPath是什么? 全称为XML Path Language 一种小型的查询语言说道XPath 阅读全文
摘要:
1、selenium是什么呢? selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。 它可以做什么呢?它可以用几行代码,控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。 selenium允许让人去 阅读全文
摘要:
Cookie简介 HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容。 对于服务器来说,并不关心,也并不知道是哪个用户的请求。 对于一般浏览性的网页来说,没有任何问题。 但是,现在很多的网站,是需要用户登录的。以淘宝为例:比如说某个用户想购买一个产品,当点击 “ 阅读全文
摘要:
Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简 阅读全文
摘要:
Requests 基本使用 python发送请求时,可以用requests模块,这个模块不是内置模块 需要安装 pip install requests Requests库的七个主要方法: 方法 描述 requests.request() 构造一个请求,支撑一下各方法的基础方法 requests.g 阅读全文