随笔分类 - Python
摘要:需求:需求:爬取电影名称、评分、引言、详情页的 url,翻页爬取 1-10 页。 代码: import requests from lxml import etree ''' url分析: 第一页:https://movie.douban.com/top250 第二页:https://movie.d
阅读全文
摘要:1、基础语法 (1)/ 说明:从根节点开始。 示例:/html/body (2)// 说明:选择匹配的任何位置。 示例://input (3). 说明:当前节点。 (4).. 说明:父节点。 (5)@ 说明:选择属性。 示例://*[@id="kw"] # 表示选择具备 id="kw" 属性的节点
阅读全文
摘要:1、cookie 通过在客户端记录的信息确定用户身份。 http是一种无连接协议,客户端和服务端交互仅限于请求/响应过程,结束后断开,下一次请求时,服务端会认为是一个新的客户端。 为了维护连接,让服务端知道这是前一个用户发起的请求,必须在一个地方保存客户端信息。 2、session session,
阅读全文
摘要:1、post 请求 requests 请求方法除了 get 请求方法外,还有其他方法,比如常用的 post 方法。 post 应用场景如下: (1)网页需要登录的情况。 (2)需要给网页传输内容的情况。 post 用法和 get 用法一样,只是发送请求时需要加上 data 参数。 2、代码示例 im
阅读全文
摘要:1、Requests 请求常用 url:请求的 url 地址,接口文档标注的接口请求地址。 params:请求数据中的链接,常见的一个 get 请求,请求参数都是在 url 地址中。 data:请求数据,参数表单的数据格式。 json:接口常见的数据请求格式。 headers:请求头信息,http
阅读全文
摘要:1、HTTP HTTP:超文本传输协议,默认端口号是80 超文本:是指超过文本,不仅限于文本;还包括图片、音频、视频等文件。 传输协议:是指使用共用约定的固定格式来传递转换成字符串的超文本内容 2、HTTPS HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协,默认端口号:443
阅读全文