随笔分类 -  爬虫笔记

毕设时的相关学习笔记
摘要:ch6&7 动态渲染页面的爬取 ajax数据爬取 动态渲染页面的爬取 selenium的使用 splash的使用 1. ajax数据爬取 ajax数据的爬取主要依靠分析XHR请求,利用resquests库构造响应来完成。 2. 动态渲染页面的爬取 0. intro 动态渲染页面技术不止XHR一种,而 阅读全文
posted @ 2022-08-13 09:33 dysonkkk 阅读(136) 评论(0) 推荐(0) 编辑
摘要:ch5. 数据存储 文件存储 JSON文件存储 关系型数据库存储 Mysql 1. JSON文件存储 1. JSON中的对象和数组 对象 ​ 格式为{key1:value1, key2:value2}. 其中键名可以为字符串, 整数, 值可以为任意类型 数组 ​ 格式为['content1', 'c 阅读全文
posted @ 2022-08-13 09:32 dysonkkk 阅读(29) 评论(0) 推荐(0) 编辑
摘要:ch4. 解析库的使用 使用 Xpath 使用pyquery 使用pyquery 1. 基本方法 from pyquery import PyQuery as pq doc = pq(html) print(doc) PyQuery对象可以接受的参数有 html格式的字符串 html文件 指定参数u 阅读全文
posted @ 2022-08-13 08:26 dysonkkk 阅读(36) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示