第五周总结（2024.8.3）

本周学习python爬虫所出现的问题：

1、设置请求头 Headers 的问题

一般 headers 设置 user-Agent 即可，如果有的数据是登陆后才能看到的话，还需要添加 cookies 参数（先登陆账号后，在浏览器的开发者工具中，拷贝 Cookies 即可）。这些参数都可以在浏览器的开发者工具中找到。

2、编码问题

就是爬取过程中没问题，但是用 excel 打开保存好的 csv 文件时出现乱码（用记事本打开没问题）。
这个其实就是文件的编码方式和 Excel 的解码方式不一致导致的。在 dataframe.to_csv 这句，参数里添加一个 encoding='utf_8_sig'，指定文件的编码格式，应该就可以解决了

3、解析网页时，我如何快速找到数据存放的位置，并提取其中的数据？

爬取之前需要定位到数据所在的标签，这个使用 F12 开发者工具中的这个按钮，点一下按钮，然后点一下网页，可以很快定位到页面中的相应标签

列表中的每一个 li 标签中，都是一条数据，我们需要将它们都获取到，如果是用前面的 find 函数的话，每次只能获取一个 li 标签。所以我们需要使用 find_all 函数，一次性获取所有符合条件的标签，存储为数组返回

4、如何获得标签数据

<p>这是数据这是数据</p>

<a href="/xxx.xxx_xx_xx.html"></a>

posted @ 2024-09-02 08:54 记得关月亮阅读(2) 评论(0) 编辑收藏举报

刷新页面返回顶部

Sunyiran

第五周总结（2024.8.3）

本周学习python爬虫所出现的问题：

1、设置请求头 Headers 的问题

公告