第五周总结(2024.8.3)

 本周学习python爬虫所出现的问题:
1、设置请求头 Headers 的问题

一般 headers 设置 user-Agent 即可,如果有的数据是登陆后才能看到的话,还需要添加 cookies 参数(先登陆账号后,在浏览器的开发者工具中,拷贝 Cookies 即可)。这些参数都可以在浏览器的开发者工具中找到。

2、编码问题

就是爬取过程中没问题,但是用 excel 打开保存好的 csv 文件时出现乱码(用记事本打开没问题)。
这个其实就是文件的编码方式和 Excel 的解码方式不一致导致的。在 dataframe.to_csv 这句,参数里添加一个 encoding='utf_8_sig',指定文件的编码格式,应该就可以解决了

3、解析网页时,我如何快速找到数据存放的位置,并提取其中的数据?

爬取之前需要定位到数据所在的标签,这个使用 F12 开发者工具中的这个按钮,点一下按钮,然后点一下网页,可以很快定位到页面中的相应标签

列表中的每一个 li 标签中,都是一条数据,我们需要将它们都获取到,如果是用前面的 find 函数的话,每次只能获取一个 li 标签。所以我们需要使用 find_all 函数,一次性获取所有符合条件的标签,存储为数组返回

4、如何获得标签数据

<!--第一种,位于标签内容里-->
<p>这是数据这是数据</p>

<!--第二种,位于标签属性里-->
<a href="/xxx.xxx_xx_xx.html"></a>

posted @ 2024-09-02 08:54  记得关月亮  阅读(2)  评论(0编辑  收藏  举报