随笔分类 - python爬虫

摘要：概述：在爬取一些网站时，需要在headers中加入cookie才能返回数据，原因是存在反爬机制，我们需要尽可能的伪装成浏览器在访问这个url 时发送的数据包。 demo演示：阅读全文

posted @ 2022-07-04 21:58 nLesxw 阅读(19) 评论(0) 推荐(0) 编辑

摘要：概述：当能够爬取一页内容时，爬取多页通常不是很困难，主要是找在页数发生变化时URL 之间的关系，然后使用个变量代替url 中变化的内容，然后写个for 循环即可。 demo： from lxml import etree import requests import os #判断文件夹是否存在，不阅读全文

posted @ 2022-07-04 19:24 nLesxw 阅读(27) 评论(0) 推荐(0) 编辑

动态数据加载爬取

摘要：爬取豆瓣动态加载的数据内容：在写程序之前先要提取出动态加载数据的所在url和param 通常情况下直接ctrl+f 进行全局搜索 demo： url = 'https://movie.douban.com/j/chart/top_list' params = { 'type': '5', 'int 阅读全文

posted @ 2022-07-02 22:55 nLesxw 阅读(46) 评论(0) 推荐(0) 编辑