随笔分类 - python爬虫
摘要:概述: 在爬取一些网站时,需要在headers中加入cookie才能返回数据,原因是存在反爬机制,我们需要尽可能的伪装成浏览器在访问这个url 时发送的数据包。 demo演示:
阅读全文
摘要:概述: 当能够爬取一页内容时,爬取多页通常不是很困难,主要是找在页数发生变化时URL 之间的关系,然后使用个变量代替url 中变化的内容,然后写个for 循环即可。 demo: from lxml import etree import requests import os #判断文件夹是否存在,不
阅读全文
摘要:爬取豆瓣动态加载的数据内容: 在写程序之前先要提取出动态加载数据的所在url和param 通常情况下直接ctrl+f 进行全局搜索 demo: url = 'https://movie.douban.com/j/chart/top_list' params = { 'type': '5', 'int
阅读全文