摘要:
概述: 在爬取一些网站时,需要在headers中加入cookie才能返回数据,原因是存在反爬机制,我们需要尽可能的伪装成浏览器在访问这个url 时发送的数据包。 demo演示: 阅读全文
摘要:
概述: 当能够爬取一页内容时,爬取多页通常不是很困难,主要是找在页数发生变化时URL 之间的关系,然后使用个变量代替url 中变化的内容,然后写个for 循环即可。 demo: from lxml import etree import requests import os #判断文件夹是否存在,不 阅读全文