随笔 - 240
文章 - 1
评论 - 58
阅读 -
85万
随笔分类 - 爬虫相关
Scrapy爬虫框架
摘要:前言: 使用 requests + Beautifulsoup的爬虫模式,随着业务的扩展,会遇到 性能、数据快速存储、多爬虫统一管理的问题,所以选择了爬虫框架 Scrapy! Scrapy是什么? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或
阅读全文
浏览器行为模拟之requests、selenium模块
摘要:requests模块 前言: 通常我们利用Python写一些WEB程序、webAPI部署在服务端,让客户端request,我们作为服务器端response数据; 但也可以反主为客利用Python的requests模块模拟浏览器行为,向其他站点发送request,让其他站点response数据给我们;
阅读全文
Python爬虫原理
摘要:前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前; 一、爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿
阅读全文