爬虫 - 随笔分类 - 凯旋.Lau

爬虫---scrapy分布式和增量式

摘要：分布式概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因调度器不能被共享, 管道也不能被共享. scrapy + scrapy-redis 可以实现分布式 scrapy-redis组件的作用: 阅读全文

posted @ 2020-09-25 11:23 凯旋.Lau 阅读(179) 评论(0) 推荐(0)

爬虫---scrapy全站爬取

摘要：全站爬取1 基于管道的持久化存储数据解析（爬虫类）将解析的数据封装到item类型的对象中（爬虫类）将item提交给管道， yield item（爬虫类）在管道类的process_item中接手收item对象，并进行任意形式的持久化存储操作（管道类）在配置文件中开启管道细节：将爬取到的阅读全文

posted @ 2020-09-25 11:22 凯旋.Lau 阅读(728) 评论(0) 推荐(0)

爬虫---scrapy架构和原理

摘要：scrapy是一个为了爬取网站数据, 提取结构性数据而编写的应用框架, 它是基于Twisted框架开发而来, 而Twisted框架是事件驱动的, 比较适合异步代码. 对会阻塞线程的操作, 包括访问数据库、文件或者web, 或者产生新的进程并需要处理新进程的输出、执行系统层次操作的代码, Twiste 阅读全文

posted @ 2020-09-25 11:20 凯旋.Lau 阅读(398) 评论(0) 推荐(0)

爬虫---requests模块

摘要：requests简介 requests模块是在urllib的基础上编写的, 采用的是Apache2 Licensed开源协议的HTTP库. 与urllib相比较, requests模块使用起来更加方便, 但安装好python之后没有该模块, 故使用requests模块需要单独安装. reques 阅读全文

posted @ 2020-09-08 17:14 凯旋.Lau 阅读(160) 评论(0) 推荐(0)

爬虫---简介

摘要：什么是爬虫? 编写程序, 模拟浏览器访问服务器, 从而获取动态资源爬虫基本流程发送请求通过模块或库模拟浏览器, 向目标站点发送请求, 请求可以携带headers和参数等信息, 然后等待服务器响应获取响应服务器正常响应, 会返回一个response, 即页面内容, 可能是html, json 阅读全文

posted @ 2020-08-28 13:05 凯旋.Lau 阅读(142) 评论(0) 推荐(0)

正则表达式

摘要：一. 正则表达式正则表达式是对字符串操作的一种逻辑公式. 一般啊使用正则表达式对字符串进行匹配和过滤. 优点: 灵活, 功能性强, 逻辑性强缺点: 上手难, 一旦上手, 就会爱上这个东西正则表达式由普通字符和元字符组成, 普通字符包含大小写字母, 数字, 在匹配普通字符的时候直接写就可以了, 阅读全文

posted @ 2018-10-10 16:51 凯旋.Lau 阅读(181) 评论(0) 推荐(0)

凯旋.Lau

随笔分类 - 爬虫

公告