随笔分类 -  爬虫

摘要:分布式 概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因 调度器不能被共享, 管道也不能被共享. scrapy + scrapy-redis 可以实现分布式 scrapy-redis组件的作用: 阅读全文
posted @ 2020-09-25 11:23 凯旋.Lau 阅读(148) 评论(0) 推荐(0) 编辑
摘要:全站爬取1 基于管道的持久化存储 数据解析(爬虫类) 将解析的数据封装到item类型的对象中(爬虫类) 将item提交给管道, yield item(爬虫类) 在管道类的process_item中接手收item对象, 并进行任意形式的持久化存储操作(管道类) 在配置文件中开启管道 细节: 将爬取到的 阅读全文
posted @ 2020-09-25 11:22 凯旋.Lau 阅读(684) 评论(0) 推荐(0) 编辑
摘要:scrapy是一个为了爬取网站数据, 提取结构性数据而编写的应用框架, 它是基于Twisted框架开发而来, 而Twisted框架是事件驱动的, 比较适合异步代码. 对会阻塞线程的操作, 包括访问数据库、文件或者web, 或者产生新的进程并需要处理新进程的输出、执行系统层次操作的代码, Twiste 阅读全文
posted @ 2020-09-25 11:20 凯旋.Lau 阅读(353) 评论(0) 推荐(0) 编辑
摘要:requests简介 ​ requests模块是在urllib的基础上编写的, 采用的是Apache2 Licensed开源协议的HTTP库. 与urllib相比较, requests模块使用起来更加方便, 但安装好python之后没有该模块, 故使用requests模块需要单独安装. reques 阅读全文
posted @ 2020-09-08 17:14 凯旋.Lau 阅读(132) 评论(0) 推荐(0) 编辑
摘要:什么是爬虫? 编写程序, 模拟浏览器访问服务器, 从而获取动态资源 爬虫基本流程 发送请求 通过模块或库模拟浏览器, 向目标站点发送请求, 请求可以携带headers和参数等信息, 然后等待服务器响应 获取响应 服务器正常响应, 会返回一个response, 即页面内容, 可能是html, json 阅读全文
posted @ 2020-08-28 13:05 凯旋.Lau 阅读(113) 评论(0) 推荐(0) 编辑
摘要:一. 正则表达式 正则表达式是对字符串操作的一种逻辑公式. 一般啊使用正则表达式对字符串进行匹配和过滤. 优点: 灵活, 功能性强, 逻辑性强 缺点: 上手难, 一旦上手, 就会爱上这个东西 正则表达式由普通字符和元字符组成, 普通字符包含大小写字母, 数字, 在匹配普通字符的时候直接写就可以了, 阅读全文
posted @ 2018-10-10 16:51 凯旋.Lau 阅读(161) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示