上一页 1 2 3 4 5 6 7 ··· 15 下一页
摘要: 一.POST请求 二.请求传参 - 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 ex:爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的 阅读全文
posted @ 2019-03-04 16:56 sado 阅读(1237) 评论(0) 推荐(0) 编辑
摘要: 一,介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 二,安装 三.基本使用 阅读全文
posted @ 2019-03-04 15:19 sado 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 一, 基于requests模块的cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: - 结果发现,写入到文件中的数据,不是张三个人页面的数据,而是人人网登陆 阅读全文
posted @ 2019-03-01 08:52 sado 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 一,介绍 大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。 因此数据爬取的流程为: 二,正则解析数据 常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] 阅读全文
posted @ 2019-02-27 17:44 sado 阅读(246) 评论(0) 推荐(0) 编辑
摘要: GITHUB 简介 github可以是全世界最大的同性交友网站,其实就是和百度云一个性质。 gitHub于2008年4月10日正式上线,除了git代码仓库托管及基本的 Web管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用 阅读全文
posted @ 2019-02-25 20:50 sado 阅读(148) 评论(0) 推荐(0) 编辑
摘要: git 有惊喜 https://blog.51cto.com/wangfeng7399 基础传送门 https://blog.51cto.com/wangfeng7399/2352524 作用:版本控制的工具,进行版本保存修改 工作区 当前工作的地方 缓存区 git add 之后存到的地方就叫缓存区 阅读全文
posted @ 2019-02-25 09:29 sado 阅读(144) 评论(0) 推荐(0) 编辑
摘要: setup 正则回顾: 条件判断 不同的系统 不同的版本 不同的环境 不同的用户 Ubuntu 安装包的方式是apt-get tags 循环 with_item 一次性创建多个 嵌套循环 template: jinja2 copy和tamplate的区别 copy模块不替代参数 template模块 阅读全文
posted @ 2019-02-21 21:56 sado 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 软件相关模块 yum rpm和yum的区别 rpm:redhat package manager yum 可以解决依赖关系 yum 源配置 使用yum下载时需要先下载epel yum 安装包组 ep 检查模块是否安装成功 pip service 计划任务 cron 用户相关 user \ 在查询创建 阅读全文
posted @ 2019-02-20 20:54 sado 阅读(166) 评论(0) 推荐(0) 编辑
摘要: ansible简介 ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。 ansible是新出现的自动化运维工具,基于Python开发,集合了 阅读全文
posted @ 2019-02-19 20:07 sado 阅读(187) 评论(0) 推荐(0) 编辑
摘要: Celery简介 可以用来实现异步任务、定时任务、周期任务等 示例 首先创建三个文件 s1.py s2.py s3.py 三个文件创建完成了,细心的同学现在已经开始分析哪个文件是app,哪个文件是borker,哪个是worker了那我们得一步一步分析了,最终我们要执行的任务是在 s1.py 中,也就 阅读全文
posted @ 2019-02-18 15:47 sado 阅读(208) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 15 下一页