上一页 1 2 3 4 5 6 7 ··· 9 下一页
  2019年8月19日
摘要: redis分布式爬虫 概念:多台机器上可以执行同一个爬虫程序,实现网站数据的爬取 原生的scrapy是不可以实现分布式爬虫, 原因如下: 调度器无法共享 管道无法共享 scrapy-redis组件:专门为scrapy开发的一套组件。 该组件可以让scrapy实现分布式 pip install scr 阅读全文
posted @ 2019-08-19 14:21 cs_1993 阅读(1312) 评论(0) 推荐(0) 编辑
  2019年8月16日
摘要: 一 爬取多URL 实现同一个网址的多个url爬取 二 发起post请求 # 将百度翻译中指定词条对应的翻译结果进行获取 三 实现对cookie的操作 四 代理操作 下载中间件的作用: 拦截请求,可以将请求的ip进行更换 流程: (1)下载中间件类的自制定 # 自定义一个下载中间件的类, 在类中事先p 阅读全文
posted @ 2019-08-16 10:54 cs_1993 阅读(318) 评论(0) 推荐(0) 编辑
  2019年8月15日
摘要: 一 什么是HTML HTML,全称是超文本标记语言(HyperText Markup Language),它是一种用于创建网页的标记语言。标记语言是一种将文本(Text)以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的计算机文字编码。与文本相关的其他信息(包括例如文本的结构和表示信 阅读全文
posted @ 2019-08-15 11:41 cs_1993 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 硬盘存储 (1) 基于终端指令 * 保证parse方法返回一个可迭代类型的对象(存储解析到页面内容) * 使用终端指定完成数据存储到磁盘文件的操作 scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀 (2) 基于管道 * items: 存储解析到的页面数据 * piplines: 处理持久 阅读全文
posted @ 2019-08-15 10:22 cs_1993 阅读(195) 评论(0) 推荐(0) 编辑
  2019年8月14日
摘要: 一 Scrapy框架的简介 为了爬取网站数据而编写的一款应用框架,所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板 该框架提供了高性能的异步下载,解析和持久化等功能 二 安装 linux or max os : windows: 三 基础使用 (1) 创建一个工程: scrapy s 阅读全文
posted @ 2019-08-14 10:37 cs_1993 阅读(858) 评论(0) 推荐(0) 编辑
  2019年8月12日
摘要: 一 selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 安装:pip 阅读全文
posted @ 2019-08-12 10:13 cs_1993 阅读(1757) 评论(0) 推荐(0) 编辑
  2019年8月9日
摘要: 一 正则表达式 示例:使用正则对糗事百科中的图片数据进行解析和下载 二 xpath在爬虫的使用流程 下载:pip instal lxml 导包: from lxml import etree 测试页面数据: 常用xpath表达式 实例演示: xpat插件 浏览器中的一个插件可以直接将xpath表达式 阅读全文
posted @ 2019-08-09 11:04 cs_1993 阅读(327) 评论(0) 推荐(0) 编辑
  2019年8月6日
摘要: 一 爬虫简介 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 能实现爬虫的编程语言: 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。ja 阅读全文
posted @ 2019-08-06 10:48 cs_1993 阅读(414) 评论(0) 推荐(0) 编辑
  2019年7月11日
摘要: 一 上下文管理 当前请求到来时Flask处理的流程图: 当一个请求到来时: 请求到来之后uwsgi会触发app的__call__方法, 由__call__方法再次调用wsgi_app方法 首先将请求相关+空session封装到一个RequestContext对象中 即 ctx # self是app对 阅读全文
posted @ 2019-07-11 18:24 cs_1993 阅读(266) 评论(0) 推荐(0) 编辑
  2019年7月9日
摘要: 一 Flask请求和响应 请求相关信息 响应相关信息 二 模板语言 1、模板的使用 Flask使用的是Jinja2模板,所以其语法和Django无差别 2、自定义模板方法 Flask中自定义模板方法的方式和Bottle相似,创建一个函数并通过参数的形式传入render_template,如: lay 阅读全文
posted @ 2019-07-09 18:09 cs_1993 阅读(313) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页