摘要: 一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框 阅读全文
posted @ 2019-01-24 14:15 Mr·Yuan 阅读(1162) 评论(0) 推荐(0) 编辑
摘要: mongodb mongo简介 简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似js 阅读全文
posted @ 2019-01-24 10:45 Mr·Yuan 阅读(996) 评论(0) 推荐(1) 编辑
摘要: 一 scrapy框架简介 1 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据 阅读全文
posted @ 2019-01-23 22:31 Mr·Yuan 阅读(406) 评论(0) 推荐(0) 编辑
摘要: mongodb 简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson 阅读全文
posted @ 2019-01-23 22:16 Mr·Yuan 阅读(649) 评论(0) 推荐(1) 编辑
摘要: 一 selenium模块 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 seleni 阅读全文
posted @ 2019-01-22 23:07 Mr·Yuan 阅读(944) 评论(0) 推荐(1) 编辑
摘要: 一.正则表达式解析 常用正则表达式回顾: 二 Xpath解析 XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 测试页面数据 常用xpath表达式 代码中使用xpat 阅读全文
posted @ 2019-01-22 13:23 Mr·Yuan 阅读(839) 评论(0) 推荐(1) 编辑
摘要: 一 爬虫简介 概述 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。 网络爬虫,即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛 阅读全文
posted @ 2019-01-19 16:15 Mr·Yuan 阅读(1105) 评论(1) 推荐(1) 编辑
摘要: 第3节:多表操作 3.1 创建模型 实例:我们来假定下面这些概念,字段和关系 作者模型:一个作者有姓名和年龄。 作者详细模型:把作者的详情放到详情表,包含生日,手机号,家庭住址等信息。作者详情模型和作者模型之间是一对一的关系(one to one) 出版商模型:出版商有名称,所在城市以及email。 阅读全文
posted @ 2019-01-18 19:13 Mr·Yuan 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 第1节:ORM简介 ORM简介 MVC或者MVC框架中包括一个重要的部分,就是ORM,它实现了数据模型与数据库的解耦,即数据模型的设计不需要依赖于特定的数据库,通过简单的配置就可以轻松更换数据库,这极大的减轻了开发人员的工作量,不需要面对因数据库变更而导致的无效劳动 ORM是“对象 关系 映射”的简 阅读全文
posted @ 2019-01-18 19:11 Mr·Yuan 阅读(560) 评论(0) 推荐(1) 编辑
摘要: 123 阅读全文
posted @ 2019-01-18 19:08 Mr·Yuan 阅读(237) 评论(0) 推荐(0) 编辑