摘要: MapReduce原理分而治之,将一个大的任务拆分成很多小的子任务(map),并行执行后,合并结果(reduce)。 MapReduce 运行流程1 Job&Task 一个job会被拆分成多个Task Task又分为MapTaskReduceTask JobTrack... 阅读全文
posted @ 2018-07-29 16:36 oifengo 阅读(178) 评论(0) 推荐(0) 编辑
摘要: HDFS简介Hadoop的文件系统设计结构1 Block(块) HDFS将文件分配成block来存储,每个块默认64MB,块是文件存储处理的逻辑单元,按照block管理 2 NameNode 管理节点,存放元数据文件与数据块的映射表数据块与数据节点的映射表 HDFS... 阅读全文
posted @ 2018-07-28 22:40 oifengo 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 现在的大数据已经成为了Hadoop生态的天下HIVE 可以不用编写复杂 程序 需要要编写sql语句 功能: 把sql语句转化为Hadoop任务去执行HABSE :存储结构化数据的分布式数据库和传统关系型数据库不同:放弃事物特性 追求高拓展 和HDFS对比:数据的随机... 阅读全文
posted @ 2018-07-28 21:21 oifengo 阅读(313) 评论(0) 推荐(0) 编辑
摘要: Hadoop是什么开源的 分布式存储+分布式计算平台 Hadoop目前作为Apache的顶级项目http://hadoop.apache.org/Hadoop的功能HDFS +MapReduceHDFS分布式存储系统,存储海量的数据MapReduce并行处理框架,实... 阅读全文
posted @ 2018-07-28 21:08 oifengo 阅读(1114) 评论(0) 推荐(0) 编辑
摘要: 无处不在的大数据随着科技的发展,数据越来越多,也越来越有价值。更有形象的描述:数据就是未来的石油。 云端的服务器也越多,也是未来的发展方向。 越来越多的企业把数据存储在云端,并从中获取有用的价值。 马云多次强调;alibaba是一家数据公司!!! 如何对数据进行存储... 阅读全文
posted @ 2018-07-28 20:55 oifengo 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 采用Model1(jsp+javabean)实现DBHelper类创建实体类创建业务逻辑类(dao)DBHelper类的设计package util;import java.sql.Connection;import java.sql.DriverManager;pu... 阅读全文
posted @ 2018-07-26 12:03 oifengo 阅读(1395) 评论(0) 推荐(0) 编辑
摘要: 有些网站需要登录后才能爬取到有用的信息,Scrapy先模拟登录,再进行信息爬取。登录实质理解登录的实质,跟踪一次登录操作http://example.webscraping.com/ 页面的表单对应的HTML的 《form》,log in会根据form元素的内容发送一... 阅读全文
posted @ 2018-07-17 11:43 oifengo 阅读(293) 评论(0) 推荐(0) 编辑
摘要: Scrapy从入门到精通系列前四篇已经讲了从网页中获取信息的方法,除此之外,爬虫也可以从网页中下载图片、视频、word、pdf、压缩包等FilesPipeline和ImagePipelineScarpy框架内部提供了这两个Item Pipeline专门用来下载文件和图... 阅读全文
posted @ 2018-07-15 15:14 oifengo 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 项目实战url = http://books.toscrape.com页面分析scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作一个Scrapy,通常用来进行前期爬取实验,提高开发效率scrapy shell h... 阅读全文
posted @ 2018-07-05 13:55 oifengo 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 使用Item封装数据前两篇博客介绍了从页面中提取数据的方法,现在用item封装爬取到的数据Item和FieldScrapy提供了Item和Field类,可以用他们自定义数据类,封装爬取到的数据Item :自定义数据类(BookItem)的基类Field:描述自定义数据... 阅读全文
posted @ 2018-07-04 09:53 oifengo 阅读(638) 评论(0) 推荐(0) 编辑