摘要: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapRe 阅读全文
posted @ 2019-05-26 18:45 斯德哥尔摩情人 阅读(85) 评论(0) 推荐(0) 编辑
摘要: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据 阅读全文
posted @ 2019-05-26 18:44 斯德哥尔摩情人 阅读(84) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软 阅读全文
posted @ 2019-05-26 18:44 斯德哥尔摩情人 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 1、配置文件和环境 ①配置hbase-env.sh设置Java安装路径 设置HBase的配置文件路径(/opt/module/hbase/conf)采用HBase自带Zookeeper,设置参数true②配置hbase-site.xml<!--hbase共享目录,持久化hbase数据--><!--配 阅读全文
posted @ 2019-05-26 18:42 斯德哥尔摩情人 阅读(408) 评论(0) 推荐(0) 编辑
摘要: HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统"。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于B 阅读全文
posted @ 2019-05-26 18:36 斯德哥尔摩情人 阅读(190) 评论(0) 推荐(0) 编辑
摘要: Maven 是专门用于构建和管理Java相关项目的工具。 1、安装Java并配置Java环境 2、安装eclipse 3、安装maven并配置环境 4、eclipse配置maven ①修改settings.xml在安装所在文件夹\apache-maven-3.6.0下面,新建\repository文 阅读全文
posted @ 2019-05-26 18:35 斯德哥尔摩情人 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 1、传输jdk和Hadoop压缩包 2、解压jdk和hadoop压缩包 3、配置jdk环境和hadoop环境并生效 4、单机模式配置hadoop -env.sh:本地模式没有HDFS和Yarn,配置JDK后MapReduce能够运行java程序。 5、Hadoop伪分布式模式配置 一、5个配置文件 阅读全文
posted @ 2019-05-26 18:33 斯德哥尔摩情人 阅读(291) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点 阅读全文
posted @ 2019-05-26 18:32 斯德哥尔摩情人 阅读(87) 评论(0) 推荐(0) 编辑