斯德哥尔摩情人

2019年5月26日

摘要： Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapRe 阅读全文

posted @ 2019-05-26 18:45 斯德哥尔摩情人阅读(100) 评论(0) 推荐(0)

Hive

摘要： hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据阅读全文

posted @ 2019-05-26 18:44 斯德哥尔摩情人阅读(94) 评论(0) 推荐(0)

MapReduce分布式计算系统

摘要： MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软阅读全文

posted @ 2019-05-26 18:44 斯德哥尔摩情人阅读(269) 评论(0) 推荐(0)

Hbase配置（伪分布式模式）

摘要： 1、配置文件和环境 ①配置hbase-env.sh设置Java安装路径设置HBase的配置文件路径（/opt/module/hbase/conf）采用HBase自带Zookeeper，设置参数true②配置hbase-site.xml<!--配阅读全文

posted @ 2019-05-26 18:42 斯德哥尔摩情人阅读(526) 评论(0) 推荐(0)

Hbase，Nosql

摘要： HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统"。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于B 阅读全文

posted @ 2019-05-26 18:36 斯德哥尔摩情人阅读(201) 评论(0) 推荐(0)

Maven

摘要： Maven 是专门用于构建和管理Java相关项目的工具。 1、安装Java并配置Java环境 2、安装eclipse 3、安装maven并配置环境 4、eclipse配置maven ①修改settings.xml在安装所在文件夹\apache-maven-3.6.0下面，新建\repository文阅读全文

posted @ 2019-05-26 18:35 斯德哥尔摩情人阅读(96) 评论(0) 推荐(0)

Hadoop伪分布式

摘要： 1、传输jdk和Hadoop压缩包 2、解压jdk和hadoop压缩包 3、配置jdk环境和hadoop环境并生效 4、单机模式配置hadoop -env.sh：本地模式没有HDFS和Yarn，配置JDK后MapReduce能够运行java程序。 5、Hadoop伪分布式模式配置一、5个配置文件阅读全文

posted @ 2019-05-26 18:33 斯德哥尔摩情人阅读(300) 评论(0) 推荐(0)

Hadoop

摘要： Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。HDFS有高容错性的特点阅读全文

posted @ 2019-05-26 18:32 斯德哥尔摩情人阅读(99) 评论(0) 推荐(0)

斯德哥尔摩情人

公告