2018年11月23日

Hadoop之WordCount程序实现

摘要: 程序的功能:假设现在有n个文本,WordCount程序就是利用MR计算模型来统计这n个文本中每个单词出现的总次数。 1.创建maven工程导入依赖 2.编写WordcountMapper实现类,需要继承Mapper类 3.编写WordcountReducer实现类,需要继承Reducer类 4.编写 阅读全文

posted @ 2018-11-23 17:19 优品三悦 阅读(225) 评论(0) 推荐(0) 编辑

2018年11月22日

Hbase的API操作

摘要: 1.创建maven工程导入依赖 2.使用cglib动态代理实现在调用方法的前后自动开启关闭连接,下面是目标类。 3.编写代理类,在main方法中测试 4.测试结果 阅读全文

posted @ 2018-11-22 15:56 优品三悦 阅读(282) 评论(0) 推荐(0) 编辑

2018年11月20日

sparkSQL简介

摘要: SparkSQL简介 一:什么是sparkSQL呢? SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用,实际上它也是一个API。Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。 名词解释: 阅读全文

posted @ 2018-11-20 16:01 优品三悦 阅读(640) 评论(0) 推荐(1) 编辑

Impala简介

摘要: Impala简介 一:什么是Impala? Impala是用于处理存储在Hadoop集群中的大量数据的SQL查询引擎。它是一个用C ++和Java编写的开源软件。换句话说,Impala是性能最高的SQL引擎,它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。 二:Impala的特点是什 阅读全文

posted @ 2018-11-20 15:57 优品三悦 阅读(1186) 评论(0) 推荐(0) 编辑

2018年11月16日

Hive (数据仓库)简介

摘要: 一:什么是Hive(数据仓库)? 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 3、可以将结构化的数据映射为一张数据库表 4、并提供 HQL(Hive SQL)查询功能 5、底层数据是存储在 HDFS 上 6、Hive的本质是将 SQL 语句转换为 M 阅读全文

posted @ 2018-11-16 22:49 优品三悦 阅读(1290) 评论(0) 推荐(0) 编辑

hadoop家族简介

摘要: 一:什么是ApacheHadoop呢? 首先来说Hadoop是一种分析和处理大数据的软件平台。是Apache的一个用Java语言所实现的开源软件的框架。 在大量计算机组成的集群当中实现了对于海量的数据行 的分布式计算。下面呢给大家用一句话描述一下。 二:文件存储 1、HDFS(Hadoop分布式文件 阅读全文

posted @ 2018-11-16 22:30 优品三悦 阅读(892) 评论(0) 推荐(0) 编辑

什么是HBase?

摘要: HBase 介绍 一、什么是HBase? 1.HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 2. HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable使用GFS作为其文件存储 阅读全文

posted @ 2018-11-16 18:25 优品三悦 阅读(4278) 评论(0) 推荐(0) 编辑

Hbase操作命令

摘要: 1.创建新增表建表语句 create '表名','列簇名','列簇名' 语法:put <table>,<rowkey>,<family:column>,<value>,<timestamp>新增或者覆盖数据 put '表名','键名','列名(不是列簇名)','值'指定的列名下单元格有值就覆盖..没 阅读全文

posted @ 2018-11-16 15:11 优品三悦 阅读(293) 评论(0) 推荐(0) 编辑

Hadoop+Hbase完全分布式安装部署

摘要: 软件下载:链接:https://pan.baidu.com/s/1pMHeC0MPsdY3wdVmNji8yg 提取码:q2vi 1、需要准备3台linux x64 服务器,一台作为master,2台作为prepare备份机 master 192.168.213.132 prepare1 192.1 阅读全文

posted @ 2018-11-16 14:49 优品三悦 阅读(1070) 评论(0) 推荐(0) 编辑

Hadoop与hbase单机环境安装

摘要: 一、Linux系统设置 1,关闭防火墙 关闭防火墙,方便外部访问。CentOS 7版本以下输入:关闭防火墙 service iptables stop CentOS 7 以上的版本输入: systemctl stop firewalld.service 2,时间设置 输入: date 查看服务器时间 阅读全文

posted @ 2018-11-16 14:48 优品三悦 阅读(1276) 评论(0) 推荐(0) 编辑

导航