BenjaminYang In solitude, where we are least alone

随笔分类 -  hadoop生态圈

摘要:hbase版本 2.0.4 与hadoop兼容表http://hbase.apache.org/book.html#hadoop 我的 hadoop版本是3.1 1.单机版hbase 1.单机版hbase 1.1解压安装包 tar xf hbase-2.0.4-bin.tar.gz -C /opt/ 阅读全文
posted @ 2019-01-22 17:44 benjamin杨 阅读(520) 评论(0) 推荐(0) 编辑
摘要:1.hadoop生态系统 2.hbase简介 非关系型数据库知识面扩展 cassandra、hbase、mongodb、redis couchdb,文件存储数据库 Neo4j非关系型图数据库 3.hbase概念 hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式 阅读全文
posted @ 2019-01-21 16:20 benjamin杨 阅读(343) 评论(0) 推荐(0) 编辑
摘要:Hive 优化 1.核心思想: 把Hive SQL 当做Mapreduce程序去优化 以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Explain 显示执行计划 EXPLAIN [EXTENDED] query 2.Hive运行方式: 本地 阅读全文
posted @ 2019-01-21 14:38 benjamin杨 阅读(432) 评论(0) 推荐(1) 编辑
摘要:1.Hive运行方式: 命令行方式cli:控制台模式 脚本运行方式(实际生产环境中用最多) JDBC方式:hiveserver2 web GUI接口 (hwi、hue等) 1.1Hive在CLI模式中与hdfs交互 执行执行dfs命令 例:dfs –ls / 1.2与Linux交互 !开头 例: ! 阅读全文
posted @ 2019-01-21 10:38 benjamin杨 阅读(1560) 评论(0) 推荐(0) 编辑
摘要:1.hive 参数、变量 1.1hive的命名空间: hive当中的参数、变量,都是以命名空间开头 通过${}方式进行引用,其中system、env下的变量必须以前缀开头 1.2hive 参数设置方式 1、修改配置文件 ${HIVE_HOME}/conf/hive-site.xml 2、启动hive 阅读全文
posted @ 2019-01-16 18:06 benjamin杨 阅读(612) 评论(0) 推荐(0) 编辑
摘要:1.实现struct数据结构例子 1.1创建student表 1.2向这个student表中插入数 上传文件到hdfs,并加载hdfs上的文件 上传前 根目录下的目录 1.3上传文件到hdfs根目录 1.4客户端执行上传 根目录下的data2目录移动到远程目录下,改成copy后缀的名称 2.基站掉话 阅读全文
posted @ 2019-01-16 17:37 benjamin杨 阅读(1350) 评论(0) 推荐(0) 编辑
摘要:1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为” 阅读全文
posted @ 2019-01-10 10:23 benjamin杨 阅读(2224) 评论(0) 推荐(0) 编辑
摘要:1.Hive 分区partition 必须在表定义时指定对应的partition字段 a、单分区建表语句: create table day_table (id int, content string) partitioned by (dt string); 单分区表,按天分区,在表结构中存在id, 阅读全文
posted @ 2019-01-10 09:26 benjamin杨 阅读(1550) 评论(0) 推荐(0) 编辑
摘要:hive ddl 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL hive dml 操作官方手册https://cwiki.apache.org/confluence/display/Hive/Lan 阅读全文
posted @ 2019-01-08 17:19 benjamin杨 阅读(331) 评论(0) 推荐(0) 编辑
摘要:1.hive简介 logo 是一个身体像蜜蜂,头是大象的家伙,相当可爱。 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 术语“大数据” 阅读全文
posted @ 2019-01-07 12:28 benjamin杨 阅读(5691) 评论(0) 推荐(1) 编辑
摘要:1.需求 推荐好友的好友 图1: 2.解决思路 3.代码 3.1MyFoF类代码 说明: 该类定义了所加载的配置,以及执行的map,reduce程序所需要加载运行的类 3.2FMapper类代码 说明: 该类的作用是编写map阶段的代码,对文本数据做一个预处理,按照规划比较每组的kv 做比较,这里面 阅读全文
posted @ 2018-12-31 23:27 benjamin杨 阅读(2215) 评论(0) 推荐(1) 编辑
摘要:1.需求 2.思路 3.代码实现 3.1MyWeather 类代码: 这个类主要是用来定义hadoop的配置,在执行计算程序时所需加载的一些类。 3.2Tmapper类代码 该类继承Mapper类他的主要作用是对输入的文件做一些预处理工作。 3.3TQ类代码 该类实现WritableComparab 阅读全文
posted @ 2018-12-29 16:28 benjamin杨 阅读(1396) 评论(0) 推荐(0) 编辑
摘要:1.MyWordCount代码: package com.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; imp 阅读全文
posted @ 2018-12-26 19:17 benjamin杨 阅读(352) 评论(0) 推荐(0) 编辑
摘要:1.角色分配 2.配置 cd /opt/hadoop-3.1.1/etc/hadoop 2.配置 cd /opt/hadoop-3.1.1/etc/hadoop 修改如下配置: 2.1配置mapred-site.xml <configuration> <!-- 指定mr框架为yarn方式 --> < 阅读全文
posted @ 2018-12-26 15:57 benjamin杨 阅读(810) 评论(0) 推荐(0) 编辑
摘要:1.开发环境配置 1.1eclipse导入插件 1.2.配置hadoop的引用路径 1.2.配置hadoop的引用路径 window 》preference 》 1.3创建hadoop的location 与网页上active节点显示的一致即可 默认是空文件夹 测试连接的location,创建一个ha 阅读全文
posted @ 2018-12-20 11:24 benjamin杨 阅读(396) 评论(0) 推荐(0) 编辑
摘要:1.环境准备 Centos7.5系统 hadoop版本3.1 1.1资源分配 主机名 地址 角色 node01 10.10.0.11 namenode node02 10.10.0.12 secondarynamenode datanode node03 10.10.0.13 datanode no 阅读全文
posted @ 2018-12-12 18:27 benjamin杨 阅读(577) 评论(0) 推荐(0) 编辑
摘要:1.环境准备 系统版本:CentOS7.5 主机名:node01 hadoop3.1 的下载地址: http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz jdk8 rpm包下载地址:https:/ 阅读全文
posted @ 2018-12-12 15:26 benjamin杨 阅读(431) 评论(0) 推荐(0) 编辑
摘要:一 .Zookeeper功能简介 二 . ZooKeeper基本概念 本节将介绍 ZooKeeper 的几个核心概念 因此有必要预先了解这些概念。 一个 ZooKeeper 集群同一时刻只会有一个 Leader,其他都是 Follower 或 Observer。 ZooKeeper 配置很简单,每个 阅读全文
posted @ 2018-08-24 10:24 benjamin杨 阅读(295) 评论(0) 推荐(0) 编辑
摘要:如果将 Hadoop 比做一头大象,那么 MapReduce 就是那头大象的电脑。MapReduce 是 Hadoop 核心编程模型。在 Hadoop 中,数据处理核心就是 MapReduce 程序设计模型 1. MapReduce 编程模型 Map 和 Reduce 的概念是从函数式变成语言中借来 阅读全文
posted @ 2018-03-21 12:34 benjamin杨 阅读(808) 评论(0) 推荐(0) 编辑
摘要:Hadoop 附带了一个名为 HDFS(Hadoop 分布式文件系统)的分布式文件系统,专门 存储超大数据文件,为整个 Hadoop 生态圈提供了基础的存储服务。 本章内容: 1) HDFS 文件系统的特点,以及不适用的场景 2) HDFS 文件系统重点知识点:体系架构和数据读写流程 3) 关于操作 阅读全文
posted @ 2018-03-19 19:12 benjamin杨 阅读(667) 评论(0) 推荐(0) 编辑

 
点击右上角即可分享
微信分享提示