hadoop生态圈 - 随笔分类 - benjamin杨

hbase学习（二）hbase单机和高可用完全分布式安装部署

摘要：hbase版本 2.0.4 与hadoop兼容表http://hbase.apache.org/book.html#hadoop 我的 hadoop版本是3.1 1.单机版hbase 1.单机版hbase 1.1解压安装包 tar xf hbase-2.0.4-bin.tar.gz -C /opt/ 阅读全文

posted @ 2019-01-22 17:44 benjamin杨阅读(577) 评论(0) 推荐(0)

hbase学习（一）hbase简介

摘要：1.hadoop生态系统 2.hbase简介非关系型数据库知识面扩展 cassandra、hbase、mongodb、redis couchdb，文件存储数据库 Neo4j非关系型图数据库 3.hbase概念 hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式阅读全文

posted @ 2019-01-21 16:20 benjamin杨阅读(353) 评论(0) 推荐(0)

hive学习（八）hive优化

摘要：Hive 优化 1.核心思想：把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Explain 显示执行计划 EXPLAIN [EXTENDED] query 2.Hive运行方式：本地阅读全文

posted @ 2019-01-21 14:38 benjamin杨阅读(442) 评论(0) 推荐(1)

hive（七）hive-运行方式、GUI接口、权限管理

摘要：1.Hive运行方式：命令行方式cli：控制台模式脚本运行方式（实际生产环境中用最多） JDBC方式：hiveserver2 web GUI接口（hwi、hue等） 1.1Hive在CLI模式中与hdfs交互执行执行dfs命令例：dfs –ls / 1.2与Linux交互！开头例： ! 阅读全文

posted @ 2019-01-21 10:38 benjamin杨阅读(1626) 评论(0) 推荐(0)

hive学习(六) 参数和动态分区

摘要：1.hive 参数、变量 1.1hive的命名空间： hive当中的参数、变量，都是以命名空间开头通过${}方式进行引用，其中system、env下的变量必须以前缀开头 1.2hive 参数设置方式 1、修改配置文件 ${HIVE_HOME}/conf/hive-site.xml 2、启动hive 阅读全文

posted @ 2019-01-16 18:06 benjamin杨阅读(632) 评论(0) 推荐(0)

hive学习(五) 应用案例

摘要：1.实现struct数据结构例子 1.1创建student表 1.2向这个student表中插入数上传文件到hdfs，并加载hdfs上的文件上传前根目录下的目录 1.3上传文件到hdfs根目录 1.4客户端执行上传根目录下的data2目录移动到远程目录下，改成copy后缀的名称 2.基站掉话阅读全文

posted @ 2019-01-16 17:37 benjamin杨阅读(1383) 评论(0) 推荐(0)

hive学习(四) hive的函数

摘要：1.内置运算符 1.1关系运算符运算符类型说明 A = B 所有原始类型如果A与B相等,返回TRUE,否则返回FALSE A == B 无失败，因为无效的语法。 SQL使用”=”，不使用”==”。 A <> B 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为” 阅读全文

posted @ 2019-01-10 10:23 benjamin杨阅读(2304) 评论(0) 推荐(0)

hive学习(三) hive的分区

摘要：1.Hive 分区partition 必须在表定义时指定对应的partition字段 a、单分区建表语句： create table day_table (id int, content string) partitioned by (dt string); 单分区表，按天分区，在表结构中存在id，阅读全文

posted @ 2019-01-10 09:26 benjamin杨阅读(1611) 评论(0) 推荐(0)

hive学习(二) hive操作

摘要：hive ddl 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL hive dml 操作官方手册https://cwiki.apache.org/confluence/display/Hive/Lan 阅读全文

posted @ 2019-01-08 17:19 benjamin杨阅读(350) 评论(0) 推荐(0)

hive学习（一）hive架构及hive3.1.1三种方式部署安装

摘要：1.hive简介 logo 是一个身体像蜜蜂，头是大象的家伙，相当可爱。 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。术语“大数据” 阅读全文

posted @ 2019-01-07 12:28 benjamin杨阅读(5785) 评论(0) 推荐(1)

MapReduce案例二：好友推荐

摘要：1.需求推荐好友的好友图1： 2.解决思路 3.代码 3.1MyFoF类代码说明：该类定义了所加载的配置，以及执行的map，reduce程序所需要加载运行的类 3.2FMapper类代码说明：该类的作用是编写map阶段的代码，对文本数据做一个预处理，按照规划比较每组的kv 做比较，这里面阅读全文

posted @ 2018-12-31 23:27 benjamin杨阅读(2264) 评论(0) 推荐(1)

MapReduce案例一：天气温度

摘要：1.需求 2.思路 3.代码实现 3.1MyWeather 类代码：这个类主要是用来定义hadoop的配置，在执行计算程序时所需加载的一些类。 3.2Tmapper类代码该类继承Mapper类他的主要作用是对输入的文件做一些预处理工作。 3.3TQ类代码该类实现WritableComparab 阅读全文

posted @ 2018-12-29 16:28 benjamin杨阅读(1428) 评论(0) 推荐(0)

自定义wordCount程序、

摘要：1.MyWordCount代码： package com.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; imp 阅读全文

posted @ 2018-12-26 19:17 benjamin杨阅读(362) 评论(0) 推荐(0)

hadoop3.1集成yarn ha

摘要：1.角色分配 2.配置 cd /opt/hadoop-3.1.1/etc/hadoop 2.配置 cd /opt/hadoop-3.1.1/etc/hadoop 修改如下配置： 2.1配置mapred-site.xml <configuration>  < 阅读全文

posted @ 2018-12-26 15:57 benjamin杨阅读(823) 评论(0) 推荐(0)

hadoop3.1 hdfs的api使用

摘要：1.开发环境配置 1.1eclipse导入插件 1.2.配置hadoop的引用路径 1.2.配置hadoop的引用路径 window 》preference 》 1.3创建hadoop的location 与网页上active节点显示的一致即可默认是空文件夹测试连接的location，创建一个ha 阅读全文

posted @ 2018-12-20 11:24 benjamin杨阅读(415) 评论(0) 推荐(0)

hadoop3.1 分布式集群部署

摘要：1.环境准备 Centos7.5系统 hadoop版本3.1 1.1资源分配主机名地址角色 node01 10.10.0.11 namenode node02 10.10.0.12 secondarynamenode datanode node03 10.10.0.13 datanode no 阅读全文

posted @ 2018-12-12 18:27 benjamin杨阅读(591) 评论(0) 推荐(0)

hadoop3.1伪分布式部署

摘要：1.环境准备系统版本：CentOS7.5 主机名：node01 hadoop3.1 的下载地址： http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz jdk8 rpm包下载地址：https:/ 阅读全文

posted @ 2018-12-12 15:26 benjamin杨阅读(450) 评论(0) 推荐(0)

ZooKeeper介绍

摘要：一 .Zookeeper功能简介二 . ZooKeeper基本概念本节将介绍 ZooKeeper 的几个核心概念因此有必要预先了解这些概念。一个 ZooKeeper 集群同一时刻只会有一个 Leader，其他都是 Follower 或 Observer。 ZooKeeper 配置很简单，每个阅读全文

posted @ 2018-08-24 10:24 benjamin杨阅读(311) 评论(0) 推荐(0)

hadoop（四）MapReduce

摘要：如果将 Hadoop 比做一头大象，那么 MapReduce 就是那头大象的电脑。MapReduce 是 Hadoop 核心编程模型。在 Hadoop 中，数据处理核心就是 MapReduce 程序设计模型 1. MapReduce 编程模型 Map 和 Reduce 的概念是从函数式变成语言中借来阅读全文

posted @ 2018-03-21 12:34 benjamin杨阅读(824) 评论(0) 推荐(0)

hadoop（三）HDFS 文件系统

摘要：Hadoop 附带了一个名为 HDFS(Hadoop 分布式文件系统)的分布式文件系统，专门存储超大数据文件，为整个 Hadoop 生态圈提供了基础的存储服务。本章内容： 1) HDFS 文件系统的特点，以及不适用的场景 2) HDFS 文件系统重点知识点：体系架构和数据读写流程 3) 关于操作阅读全文

posted @ 2018-03-19 19:12 benjamin杨阅读(694) 评论(0) 推荐(0)

benjamin杨

Dev or Ops

随笔分类 - hadoop生态圈

公告