hadoop - 随笔分类 - 技术小白丁

Hive——连接方式

摘要：Hive——连接方式一.CLI连接直接通过CLI连接hive,进行相关hive sql 操作。直接使用 hive-1.1.0-cdh5.7.0/bin/hive 命令即可二.HiveServer2/beeline HiveServer：指在hive服务器上启动一个服务（server）,然后各阅读全文

posted @ 2019-04-08 21:54 技术小白丁阅读(2971) 评论(0) 推荐(0)

Hive——join的使用

摘要：Hive——join的使用 hive中常用的join有：inner join、left join 、right join 、full join、left semi join、cross join、mulitiple 在hive中建立两张表，用于测试：一、基本join使用 1、内关联（[inner] 阅读全文

posted @ 2019-04-08 21:52 技术小白丁阅读(22436) 评论(0) 推荐(1)

Hive——元数据表含义

摘要：Hive——元数据表含义 1、VERSION -- 查询版本信息 2、DBS -- 存储Hive中所有数据库的基本信息 3、DATABASE_PARAMS --该表存储数据库的相关参数，在CREATE DATABASE时候用 4、TBLS --该表中存储Hive表、视图、索引表的基本信息 5、TAB 阅读全文

posted @ 2019-04-08 21:49 技术小白丁阅读(2034) 评论(0) 推荐(0)

Hive——基本DML语句

摘要：Hive——基本DML语句 DML:Data Manipulation Language(数据操作语言，与关系型数据库相似) 官方手册：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 一、加载数据到hive表中阅读全文

posted @ 2019-04-08 21:48 技术小白丁阅读(543) 评论(0) 推荐(0)

Hive——基本DDL语句

摘要：Hive——基本DDL语句 DDL:Data Definition Language(数据定义语言，与关系型数据库相似) 官方手册：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL HiveQL DDL包括以下内容阅读全文

posted @ 2019-04-08 16:14 技术小白丁阅读(1726) 评论(0) 推荐(0)

Hive——环境搭建

摘要：Hive——环境搭建相关hadoop和mysql环境已经搭建好。我博客中也有相关搭建的博客。一、下载Hive并解压到指定目录（本次使用版本hive-1.1.0-cdh5.7.0，下载地址：http://archive.cloudera.com/cdh5/cdh/5/）二、Hive配置：参考官网阅读全文

posted @ 2019-04-08 15:44 技术小白丁阅读(1471) 评论(0) 推荐(0)

Hive——简介

摘要：Hive——简介 Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能.可以将 SQL 语句转换为 MapReduce 任务进行运行，阅读全文

posted @ 2019-04-08 15:39 技术小白丁阅读(954) 评论(0) 推荐(0)

hadoop ——完全分布式环境搭建

摘要：hadoop 完全分布式环境搭建 1、虚拟机角色分配：每台机器配置好hostname,hosts：/etc/hostname 中配置好hostname /etc/hosts 中配置好hosts： 2、sskey免登录设置 1）ssh-keygen -t rsa （会在.ssh目录生成公钥和私钥,每阅读全文

posted @ 2019-04-08 15:37 技术小白丁阅读(361) 评论(0) 推荐(0)

MapReduce学习总结之Combiner、Partitioner、Jobhistory

摘要：一、Combiner 在MapReduce编程模型中，在Mapper和Reducer之间有一个非常重要的组件，主要用于解决MR性能瓶颈问题 combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算，计算规则和r 阅读全文

posted @ 2019-04-08 15:33 技术小白丁阅读(592) 评论(0) 推荐(0)

MapReduce学习总结之java版wordcount实现

摘要：一、代码实现：二、运行结果：调用：输入的文件内容：输出的结果：阅读全文

posted @ 2019-04-08 15:31 技术小白丁阅读(947) 评论(0) 推荐(0)

MapReduce学习总结之架构

摘要：一、MapReduce1.x架构 1）jobTracker：JT 作业的管理者将作业分解成一堆任务：Task(MapTask和ReduceTask) 将任务分派给TaskTracker(TT)运行作业监控、容错处理（task作业挂了，重启task的机制）在一定的时间间隔内，JT没有收到TT的心阅读全文

posted @ 2019-04-08 15:29 技术小白丁阅读(214) 评论(0) 推荐(0)

MapReduce学习总结之简介

摘要：执行步骤：1）准备Map处理的输入数据 2）Mapper处理 3）Shuffle 4）Reduce处理 5）结果输出三、mapreduce核心概念： 1）split:交由MapReduce作业来处理的数据块，是MapReduce最小的计算单元。 HDFS：blocksize 是HDFS中最小的存储阅读全文

posted @ 2019-04-08 15:28 技术小白丁阅读(735) 评论(0) 推荐(0)

YARN学习总结之环境搭建

摘要：Yarn环境搭建（基于hadoop-2.6.0-cdh5.7.0 伪分布） 1)配置文件 etc/hadoop/mapred-site.xml: etc/hadoop/yarn-site.xml: 2）启动yarn相关进程 3）验证 (1)：jps [hadoop@hadoop01 sbin]$ j 阅读全文

posted @ 2019-04-02 13:02 技术小白丁阅读(1032) 评论(0) 推荐(0)

YARN学习总结之架构

摘要：一、yarn产生背景 1) 源于MRv1的缺陷：扩展性受限、单点故障、难以支持MR之外的计算框架； 2) 多计算框架各自为战，数据共享困难，资源利用率低； MR: 离线计算框架 Storm：实时计算框架 Spark：内存计算框架催生了YARN的产生二、yarn架构 1、ResourceManag 阅读全文

posted @ 2019-03-18 09:40 技术小白丁阅读(414) 评论(0) 推荐(0)

HDFS读写流程

摘要：1、HDFS写流程客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本 1）跟NN通信阅读全文

posted @ 2019-03-18 09:39 技术小白丁阅读(8537) 评论(0) 推荐(2)

HDFS学习总结之API交互

摘要：第一种、shell交互官方文档：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/hadoop-project-dist/hadoop-common/FileSystemShell.html 例子： 1、 hdfs dfs - 阅读全文

posted @ 2019-03-18 09:38 技术小白丁阅读(392) 评论(0) 推荐(0)

HDFS学习总结之安装

摘要：HDFS linux安装总结（基于hadoop-2.6.0-cdh5.7.0 伪分部安装） 1、jdk安装 1）直接下载jdk包放到安装目录即可（jdk-8u131-linux-x64.tar.gz解压到安装目录） 2）配置环境变量直接在 .bash_profile配置 export JAVA_ 阅读全文

posted @ 2019-03-14 09:03 技术小白丁阅读(254) 评论(0) 推荐(0)

HDFS学习总结之架构

摘要：一、hdfs介绍官网说明 Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.（提供对应用程序数据的高吞阅读全文

posted @ 2019-03-14 08:57 技术小白丁阅读(246) 评论(0) 推荐(0)

技术小白丁

随笔分类 - hadoop

公告