随笔分类 -  hadoop

摘要:Hive——连接方式 一.CLI连接 直接通过CLI连接hive,进行相关hive sql 操作。 直接使用 hive-1.1.0-cdh5.7.0/bin/hive 命令即可 二.HiveServer2/beeline HiveServer:指在hive服务器上启动一个服务(server),然后各 阅读全文
posted @ 2019-04-08 21:54 技术小白丁 阅读(2936) 评论(0) 推荐(0) 编辑
摘要:Hive——join的使用 hive中常用的join有:inner join、left join 、right join 、full join、left semi join、cross join、mulitiple 在hive中建立两张表,用于测试: 一、基本join使用 1、内关联([inner] 阅读全文
posted @ 2019-04-08 21:52 技术小白丁 阅读(22373) 评论(0) 推荐(1) 编辑
摘要:Hive——元数据表含义 1、VERSION -- 查询版本信息 2、DBS -- 存储Hive中所有数据库的基本信息 3、DATABASE_PARAMS --该表存储数据库的相关参数,在CREATE DATABASE时候用 4、TBLS --该表中存储Hive表、视图、索引表的基本信息 5、TAB 阅读全文
posted @ 2019-04-08 21:49 技术小白丁 阅读(1975) 评论(0) 推荐(0) 编辑
摘要:Hive——基本DML语句 DML:Data Manipulation Language(数据操作语言,与关系型数据库相似) 官方手册:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 一、加载数据到hive表中 阅读全文
posted @ 2019-04-08 21:48 技术小白丁 阅读(530) 评论(0) 推荐(0) 编辑
摘要:Hive——基本DDL语句 DDL:Data Definition Language(数据定义语言,与关系型数据库相似) 官方手册:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL HiveQL DDL包括以下内容 阅读全文
posted @ 2019-04-08 16:14 技术小白丁 阅读(1696) 评论(0) 推荐(0) 编辑
摘要:Hive——环境搭建 相关hadoop和mysql环境已经搭建好。我博客中也有相关搭建的博客。 一、下载Hive并解压到指定目录(本次使用版本hive-1.1.0-cdh5.7.0,下载地址:http://archive.cloudera.com/cdh5/cdh/5/) 二、Hive配置:参考官网 阅读全文
posted @ 2019-04-08 15:44 技术小白丁 阅读(1440) 评论(0) 推荐(0) 编辑
摘要:Hive——简介 Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能.可以将 SQL 语句转换为 MapReduce 任务进行运行, 阅读全文
posted @ 2019-04-08 15:39 技术小白丁 阅读(911) 评论(0) 推荐(0) 编辑
摘要:hadoop 完全分布式环境搭建 1、虚拟机角色分配: 每台机器配置好hostname,hosts:/etc/hostname 中配置好hostname /etc/hosts 中配置好hosts: 2、sskey免登录设置 1)ssh-keygen -t rsa (会在.ssh目录生成公钥和私钥,每 阅读全文
posted @ 2019-04-08 15:37 技术小白丁 阅读(339) 评论(0) 推荐(0) 编辑
摘要:一、Combiner 在MapReduce编程模型中,在Mapper和Reducer之间有一个非常重要的组件,主要用于解决MR性能瓶颈问题 combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则和r 阅读全文
posted @ 2019-04-08 15:33 技术小白丁 阅读(535) 评论(0) 推荐(0) 编辑
摘要:一、代码实现: 二、运行结果: 调用: 输入的文件内容: 输出的结果: 阅读全文
posted @ 2019-04-08 15:31 技术小白丁 阅读(936) 评论(0) 推荐(0) 编辑
摘要:一、MapReduce1.x架构 1)jobTracker:JT 作业的管理者 将作业分解成一堆任务:Task(MapTask和ReduceTask) 将任务分派给TaskTracker(TT)运行 作业监控、容错处理(task作业挂了,重启task的机制) 在一定的时间间隔内,JT没有收到TT的心 阅读全文
posted @ 2019-04-08 15:29 技术小白丁 阅读(197) 评论(0) 推荐(0) 编辑
摘要:执行步骤:1)准备Map处理的输入数据 2)Mapper处理 3)Shuffle 4)Reduce处理 5)结果输出 三、mapreduce核心概念: 1)split:交由MapReduce作业来处理的数据块,是MapReduce最小的计算单元。 HDFS:blocksize 是HDFS中最小的存储 阅读全文
posted @ 2019-04-08 15:28 技术小白丁 阅读(720) 评论(0) 推荐(0) 编辑
摘要:Yarn环境搭建(基于hadoop-2.6.0-cdh5.7.0 伪分布) 1)配置文件 etc/hadoop/mapred-site.xml: etc/hadoop/yarn-site.xml: 2)启动yarn相关进程 3)验证 (1):jps [hadoop@hadoop01 sbin]$ j 阅读全文
posted @ 2019-04-02 13:02 技术小白丁 阅读(1015) 评论(0) 推荐(0) 编辑
摘要:一、yarn产生背景 1) 源于MRv1的缺陷:扩展性受限、单点故障、难以支持MR之外的计算框架; 2) 多计算框架各自为战,数据共享困难,资源利用率低; MR: 离线计算框架 Storm:实时计算框架 Spark:内存计算框架 催生了YARN的产生 二、yarn架构 1、ResourceManag 阅读全文
posted @ 2019-03-18 09:40 技术小白丁 阅读(401) 评论(0) 推荐(0) 编辑
摘要:1、HDFS写流程 客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本 1)跟NN通信 阅读全文
posted @ 2019-03-18 09:39 技术小白丁 阅读(8449) 评论(0) 推荐(2) 编辑
摘要:第一种、shell交互 官方文档:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/hadoop-project-dist/hadoop-common/FileSystemShell.html 例子: 1、 hdfs dfs - 阅读全文
posted @ 2019-03-18 09:38 技术小白丁 阅读(374) 评论(0) 推荐(0) 编辑
摘要:HDFS linux安装总结(基于hadoop-2.6.0-cdh5.7.0 伪分部安装) 1、jdk安装 1) 直接下载jdk包放到安装目录即可(jdk-8u131-linux-x64.tar.gz解压到安装目录) 2)配置环境变量 直接在 .bash_profile配置 export JAVA_ 阅读全文
posted @ 2019-03-14 09:03 技术小白丁 阅读(236) 评论(0) 推荐(0) 编辑
摘要:一、hdfs介绍 官网说明 Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.(提供对应用程序数据的高吞 阅读全文
posted @ 2019-03-14 08:57 技术小白丁 阅读(221) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示