摘要: 一、大白话MapReduce 1.什么是Map/Reduce,看下面的各种解释: (1)MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在had 阅读全文
posted @ 2018-07-20 22:05 sunjavakai 阅读(509) 评论(0) 推荐(0) 编辑
摘要: Hive调优原则 Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。理解Hadoop的核心能力,是Hive 优化的根本。使用Hive尽量按照分布式计算的一些特点来设计SQL,Hive的调优原则主要包括以下几点: 原子化操作 尽量原子化操作,避免一个SQL包 阅读全文
posted @ 2018-07-18 16:58 sunjavakai 阅读(1185) 评论(0) 推荐(0) 编辑
摘要: 1)关闭未声明资源池的自动生成。 进入YARN面板,选择配置->服务范围->资源管理->yarn.scheduler.fair.allow-undeclared-pools,默认选项是开启的,需要关闭,否则如果用户指定一个尚未声明的资源池时,YARN将为自动生成一个相对于的资源池。我们需要关闭该选项 阅读全文
posted @ 2018-07-10 16:37 sunjavakai 阅读(739) 评论(0) 推荐(0) 编辑
摘要: 在将数据从Mysql 等其他关系型数据库 抽取到Hive 表中时,需要同步mysql表中的注释,以下脚本可以生成hive表字段注释修改语句。 注:其他关系型数据库如:oracle 可以通过相同的思路,读取元数据,修改脚本语法实现。 使用: 在mysql元数据库:information_schema 阅读全文
posted @ 2017-08-11 11:09 sunjavakai 阅读(1991) 评论(0) 推荐(0) 编辑
摘要: 1) 在公司一直使用固定的eclipse IDE版本3.3 确实太out了。eclipse官方网址:http://download.eclipse.org 奇怪的是eclipse 发布的版本顺序是跳跃的 。2) 在百度找:springsource tool suite eclipse ,或者http... 阅读全文
posted @ 2015-03-19 00:17 sunjavakai 阅读(191) 评论(0) 推荐(0) 编辑