随笔分类 -  hadoop学习

摘要:1. 硬件准备     使用了五台机器,其中两台8c16g,三台4c8g。一台4c8g用于搭建cmServer和NFS服务端,另外4台作为cloudera manager agent部署CDH集群。 |ip|主要服务/角色|hostname( hosts配置与 阅读全文
posted @ 2017-12-13 23:56 wangkeustc 阅读(8875) 评论(0) 推荐(1) 编辑
摘要:前言   前面已经讲了如何部署在hadoop集群上部署hive,现在我们就做一个很小的实例去熟悉HIVE QL.使用的数据是视频播放数据包括视频编码,播放设备编码,用户账号编码等,我们在这个数据基础上做一些简单查询统计等。 [点击此处下载实例样本数据][1] 这是20170901 阅读全文
posted @ 2017-09-01 19:02 wangkeustc 阅读(719) 评论(0) 推荐(0) 编辑
摘要:标签(空格分隔): Hadoop Hive hwi 1.Hive简介   之前我一直在Maxcompute上进行大数据开发,所以对数仓这块还算比较了解,在接受Hive的时候基本上没什么大的障碍。所以,有需求用到hive的同学,应该对数据仓库相关概念以及数仓设计模型有了大致的了解了 阅读全文
posted @ 2017-08-18 17:55 wangkeustc 阅读(426) 评论(0) 推荐(0) 编辑
摘要:MapReduce几个小应用 上篇文章已经介绍了怎么去写一个简单的MR并且将其跑起来,学习一个东西动手还是很有必要的,接下来我们就举几个小demo来体验一下跑起来的快感。 demo链接请参照附件:http://files.cnblogs.com/files/wangkeustc/demo.tar.g 阅读全文
posted @ 2017-08-18 15:43 wangkeustc 阅读(1579) 评论(0) 推荐(0) 编辑
摘要:前言 好几天没有更新了,本来是应该先写HDFS的相关内容,但是考虑到HDFS是我们后面所有学习的基础,而我只是简单的了解了一下而已,后面准备好好整理HDFS再写这块。所以大家在阅读这篇文章之前,请先了解HDFS的相关基本概念。 本次搭建是手动在三台机器上搭建的,后续会尝试用docker或者apach 阅读全文
posted @ 2017-08-18 15:42 wangkeustc 阅读(593) 评论(0) 推荐(0) 编辑
摘要:mapreduce是一种计算模型,是google的一篇论文向全世界介绍了MapReduce。MapReduce其实可以可以用多种语言编写Map或Reduce程序,因为hadoop是java写的,所以通常情况下我们都是选择java编程语言。其实mr的编写格式或者说语法要求很简单,其实复杂的是我们要学会 阅读全文
posted @ 2017-08-06 21:09 wangkeustc 阅读(1919) 评论(0) 推荐(1) 编辑
摘要:前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富。但是由于Maxcompute是一个更简单的大数据开发平台,导致个人在分布式计算的底层一些知识比较薄弱,所 阅读全文
posted @ 2017-08-01 14:54 wangkeustc 阅读(12361) 评论(0) 推荐(3) 编辑
摘要:1.环境准备 下载:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 解压:解压后,修改etc/hadoop/hadoop-env.sh 中JAVA_HOME, 我的java_home(可以通 阅读全文
posted @ 2016-08-19 11:17 wangkeustc 阅读(1958) 评论(0) 推荐(0) 编辑