随笔分类 -  Hadoop

摘要:配置Hadoop环境变量:1.Windows环境变量配置 鼠标右键点击‘计算机’-‘属性’-‘高级系统设置’-‘环境变量’-单击新建如图: 2.接着找到环境变量path,将hadoop的bin目录加入到后面: 修改hadoop配置文件 (1)编辑“D:\hadoop-2.7.5\etc\hadoop 阅读全文
posted @ 2020-01-30 16:27 天~宇~翱~翔 阅读(603) 评论(0) 推荐(0) 编辑
摘要:1. 基本原理 2.x版本中,HDFS架构解决了单点故障问题,即引入双NameNode架构,同时借助共享存储系统来进行元数据的同步,共享存储系统类型一般有几类,如:Shared NAS+NFS、BookKeeper、BackupNode 和 Quorum Journal Manager(QJM),上 阅读全文
posted @ 2019-12-12 12:12 天~宇~翱~翔 阅读(333) 评论(0) 推荐(0) 编辑
摘要:HADOOP基本操作命令 HADOOP基本操作命令 在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。 假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。 启动与关闭 启动HADOOP 关闭HADOOP 文件操作 Hadoop使用的是H 阅读全文
posted @ 2016-10-09 22:28 天~宇~翱~翔 阅读(309) 评论(0) 推荐(0) 编辑
摘要:转自:http://langyu.iteye.com/blog/992916,多谢分享,学习Hadopp性能调优的可以多关注一下Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方,Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.s... 阅读全文
posted @ 2015-11-01 21:01 天~宇~翱~翔 阅读(5267) 评论(0) 推荐(2) 编辑
摘要:转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/,非常感谢分享! 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再... 阅读全文
posted @ 2015-10-15 13:55 天~宇~翱~翔 阅读(285) 评论(0) 推荐(0) 编辑
摘要:Hive是为简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用户编程接口。Hive本身不存储和计算数据,它完全依赖於HDFS和MapReduce,Hive中的表纯逻辑表,就是些表... 阅读全文
posted @ 2015-09-30 09:22 天~宇~翱~翔 阅读(4857) 评论(0) 推荐(2) 编辑
摘要:转自:http://my.oschina.net/itblog/blog/275294分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己... 阅读全文
posted @ 2015-09-05 14:29 天~宇~翱~翔 阅读(456) 评论(0) 推荐(0) 编辑
摘要:一、日志数据分析1.背景1.1 ***论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间;每行记录有5部分组成:1.访问ip;2.访问时间;3.访问资源;4.访问状态;5.本次流量1.2 日志格式是apache common日志格式;1.3... 阅读全文
posted @ 2015-07-19 12:31 天~宇~翱~翔 阅读(1199) 评论(0) 推荐(0) 编辑
摘要:1、检查网络状况Dos命令:ping ip地址,同时,在Linux下通过命令:ifconfig可以查看ip信息2、修改虚拟机的ip地址 打开linux网络连接,在桌面右上角,然后编辑ip地址,修改ip地址后,重启网络服务:service network restart,如果网络重启失败,可以在虚拟机... 阅读全文
posted @ 2015-07-16 22:31 天~宇~翱~翔 阅读(376) 评论(0) 推荐(0) 编辑
摘要:一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,本文将通过一个实际的MapReduce二次排序例子讲述二次排序的实现和其MapR... 阅读全文
posted @ 2015-07-16 16:29 天~宇~翱~翔 阅读(474) 评论(0) 推荐(0) 编辑
摘要:一、MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示:整个流程图具体来说:每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成很多的... 阅读全文
posted @ 2015-07-16 16:12 天~宇~翱~翔 阅读(11301) 评论(0) 推荐(1) 编辑
摘要:转自:http://www.aboutyun.com/thread-7316-1-1.html一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive>select 1 from lxw_dual where... 阅读全文
posted @ 2015-07-16 12:19 天~宇~翱~翔 阅读(2912) 评论(0) 推荐(0) 编辑
摘要:转自:http://www.aboutyun.com/thread-7327-1-1.html1、Hive不支持等值连接 SQL中对两表内联可以写成:select * from dual a,dual b where a.key = b.key;Hive中应为:select * from dua... 阅读全文
posted @ 2015-07-16 12:05 天~宇~翱~翔 阅读(10909) 评论(0) 推荐(0) 编辑
摘要:1.首先下载Hadoop对应版本的插件,以Hadoop 1.0版本对应的插件Hadoop-eclipse-plugin1.0.3.jar为例2、将下载的插件放置到Ecplise安装目录的plugins目录下3、启动Ecplise,点击Window->Show View->Other,点击MapReu... 阅读全文
posted @ 2015-07-16 09:33 天~宇~翱~翔 阅读(217) 评论(0) 推荐(0) 编辑
摘要:HQL操作1、Distribute by distribute by col按照col列把数据分散到不同的reduce sort sort by col 按照col列把数据排序 select col,co2 from table_name distribute by col1 sort by col... 阅读全文
posted @ 2015-03-29 22:46 天~宇~翱~翔 阅读(546) 评论(0) 推荐(0) 编辑
摘要:单项选择题1. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份?a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 Na... 阅读全文
posted @ 2015-03-29 16:00 天~宇~翱~翔 阅读(1184) 评论(0) 推荐(0) 编辑