随笔分类 - Hadoop
摘要:配置Hadoop环境变量:1.Windows环境变量配置 鼠标右键点击‘计算机’-‘属性’-‘高级系统设置’-‘环境变量’-单击新建如图: 2.接着找到环境变量path,将hadoop的bin目录加入到后面: 修改hadoop配置文件 (1)编辑“D:\hadoop-2.7.5\etc\hadoop
阅读全文
摘要:1. 基本原理 2.x版本中,HDFS架构解决了单点故障问题,即引入双NameNode架构,同时借助共享存储系统来进行元数据的同步,共享存储系统类型一般有几类,如:Shared NAS+NFS、BookKeeper、BackupNode 和 Quorum Journal Manager(QJM),上
阅读全文
摘要:HADOOP基本操作命令 HADOOP基本操作命令 在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。 假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。 启动与关闭 启动HADOOP 关闭HADOOP 文件操作 Hadoop使用的是H
阅读全文
摘要:转自:http://langyu.iteye.com/blog/992916,多谢分享,学习Hadopp性能调优的可以多关注一下Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方,Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.s...
阅读全文
摘要:转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/,非常感谢分享! 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再...
阅读全文
摘要:Hive是为简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用户编程接口。Hive本身不存储和计算数据,它完全依赖於HDFS和MapReduce,Hive中的表纯逻辑表,就是些表...
阅读全文
摘要:转自:http://my.oschina.net/itblog/blog/275294分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己...
阅读全文
摘要:一、日志数据分析1.背景1.1 ***论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间;每行记录有5部分组成:1.访问ip;2.访问时间;3.访问资源;4.访问状态;5.本次流量1.2 日志格式是apache common日志格式;1.3...
阅读全文
摘要:1、检查网络状况Dos命令:ping ip地址,同时,在Linux下通过命令:ifconfig可以查看ip信息2、修改虚拟机的ip地址 打开linux网络连接,在桌面右上角,然后编辑ip地址,修改ip地址后,重启网络服务:service network restart,如果网络重启失败,可以在虚拟机...
阅读全文
摘要:一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,本文将通过一个实际的MapReduce二次排序例子讲述二次排序的实现和其MapR...
阅读全文
摘要:一、MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示:整个流程图具体来说:每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成很多的...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7316-1-1.html一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive>select 1 from lxw_dual where...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7327-1-1.html1、Hive不支持等值连接 SQL中对两表内联可以写成:select * from dual a,dual b where a.key = b.key;Hive中应为:select * from dua...
阅读全文
摘要:1.首先下载Hadoop对应版本的插件,以Hadoop 1.0版本对应的插件Hadoop-eclipse-plugin1.0.3.jar为例2、将下载的插件放置到Ecplise安装目录的plugins目录下3、启动Ecplise,点击Window->Show View->Other,点击MapReu...
阅读全文
摘要:HQL操作1、Distribute by distribute by col按照col列把数据分散到不同的reduce sort sort by col 按照col列把数据排序 select col,co2 from table_name distribute by col1 sort by col...
阅读全文
摘要:单项选择题1. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份?a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 Na...
阅读全文