Hadoop - 随笔分类 - 天~宇~翱~翔

Hadoop学习之Windows单机版安装

摘要：配置Hadoop环境变量：1.Windows环境变量配置鼠标右键点击‘计算机’-‘属性’-‘高级系统设置’-‘环境变量’-单击新建如图： 2.接着找到环境变量path，将hadoop的bin目录加入到后面: 修改hadoop配置文件（1）编辑“D:\hadoop-2.7.5\etc\hadoop 阅读全文

posted @ 2020-01-30 16:27 天~宇~翱~翔阅读(629) 评论(0) 推荐(0)

Hadoop深入学习之HA

摘要：1. 基本原理 2.x版本中，HDFS架构解决了单点故障问题，即引入双NameNode架构，同时借助共享存储系统来进行元数据的同步，共享存储系统类型一般有几类，如：Shared NAS+NFS、BookKeeper、BackupNode 和 Quorum Journal Manager(QJM)，上阅读全文

posted @ 2019-12-12 12:12 天~宇~翱~翔阅读(414) 评论(0) 推荐(0)

Hadoop学习之常用命令

摘要：HADOOP基本操作命令 HADOOP基本操作命令在这篇文章中，我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP 关闭HADOOP 文件操作 Hadoop使用的是H 阅读全文

posted @ 2016-10-09 22:28 天~宇~翱~翔阅读(322) 评论(0) 推荐(0)

Hadoop学习之shuffle过程

摘要：转自：http://langyu.iteye.com/blog/992916，多谢分享，学习Hadopp性能调优的可以多关注一下Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方，Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.s... 阅读全文

posted @ 2015-11-01 21:01 天~宇~翱~翔阅读(5296) 评论(0) 推荐(2)

Hadoop学习之YARN框架

摘要：转自：http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/，非常感谢分享！对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再... 阅读全文

posted @ 2015-10-15 13:55 天~宇~翱~翔阅读(338) 评论(0) 推荐(0)

Hadoop学习之HBase和Hive的区别

摘要：Hive是为简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用户编程接口。Hive本身不存储和计算数据，它完全依赖於HDFS和MapReduce，Hive中的表纯逻辑表，就是些表... 阅读全文

posted @ 2015-09-30 09:22 天~宇~翱~翔阅读(4885) 评论(0) 推荐(2)

Hadoop学习之MapReduce执行过程详解

摘要：转自：http://my.oschina.net/itblog/blog/275294分析MapReduce执行过程MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己... 阅读全文

posted @ 2015-09-05 14:29 天~宇~翱~翔阅读(474) 评论(0) 推荐(0)

Hadoop学习之Hadoop案例分析

摘要：一、日志数据分析1.背景1.1 ***论坛日志，数据分为两部分组成，原来是一个大文件，是56GB；以后每天生成一个文件，大约是150-200MB之间；每行记录有5部分组成：1.访问ip；2.访问时间；3.访问资源；4.访问状态；5.本次流量1.2 日志格式是apache common日志格式；1.3... 阅读全文

posted @ 2015-07-19 12:31 天~宇~翱~翔阅读(1255) 评论(0) 推荐(0)

Hadoop学习之Hadoop集群搭建

摘要：1、检查网络状况Dos命令：ping ip地址,同时，在Linux下通过命令：ifconfig可以查看ip信息2、修改虚拟机的ip地址打开linux网络连接，在桌面右上角，然后编辑ip地址，修改ip地址后，重启网络服务：service network restart,如果网络重启失败，可以在虚拟机... 阅读全文

posted @ 2015-07-16 22:31 天~宇~翱~翔阅读(425) 评论(0) 推荐(0)

Hadoop学习之自定义二次排序

摘要：一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，本文将通过一个实际的MapReduce二次排序例子讲述二次排序的实现和其MapR... 阅读全文

posted @ 2015-07-16 16:29 天~宇~翱~翔阅读(498) 评论(0) 推荐(0)

Hadoop学习之Mapreduce执行过程详解

摘要：一、MapReduce执行过程 MapReduce运行时，首先通过Map读取HDFS中的数据，然后经过拆分，将每个文件中的每行数据分拆成键值对，最后输出作为Reduce的输入，大体执行流程如下图所示：整个流程图具体来说：每个Mapper任务是一个java进程，它会读取HDFS中的文件，解析成很多的... 阅读全文

posted @ 2015-07-16 16:12 天~宇~翱~翔阅读(11357) 评论(0) 推荐(1)

hive支持sql大全

摘要：转自：http://www.aboutyun.com/thread-7316-1-1.html一、关系运算：1. 等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive>select 1 from lxw_dual where... 阅读全文

posted @ 2015-07-16 12:19 天~宇~翱~翔阅读(2942) 评论(0) 推荐(0)

HiveQL与SQL区别

摘要：转自：http://www.aboutyun.com/thread-7327-1-1.html1、Hive不支持等值连接 SQL中对两表内联可以写成：select * from dual a,dual b where a.key = b.key;Hive中应为：select * from dua... 阅读全文

posted @ 2015-07-16 12:05 天~宇~翱~翔阅读(10990) 评论(0) 推荐(0)

Hadoop插件安装

摘要：1.首先下载Hadoop对应版本的插件，以Hadoop 1.0版本对应的插件Hadoop-eclipse-plugin1.0.3.jar为例2、将下载的插件放置到Ecplise安装目录的plugins目录下3、启动Ecplise，点击Window->Show View->Other，点击MapReu... 阅读全文

posted @ 2015-07-16 09:33 天~宇~翱~翔阅读(232) 评论(0) 推荐(0)

Hive操作之HQL语句

摘要：HQL操作1、Distribute by distribute by col按照col列把数据分散到不同的reduce sort sort by col 按照col列把数据排序 select col,co2 from table_name distribute by col1 sort by col... 阅读全文

posted @ 2015-03-29 22:46 天~宇~翱~翔阅读(569) 评论(0) 推荐(0)

Hadoop经典面试题（转）

摘要：单项选择题1. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份?a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 Na... 阅读全文

posted @ 2015-03-29 16:00 天~宇~翱~翔阅读(1238) 评论(0) 推荐(0)

笨小孩

随笔分类 - Hadoop

公告