摘要: 一、启动相关组件之前 一般安装完hadoop之后需要格式化一遍hdfs: hdfs namenode -format 然后再进行其他组件的启动,hadoop相关组件都是用位于...hadoop/sbin目录下的脚本启动的, 二、启动组件 一般启动相关的就可以了: 然后查看进程都开起来了没有,正常是: 阅读全文
posted @ 2018-04-20 14:34 大师兄啊哈 阅读(1070) 评论(0) 推荐(0) 编辑
摘要: 一、GROUP BY语句的细节 我们知道,在sql中,GROUP BY语句主要用来给数据分组,以便能对每个组进行聚集计算,但是GROUP BY也有一些限制需要知道: 1. GROUP BY字句可以包含任意数目的列,使得能对分组进行嵌套,为数据分组提供更细致的控制。 2.如果嵌套了分组,数据将在最后规 阅读全文
posted @ 2018-04-19 15:19 大师兄啊哈 阅读(3941) 评论(0) 推荐(0) 编辑
摘要: 这是有疑惑的一个问题,因为在董西成的《Hadoop技术内幕——深入解析MapReduce架构设计与实现原理》中提到这个值是64M,而《Hadoop权威指南》中却说是128M,到底哪个是对的呢?我觉得应该都是对的,可能是版本不同导致的不一致,后面终于在Stack OverFlow找到了答案:在Apache Hadoop中默认是64M,Cloudera Hadoop版本中默认是128M。ps:顺便说一... 阅读全文
posted @ 2018-04-18 10:52 大师兄啊哈 阅读(8067) 评论(0) 推荐(1) 编辑
摘要: 一、1.0版本主要由两部分组成:编程模型和运行时环境。编程模型为用户提供易用的编程接口,用户只需编写串行程序实现函数来实现一个分布式程序,其他如节点间的通信、节点失效,数据切分等,则由运行时环境完成。基本编程模型将问题抽象成Map和Reduce两个阶段,Map阶段将输入数据解析成key/value,迭代调用map()函数后,再以key/value的形式输出到本地目录;Reduce阶段则将key相同... 阅读全文
posted @ 2018-04-18 10:14 大师兄啊哈 阅读(2391) 评论(0) 推荐(0) 编辑
摘要: 一、作业管理的场景作业管理(job control)是在bash环境下使用的,主要使用在同一个bash中管理多个作业的场景,譬如登录bash之后想同时复制文件、数据搜索,编译。但是bash的作业管理,有以下限制:程序必须是shell的子进程程序不能等待terminal/shell的输入二、涉及到的命令1. 将命令后台运行的&bash环境下,存在前台(foreground)和后台(backgroun... 阅读全文
posted @ 2018-04-11 12:13 大师兄啊哈 阅读(2164) 评论(0) 推荐(0) 编辑
摘要: 一、什么是数据流重定向 要搞清楚数据流重定向,需要先搞清楚什么是数据流,然后如何重定向,这一切都需要从命令的执行过程说起。 如上图所示为命令的执行过程,可以看到,在Linux中,数据流分三种:标准输入(stdin)、标准输出(stdout)和标准错误(stderr)。 执行命令时,这个命令可能通过文 阅读全文
posted @ 2018-04-09 16:38 大师兄啊哈 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: 主要是出于安全的考虑,由于系统默认是允许所有人在/tmp下写入任何文件的,万一有居心不良的用户或者黑客入侵到计算机,并在/tmp下面埋下木马,名字为ls,当用户用root身份登录后,到/tmp目录执行ls就会有意想不到的危险,所以默认不把当前路径’’.’加入PATH中,也不建议用户自己添加进去。 参 阅读全文
posted @ 2018-04-09 14:41 大师兄啊哈 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 一、前言 之所以整理这篇博客,主要是写Linux环境设置文件 的时候,在查看/etc/profile时看到这么一段代码: 到底”$-”是什么意思,这引起了我的兴趣。 二、$-是什么 $-在脚本中,代表通过set命令传给脚本的标志位(Flags passed to script (using set) 阅读全文
posted @ 2018-04-07 16:47 大师兄啊哈 阅读(1505) 评论(0) 推荐(0) 编辑
摘要: 一、前言 关于bash的环境设置文件,分为系统设置和个人设置,一般来说建议用户直接修改个人的设置。 本文测试环境为:centos6.5. 二、系统设置值 1. /etc/sysconfig/i18n 这个文件设置语系数据,一般只有几行: 用户自己的语系设置建议不要在这里修改。 2. /etc/pro 阅读全文
posted @ 2018-04-07 12:20 大师兄啊哈 阅读(900) 评论(0) 推荐(1) 编辑
摘要: 一、crond与crontab简介 在Linux系统中,循环运行的例行性计划任务,是由 cron (crond) 这个系统服务来控制的,而crontab命令则被用来提交和管理用户的需要周期性执行的任务。一般来说,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。 阅读全文
posted @ 2018-04-02 00:48 大师兄啊哈 阅读(360) 评论(0) 推荐(0) 编辑