大数据学习第一章
备注:从现在开始直到10月份我们要参加省级大数据比赛,在此我会把这期间学习的东西都会在此记录下来,加油吧!!!
1、因为大数据是在Linux系统上运行的,我们有两种选择,下面贴一篇博客
http://dblab.xmu.edu.cn/blog/285/ 这是慕课网上厦门大学林子雨老师讲的一些基本的安装过程
Linux系统建议使用Ubuntu,下面配上下载地址
ubuntu官方网站: http://www.ubuntu.com/ 对应 中文地址为 http://www.ubuntu.org.cn/index_kylin
桌面版下载地址: http://www.ubuntu.com/download/desktop
当然也可以完全按照林子雨老师博客里面进行安装,
2、下面贴一些Linux常用的一些命令(下面命令来源于http://www.cnblogs.com/resn/p/5800922.html 可自行参考)
软件管理:
apt-cache search package 搜索包 apt-cache show package 获取包的相关信息,如说明、大小、版本等 sudo apt-get install package 安装包 sudo apt-get install package –reinstall 重新安装包 sudo apt-get -f install 强制安装 sudo apt-get remove package 删除包 sudo apt-get remove package –purge 删除包,包括删除配置文件等 sudo apt-get autoremove 自动删除不需要的包 sudo apt-get update 更新源 sudo apt-get upgrade 更新已安装的包 sudo apt-get dist-upgrade 升级系统 sudo apt-get dselect-upgrade 使用 dselect 升级 apt-cache depends package 了解使用依赖 apt-cache rdepends package 了解某个具体的依赖 sudo apt-get build-dep package 安装相关的编译环境 apt-get source package 下载该包的源代码 sudo apt-get clean && sudo apt-get autoclean 清理下载文件的存档 sudo apt-get check 检查是否有损坏的依赖
apt的配置文件:
/etc/apt/sources.list 设置软件包的获取来源 /etc/apt/apt.conf apt配置文件 /etc/apt/apt.conf.d apt的零碎配置文件 /etc/apt/preferences 版本参数 /var/cache/apt/archives/partial 存放正在下载的软件包 /var/cache/apt/archives 存放已经下载的软件包 /var/lib/apt/lists 存放已经下载的软件包详细信息 /var/lib/apt/lists/partial 存放正在下载的软件包详细信息
修改密码:
# 修改密码的命令 passwd # 默认修改当前用户的密码 passwd username # 修改指定用户的密码,需要管理员权限
备注:权限不够时需要加sudo 获取管理员权限
忘记密码
开始时长按shift键,进入grub菜单--> 按字母e 进入编辑模式 --> 编辑内容--> 启动 进入但用户模式 ,重新设置用户密码,--> 按照F10重启 -- > 使用新密码进入系统
关机/重启/注销:
logout # 注销
reboot # 重启系统:
shutdown # 关机:
shutdown -r now # 现在立即重启 shutdown -r +5 # 三分钟后重启 shutdown -r 12:12 #在12:12时将重启计算机 shutdown -h now # 现在立即关机 shutdown -h +5 “The System will shutdown after 3 minutes” # 提示使用者将在三分钟后关机 shutdown -h +5 # 5分钟后关机 shutdown -h 12:00 # 12点钟关机 shutdown -c # 取消关机操作
目录切换:
cd # 回到当前用户的家目录 # ~ 可用于表示用户家目录 cd /etc # 切换到/etc目录
cd - # 切换到上一次的目录
pwd 查看当前的工作路径
创建目录:
mkdir my_dir创建目录
mkdir a/b/c/d创建多层目录
获取帮助:
-h --help info man
man man # 查看man命令的手册 man cd man pwd man 5 passwd man -k passwd # 模糊查找 man -f passwd # 精确查找
创建文件:
touch :改变文件或目录时间,文件不存在时会创建一个空文件
touch filel # filel 不存在时被创建
touch -c filel #不创建文件
touch -r ref_file file1 更新file1.txt的时间戳和ref+file相同 touch -t 201210120505.25 file1
删除:
rm
rm -f file1 # 强制删除文件 rm -r a/b/file1 # 删除指定目录及其下的所有文件和目录 rm -rf a/b/file1 # 强制删除指定目录及其下的所有文件和目录 # rm 命令太危险,不建议使用
mv:移动或重命名文件或目录
mv SOURCE DEST # mv test.log test.txt # 文件改名 mv test1.txt dir1/ #移动文件 mv test1.txt test2.tx test3.tx dir1/ #移动多个文件
cp :复制
cp SOURCE DEST 复制文件
cp -i SOURCE DEST # 如果遇到需要覆盖的情况,则提示 cp -r dir1 dir2 # 若给出的源文件是一目录文件,此时cp将递归复制该目录下所有的子目录和文件。此时目标文件必须为一个目录名 cp -p file1 file2 # 此时cp除复制源文件的内容外,还将把其修改时间和访问权限也复制到新文件中。
cp -rp dir1 dir2
star:查看文件详细信息:
stat filename
car:链接文件后输出文件内容到屏幕上,其实就是查看文件内容
cat file1 #显示 file1的文件内容 cat file1 file2 # 显示file1和file2的文件内容 cat -n file1 # 由1开始对所有输出的行数编号 cat -s file # 当遇到连续2行以上的空白行,只保留一行空白行
history : 查看执行过的命令。
history # 显示最近1000条历史命令 history 5 # 显示最后5条命令 !number# number为history之后命令前的序号:执行该条命令 !cat # 执行最后一条以cat开头的命令
more : 查看文件内容
less : 查看文件内容
head : 输出文件的开始的部分, 可以指定行数 , 默认显示10行
ls : 列出目标目录中所有的子目录和文件
格式:ls [选项] [目录名]
-a 用于显示所有文件和子目录(保罗点文件)。
-l 除了文件名之外,还将文件的权限、所有者、文件大小等信息详细列出来。
-r 将目录的内容清单以英文字母顺序的逆序显示。
-t 按文件修改时间进行排序,而不是按文件名进行排序。
-A 同-a,但不列出“.”(表示当前目录)和“..”(表示当前目录的父目录)。
-F 在列出的文件名和目录名后添加标志。例如,在可执行文件后添加“*”,在目录名后添加“/”以区分不同的类型。
-R 如果目标目录及其子目录中有文件,就列出所有的文件。
. 和..
. 表示当前目录
.. 表示父目录
ls # 列出当前目录下的文件和目录 ls . # 列出当前目录下的文件和目录 ls .. # 列出当前目录的父目录下的文件和目录 ls /etc # 列出/etc目录下的文件和目录 ls -l # 以长格式显示文件信息 总用量 76 -rwxrwxrwx 1 will will 78 5月 13 18:11 ss_start.sh
文件类型
- 普通文件
d 目录文件
b 块设备文件
c 字符设备文件
l 链接文件
p 管道文件
s socket文件
文件权限
rwxrwxr-- : 三组rwx 分别表示 所有者、所有组、其他人 的权限。
r : 表示可读, 可以用数字 4 来表示
w : 标识可写 ,可以用数字 2 来表示
x : 表示可执行 , 可以用数字 1 来表示
- :表示没有相应权限 可以用数字 0 来表示
useradd: 添加用户
# -c 备注 加上备注。并会将此备注文字加在/etc/passwd中的第5项字段中 # -d 用户主文件夹。指定用户登录所进入的目录,并赋予用户对该目录的的完全控制权 # -e 有效期限。指定帐号的有效期限。格式为YYYY-MM-DD,将存储在/etc/shadow # -f 缓冲天数。限定密码过期后多少天,将该用户帐号停用 # -g 主要组。设置用户所属的主要组 www.cit.cn # -G 次要组。设置用户所属的次要组,可设置多组 # -M 强制不创建用户主文件夹 # -m 强制建立用户主文件夹,并将/etc/skel/当中的文件复制到用户的根目录下 # -p 密码。输入该帐号的密码 # -s shell。用户登录所使用的shell # -u uid。指定帐号的标志符user id,简称uid useradd user1 # 添加用户 user1 useradd -d /home/userTT user2
userdel : 删除用户
userdel user1 # userdel -r user1 # -r, --remove 用户主目录中的文件将随用户主目录和用户邮箱一起删除。在其它文件系统中的文件必须手动搜索并删除。 # -f, --force 此选项强制删除用户账户,甚至用户仍然在登录状态。它也强制删除用户的主目录和邮箱,即使其它用户也使用同一个主目录或邮箱不属于指定的用户
usermod : 修改用户信息
# -c<备注> 修改用户帐号的备注文字。 # -d登入目录> 修改用户登入时的目录。 # -e<有效期限> 修改帐号的有效期限。 # -f<缓冲天数> 修改在密码过期后多少天即关闭该帐号。 # -g<群组> 修改用户所属的群组。 # -G<群组> 修改用户所属的附加群组。 # -l<帐号名称> 修改用户帐号名称。 # -L 锁定用户密码,使密码无效。 # -s<shell> 修改用户登入后所使用的shell。 # -u<uid> 修改用户ID。
# -U 解除密码锁定。 usermod -G staff user2 # 将 newuser2 添加到组 staff 中 usermod -l newuser1 newuser # 修改 newuser 的用户名为 newuser1 usermod -L newuser1 # 锁定账号 newuser1 usermod -U newuser1 # 解除对 newuser1 的锁定
su : 切换用户,没有参数时,默认切换为root用户;
su # 切换为root ## 推荐 su - # 切换为root 并加载user1的环境配置 su - user1 # 切换为user1 并加载user1的环境配置
sudo : 让当前用户暂时以管理员的身份root来执行命令。
Ubuntu 默认没有启用root用户, 普通用户执行一些特殊的操作时,使用sudo就可以让普通用户以root用户的身份执行命令
sudo有一个配置文件: /etc/sudoers ; 通过修改配置文件可以让指定用户使用sudo命令
关于各个文件的作用域:
(1) /etc/profile: 此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行. 并从/etc/profile.d目录的配置文件中搜集shell的设置。
(2) /etc/bashrc: 为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取(即每次新开一个终端,都会执行bashrc)。
(3) ~/.bash_profile: 每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行一次。默认情况下,设置一些环境变量,执行用户的.bashrc文件。
(4) ~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。
(5) ~/.bash_logout: 当每次退出系统(退出bash shell)时,执行该文件. 另外,/etc/profile中设定的变量(全局)的可以作用于任何用户,而~/.bashrc等中设定的变量(局部)只能继承 /etc/profile中的变量,他们是"父子"关系。(6) ~/.bash_profile: 也可能是 .profile 是交互式、login 方式进入 bash 运行的~/.bashrc 是交互式 non-login 方式进入 bash 运行的通常二者设置大致相同,所以通常前者会调用后者。
PATH变量的设置
env : 查看当前环境变量
export : 设置或显示环境变量。
source : 在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限"
tar:
-c :建立一个压缩文件的参数指令(create 的意思); -x :解开一个压缩文件的参数指令! -t :查看 tarfile 里面的文件! 特别注意 c/x/t 同时仅能存在一个,因为不可能同时压缩与解压缩。 -z :是否同时具有 gzip 的属性?亦即是否需要用 gzip 压缩? -j :是否同时具有 bzip2 的属性?亦即是否需要用 bzip2 压缩? -v :压缩的过程中显示文件!这个常用,但不建议用在背景执行过程! -f :使用档名,请留意,在 f 之后要立即接文件名 -p :使用原文件的原来属性(属性不会依据使用者而变) -P :可以使用绝对路径来压缩! -N :比后面接的日期(yyyy/mm/dd)还要新的才会被打包进新建的文件中! # 将当前目录下所有.txt文件打包并压缩归档到文件this.tar.gz tar czvf this.tar.gz ./*.txt # 将当前目录下的this.tar.gz中的文件解压到当前目录 tar xzvf this.tar.gz ./ # 将整个 /etc 目录下的文件全部打包成为 /tmp/etc.tar tar -cvf /tmp/etc.tar /etc # 仅打包,不压缩! tar -zcvf /tmp/etc.tar.gz /etc # 打包后,以 gzip 压缩 tar -jcvf /tmp/etc.tar.bz2 /etc # 打包后,以 bzip2 压缩 # 解压文件 tar -xf a.tar.gz # tar -xf a.tar.gz -C /tmp # 指定解包路径
grep:
格式: grep [OPTIONS] PATTERN [FILE...] grep [OPTIONS] [-e PATTERN] [FILE...] 参数: -c --count #计算符合样式的列数 -l --file-with-matches #列出文件内容符合指定的样式的文件名称。 -v --revert-match #显示不包含匹配文本的所有行。 -i --ignore-case #忽略字符大小写的差别。 -o # 只显示匹配到的关键字 -n # 现实行号 -E 使用正则表达式
vi/vim
进入vi的命令
vi filename :打开或新建文件,并将光标置于第一行首
vi +n filename :打开文件,并将光标置于第n行首
vi + filename :打开文件,并将光标置于最后一行首
vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处
vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filename
vi filename....filename :打开多个文件,依次进行编辑
移动光标类命令
h :光标左移一个字符
l :光标右移一个字符
space:光标右移一个字符
Backspace:光标左移一个字符
k或Ctrl+p:光标上移一行
j或Ctrl+n :光标下移一行
Enter :光标下移一行
w或W :光标右移一个字至字首
b或B :光标左移一个字至字首
e或E :光标右移一个字至字尾
) :光标移至句尾
( :光标移至句首
}:光标移至段落开头
{:光标移至段落结尾
nG:光标移至第n行首
n+:光标下移n行
n-:光标上移n行
n$:光标移至第n行尾
H :光标移至屏幕顶行
M :光标移至屏幕中间行
L :光标移至屏幕最后行
0:(注意是数字零)光标移至当前行首
$:光标移至当前行尾
屏幕翻滚类命令
Ctrl+u:向文件首翻半屏
Ctrl+d:向文件尾翻半屏
Ctrl+f:向文件尾翻一屏
Ctrl+b;向文件首翻一屏
nz:将第n行滚至屏幕顶部,不指定n时将当前行滚至屏幕顶部。
插入文本类命令
i :在光标前
I :在当前行首
a:光标后
A:在当前行尾
o:在当前行之下新开一行
O:在当前行之上新开一行
r:替换当前字符
R:替换当前字符及其后的字符,直至按ESC键
s:从当前光标位置处开始,以输入的文本替代指定数目的字符
S:删除指定数目的行,并以所输入文本代替之
ncw或nCW:修改指定数目的字
nCC:修改指定数目的行
删除命令
ndw或ndW:删除光标处开始及其后的n-1个字
do:删至行首
d$:删至行尾
ndd:删除当前行及其后n-1行
x或X:删除一个字符,x删除光标后的,而X删除光标前的
Ctrl+u:删除输入方式下所输入的文本
搜索及替换命令
/pattern:从光标开始处向文件尾搜索pattern
?pattern:从光标开始处向文件首搜索pattern
n:在同一方向重复上一次搜索命令
N:在反方向上重复上一次搜索命令
:s/p1/p2/g:将当前行中所有p1均用p2替代
:n1,n2s/p1/p2/g:将第n1至n2行中所有p1均用p2替代
:g/p1/s//p2/g:将文件中所有p1均用p2替换
选项设置
all:列出所有选项设置情况
term:设置终端类型
ignorance:在搜索中忽略大小写
list:显示制表位(Ctrl+I)和行尾标志($)
number:显示行号
report:显示由面向行的命令修改过的数目
terse:显示简短的警告信息
warn:在转到别的文件时若没保存当前文件则显示NO write信息
nomagic:允许在搜索模式中,使用前面不带“\”的特殊字符
nowrapscan:禁止vi在搜索到达文件两端时,又从另一端开始
mesg:允许vi显示其他用户用write写到自己终端上的信息
最后行方式命令
:n1,n2 co n3:将n1行到n2行之间的内容拷贝到第n3行下
:n1,n2 m n3:将n1行到n2行之间的内容移至到第n3行下
:n1,n2 d :将n1行到n2行之间的内容删除
:w :保存当前文件
:e filename:打开文件filename进行编辑
:x:保存当前文件并退出
:q:退出vi
:q!:不保存文件并退出vi
:!command:执行shell命令command
:n1,n2 w!command:将文件中n1行至n2行的内容作为command的输入并执行之,若不指定n1,n2,则表示将整个文件内容作为command的输入
:r!command:将命令command的输出结果放到当前行
寄存器操作
"?nyy:将当前行及其下n行的内容保存到寄存器?中,其中?为一个字母,n为一个数字
"?nyw:将当前行及其下n个字保存到寄存器?中,其中?为一个字母,n为一个数字
"?nyl:将当前行及其下n个字符保存到寄存器?中,其中?为一个字母,n为一个数字
"?p:取出寄存器?中的内容并将其放到光标位置处。这里?可以是一个字母,也可以是一个数字
ndd:将当前行及其下共n行文本删除,并将所删内容放到1号删除寄存器中。
一、插入文本
i 在当前字符前插入文本
I 在行首插入文本
a 在当前字符后添加文本
A 在行末添加文本
o 在当前行后面插入一空行
O 在当前行前面插入一空行
R 以改写方式输入文本
二、移动光标
j或下箭头 向下移动一行
k或上箭头 向上移动一行
h或左箭头 左移一个字符
l或右箭头 右移一个字符
w 右移一个词
W 右移一个以空格分隔的词
b 左移一个词
B 左移一个以空格分隔的词
0 移到行首
Ctrl-F 向前翻页
Ctrl-B 向后翻页
nG 到第n行
G 到最后一行
三、替换文本
$ 到行尾
( 到句子的开头
) 到句子的末尾
{ 到段落的开头
} 到段落的末尾
四、删除文本
r 替换一个字符
c 修改文本直到按下Esc健
cw 修改下一个词
cnw 修改接下来的n个词
五、文本编辑
yy 将一行文本移到缺省缓冲区中
yn 将下一个词移到缺省缓冲区中
ynw 将后面的n个词移到缺省缓冲区中
p 如果缺省缓冲区中包含一行文本,则在当前
行后面插入一个空行井将缺省缓冲区中的声
容粘贴到这一行中;如果缺省缓冲区中包含
多个词,把这些词粘贴到光标的右边.
P 如果缺省缓冲区中包含一行文本,则正当前
行前面插入一个空行井将缺省缓冲区中的内
容粘贴到这一行中;如果缺省缓冲区中包含
多个词,把这些词粘贴到光标的左边
六、保存退出
zz 保存并退出
:w filename 写入文件
:W 写入文件
:x 保存(如果当前文件修改过)并退出
:q! 不保存文件,直接退出
:q 退出vi
vi编辑器的启动与退出
直接进入编辑环境
$ vi
进入编辑环境并打开(新建)文件
$ vi myfile
退出vi编辑环境
输入末行命令放弃对文件的修改,并退出编辑器
:q!
保存文件
保存对vi编辑器中已打开文件的修改
:w
另存为文件
将vi编辑器中的内容另存为指定文件名
:w myfile
退出vi编辑器的多种方法
未修改退出
没有对vi编辑器中打开的文件进行修改,或已对修改进行了保存,直接退出vi编辑器
:q
对vi编辑器中的文件进行保存并退出vi编辑器
:wq
不保存退出
放弃对文件内容的修改,并退出vi编辑器
:q!
光标的移动和翻页操作
h向左移动光标
l向右移动光标
k向上移动光标
j向下移动光标
翻页Ctrl + f向前翻整页
Ctrl + b向后翻整页
Ctrl + u向前翻半页
Ctrl + d向后翻半页
行内快速跳转
^将光标快速跳转到本行的行首字符
$将光标快速跳转到本行的行尾字符
w将光标快速跳转到当前光标所在位置的后一个单词的首字母
b将光标快速跳转到当前光标所在位置的前一个单词的首字母
e将光标快速跳转到当前光标所在位置的后一个单词的尾字母
文件内行间快速跳转
命令功能
:set nu 在编辑器中显示行号
:set nonu 取消编辑器中的行号显示
1G跳转到文件的首行
G跳转到文件的末尾行
#G跳转到文件中的第#行
进入输入模式
i在当前光标处进入插入状态
a在当前光标后进入插入状态
A将光标移动到当前行的行末,并进入插入状态
o在当前行的下面插入新行,光标移动到新行的行首,进入插入状态
O在当前行的上面插入新行,光标移动到新行的行首,进入插入状态
cw删除当前光标到所在单词尾部的字符,并进入插入状态
c$删除当前光标到行尾的字符,并进入插入状态
c^命令删除当前光标之前(不包括光标上的字符)到行首的字符,并进入插入状态
输入模式的编辑键操作
方向键进行上下左右方向的光标移动
Home快速定位光标到行首
End快速定位光标到行尾
PageUp进行文本的向上翻页
PageDown进行文本的向下翻页
Backspace删除光标左侧的字符
Del删除光标位置的字符
删除操作
x删除光标处的单个字符
dd删除光标所在行
dw删除当前字符到单词尾(包括空格)的所有字符
de删除当前字符到单词尾(不包括单词尾部的空格)的所有字符
d$删除当前字符到行尾的所有字符
d^删除当前字符到行首的所有字符
J删除光标所在行行尾的换行符,相当于合并当前行和下一行的内容
替换操作
:s/old/new 将当前行中查找到的第一个字符“old” 串替换为“new”
:s/old/new/g 将当前行中查找到的所有字符串“old” 替换为“new”
:#,#s/old/new/g 在行号“#,#”范围内替换所有的字符串“old”为“new”
:%s/old/new/g 在整个文件范围内替换所有的字符串“old”为“new”
:s/old/new/c 在替换命令末尾加入c命令,将对每个替换动作提示用户进行确认
撤消操作
u取消最近一次的操作,并恢复操作结果
可以多次使用u命令恢复已进行的多步操作
U取消对当前行进行的所有操作
Ctrl + r对使用u命令撤销的操作进行恢复
复制与粘贴操作
yy复制当前行整行的内容到vi缓冲区
yw复制当前光标到单词尾字符的内容到vi缓冲区
y$复制当前光标到行尾的内容到vi缓冲区
y^复制当前光标到行首的内容到vi缓冲区
p读取vi缓冲区中的内容,并粘贴到光标当前的位置(不覆盖文件已有的内容)
字符串查找操作
/word从上而下在文件中查找字符串“word”
?word 从下而上在文件中查找字符串“word”
n定位下一个匹配的被查找字符串
N定位上一个匹配的被查找字符串
快捷键
ctrl-a : 把光标移动到命令行最开始的地方。
ctrl-e : 把光标移动到命令行末尾。
ctrl-u : 清除命令行中光标所处位置之前的所有字符。
ctrl-k : 清除从提示符所在位置到行末尾之间的字符
ctrl-w : 清除左边的字段
ctrl-y : 将会贴上被ctrl-u 或者 ctrl-k 或者 ctrl-w清除的部分。
ctrl-r : 将自动在命令历史缓存中增量搜索后面入的字符。
tab : 命令行自动补全-自动补全当前的命令行。如果启用自动补全脚本命令参数和选项也可以自动补齐。
ctrl-l : 清屏
以上就是常用的操作命令,有一部分没有记录,如要查看,请查看原网址http://www.cnblogs.com/resn/p/5800922.html
3、安装过程
1、在整个安装过程中主要流程是创建Hadoop用户--》赋予管理员权限--》更新apt--》安装vim--》安装SSH、配置SSH无密码登录(SSH clint已默认安装,只需安装SSH server)
--》安装java环境(该处用到vim命令,该篇上面已给出,请自行查找,推荐按照第二种安装JDK方式)--》安装Hadoop2(登录网址进行下载,推荐:下载一个Google浏览器,火狐网址太慢)--》Hadoop单机配置(非分布式,注:执行案例时,Hadoop默认不会覆盖结果文件,再次执行时,需要先将结果文件进行删除)--》Hadoop伪分布式配置(修改配置文件)
4、Hadoop集群基本理解(自行参考)
Hadoop两大核心组件
1、HDFS
主要包含两大核心节点,由一个NameNode和若干个DataNode数据节点组成分布式文件系统
NameNode就像一个目录服务器一样,我们应用来取数据的时候首先会去访问NameNode,去获得我们要获取的数据是被分别放到哪个服务器的DataNode上,取完了然后拼接起来就完成了整个分布式文件的访问
2、MapReduce
MapReduce也包含两大核心组件一个是JobTracker另一个是TaskTracker
JobTracker相当于一个作业管家,它会对你整个的MapReduce作业进行管理,他会把用户大的作业拆分成很多小的作业,分发到不同的机器上去执行,TaskTracker安装在了不同的机器上,每一个TaskTracker都负责监控和执行JobTracker分配给自己的小作业,JobTracker这个作业管家会协调不同机器上的TaskTracker去完成一个大的作业
还有一个组件是SecondaryNameNode,它是属于我们HDFS中NameNode的一个冷备份