hadoop-InputFormat-Split-任务并行度
摘要:首先来看 MapReduce 流程图 一个 map,一个 reduce,中间靠 shuffle 连接,shuffle 左边被划分到 map,右边被划分到 reduce InputFormat input 是个文件,进入 mapper 后变成一行一行,如何实现的呢? 在 hadoop 中实现的方法叫
阅读全文
shell with hadoop
摘要:shell 命令操作 hadoop 之前多少提及过,这里做个总结。 shell with hdfs 基本命令 bin/hadoop fs 大于下面的命令 bin/hdfs dfs dfs 是 fs 的实现类 shell 操作 hadoop 就是 上面的命令 加 “-” 再加 linux 命令 常用命
阅读全文
hadoop-组件
摘要:hadoop1.x 和 hadoop2.x 区别 HDFS 分布式文件存储系统 优点 缺点 MapReduce 分布式计算 详见我的博客 mapreduce YARN 计算资源管理器 主要了解两个组件 ResourceManager:管理整个集群的计算资源 NodeManager:管理单个节点的计算
阅读全文
hadoop-mapreduce 详解
摘要:mapreduce 完整流程解析 1. 在客户端启动一个 job; hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar -files tmp/example1/mapper.py,tmp/example1/reducer.py -
阅读全文
python with hadoop
摘要:python with hdfs hdfs 可以在 linux 本地操作 bin/hdfs dfs -ls /foo 但是这种只能在 命令行 操作。 通常我们需要在程序中实现远程操作,python 是可以的。需要用到一个模块 snakebite,目前仅支持 python2 snakebite 有两种
阅读全文
hadoop-集群搭建
摘要:由于篇幅较大,废话不多说,直奔主题。 hadoop 安装同样可分为 单机模式、伪分布式、完全分布式 本文主要介绍完全分布式,环境 centos 6.5,hadoop-2.6.5 第一步:配置好 4 台虚拟机或者物理机,具体步骤参考我的其他博客 第二步:查看主机名,并修改 【务必记住修改主机名的方法,
阅读全文