BD大数据-Hadoop - 随笔分类 - 努力的孔子

hadoop-InputFormat-Split-任务并行度

摘要：首先来看 MapReduce 流程图一个 map，一个 reduce，中间靠 shuffle 连接，shuffle 左边被划分到 map，右边被划分到 reduce InputFormat input 是个文件，进入 mapper 后变成一行一行，如何实现的呢？在 hadoop 中实现的方法叫阅读全文

posted @ 2019-12-11 10:11 努力的孔子阅读(541) 评论(0) 推荐(0)

shell with hadoop

摘要：shell 命令操作 hadoop 之前多少提及过，这里做个总结。 shell with hdfs 基本命令 bin/hadoop fs 大于下面的命令 bin/hdfs dfs dfs 是 fs 的实现类 shell 操作 hadoop 就是上面的命令加 “-” 再加 linux 命令常用命阅读全文

posted @ 2019-09-26 16:55 努力的孔子阅读(478) 评论(0) 推荐(0)

hadoop-组件

摘要：hadoop1.x 和 hadoop2.x 区别 HDFS 分布式文件存储系统优点缺点 MapReduce 分布式计算详见我的博客 mapreduce YARN 计算资源管理器主要了解两个组件 ResourceManager：管理整个集群的计算资源 NodeManager：管理单个节点的计算阅读全文

posted @ 2019-09-26 15:16 努力的孔子阅读(236) 评论(0) 推荐(0)

hadoop-mapreduce 详解

摘要：mapreduce 完整流程解析 1. 在客户端启动一个 job； hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar -files tmp/example1/mapper.py,tmp/example1/reducer.py - 阅读全文

posted @ 2019-09-21 15:50 努力的孔子阅读(628) 评论(0) 推荐(0)

python with hadoop

摘要：python with hdfs hdfs 可以在 linux 本地操作 bin/hdfs dfs -ls /foo 但是这种只能在命令行操作。通常我们需要在程序中实现远程操作，python 是可以的。需要用到一个模块 snakebite，目前仅支持 python2 snakebite 有两种阅读全文

posted @ 2019-09-20 14:27 努力的孔子阅读(2322) 评论(0) 推荐(0)

hadoop-集群搭建

摘要：由于篇幅较大，废话不多说，直奔主题。 hadoop 安装同样可分为单机模式、伪分布式、完全分布式本文主要介绍完全分布式，环境 centos 6.5，hadoop-2.6.5 第一步：配置好 4 台虚拟机或者物理机，具体步骤参考我的其他博客第二步：查看主机名，并修改【务必记住修改主机名的方法，阅读全文

posted @ 2019-09-19 10:42 努力的孔子阅读(1884) 评论(0) 推荐(0)

随笔分类 - BD大数据-Hadoop

导航