摘要: mapReduce体系结构和各种算法 Mapreduce的工作机制 任务执行优化 推测式执行: jobtracker会将执行慢的任务kill掉,启动一个新的相同备份任务 在mapred-site.xml中设置map和reduce任务的开启和关闭 Mapred.... 阅读全文
posted @ 2015-10-16 13:09 retacn_yue 阅读(250) 评论(0) 推荐(0) 编辑
摘要: Hdfs体系结果及shell java操作方式 hdfs设计基础 硬件错误需要冗余 流式数据访问(数据分析) 大规模数据集 简单一致性模型,文件一次写入就不能修改 程序采用”数据就近”原则分配节点执行 主节点:只有一个nameNode 记录文件是如何分割成数据块,以及数据块存储在哪些节点上 ... 阅读全文
posted @ 2015-10-16 13:03 retacn_yue 阅读(186) 评论(0) 推荐(0) 编辑
摘要: Hadoop中eclipse 插件的编译 修改 hadoop-0.20.2\src\contrib\eclipse-plugin\src\java\org\apache\hadoop\eclipse\launch\HadoopApplicationLaunchShortcut.java ... 阅读全文
posted @ 2015-10-16 12:59 retacn_yue 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 使用hadoop自带的例子作测试 Hadoop中的常用命令: //查看目录文件 root@vm:/software/hadoop/hadoop-0.20.2# bin/hadoop dfs -ls / Found 1 items drwxr-xr-x - root supergroup ... 阅读全文
posted @ 2015-10-16 12:57 retacn_yue 阅读(288) 评论(0) 推荐(0) 编辑
摘要: Hadoop 部署方式: 本地单机模式: 伪分布模式: 关闭防火墙 service iptables stop //关闭防火墙 Service iptables status //查看防火墙状态 设置防火墙开机启动模式 Chkconfig iptables --list //查看 Ged... 阅读全文
posted @ 2015-10-16 12:57 retacn_yue 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 海量数据的存取 hdfs (hadoop distributed file system 分布式文件系统) 海量数据的分析 mapReduce (并行计算框架) Yarn (yet another resource negotiator 资源管理调度系统) Hadoop处理离线数据 Storm... 阅读全文
posted @ 2015-10-16 12:55 retacn_yue 阅读(84) 评论(0) 推荐(0) 编辑