[置顶] 大数据:spark集群搭建

摘要: 创建spark用户组,组ID1000 groupadd -g 1000 spark 在spark用户组下创建用户ID 2000的spark用户 获取视频中文档资料及完整视频的伙伴请加QQ群:947967114 useradd -u 2000 -g spark spark 设置密码 passwd sp 阅读全文

posted @ 2018-12-01 14:45 爱码学院 阅读(235) 评论(0) 推荐(0) 编辑

[置顶] 大数据:Windows下配置flink的Stream

摘要: 对于开发人员来说,最希望的是需要在windows中进行测试,然后把调试好的程序放在集群中运行。下面写一个Socket,上面是监控本地的一个运行端口,来实时的提取数据。获取视频中文档资料及完整视频的伙伴请加QQ群:947967114 下面是一段代码: import org.apache.flink.a 阅读全文

posted @ 2018-11-26 15:34 爱码学院 阅读(1430) 评论(0) 推荐(0) 编辑

[置顶] 大数据IDEA调试flink程序

摘要: Flink在IDEA中开发是一件比较困难的事情,网上没有参考资料,就算就业说的太过笼统,不知道是会了不说还是不会瞎说,为了解决flink这个问题,本人特别做了一遍开发的简单说明。主要考虑两个问题,1、语言环境的搭建。2、flink代码编译通过并运行 获取更多大数据视频资料请加QQ群:94796711 阅读全文

posted @ 2018-11-25 11:55 爱码学院 阅读(2766) 评论(0) 推荐(0) 编辑

[置顶] 大数据:Map终结和Spill文件合并

摘要: 当Mapper没有数据输入,mapper.run中的while循环会调用context.nextKeyValue就返回false,于是便返回到runNewMapper中,在这里程序会关闭输入通道和输出通道,这里关闭输出通道并没有关闭collector,必须要先flush一下。 获取更多大数据视频资料 阅读全文

posted @ 2018-11-24 10:58 爱码学院 阅读(540) 评论(0) 推荐(0) 编辑

[置顶] 大数据 : Hadoop reduce阶段

摘要: Mapreduce中由于sort的存在,MapTask和ReduceTask直接是工作流的架构。而不是数据流的架构。在MapTask尚未结束,其输出结果尚未排序及合并前,ReduceTask是又有数据输入的,因此即使ReduceTask已经创建也只能睡眠等待MapTask完成。从而可以从MapTas 阅读全文

posted @ 2018-11-23 12:00 爱码学院 阅读(1473) 评论(0) 推荐(0) 编辑

[置顶] 大数据调错系列之hadoop在开发工具控制台上打印不出日志的解决方法

摘要: 欢迎关注爱玛教育 阅读全文

posted @ 2018-11-22 16:51 爱码学院 阅读(458) 评论(0) 推荐(0) 编辑

2018年11月22日

大数据调错系列之:自己总结的myeclipse连接hadoop会出现的问题

摘要: 在我们学习或者工作中开始hadoop程序的时候,往往会遇到一个问题,我们写好的程序需要打成包放在集群中运行,这无形中在浪费我们的时间,因为程序可以需要不断的调试,然后把最终程序放在集群中即可。为了解决这个问题,现在我们配置远程连接hadoop,远程调试的方法。 一段程序如下:获取更多大数据视频资料请 阅读全文

posted @ 2018-11-22 11:20 爱码学院 阅读(388) 评论(0) 推荐(1) 编辑

导航