摘要: Scala进阶之路-Spark独立模式(Standalone)集群部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS分布式文件系统存储,而计算采用MapReduce框架进行计算,当你在学习MapReduce的操作时, 阅读全文
posted @ 2018-07-27 18:06 尹正杰 阅读(729) 评论(0) 推荐(0) 编辑
摘要: Scala进阶之路-idea下进行spark编程 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 1>.创建新模块并添加maven依赖 2>.编写scala代码(使用类型推断) 3>.scala编程(定义具体类型) 4>.编写java版 wordcount 阅读全文
posted @ 2018-07-27 14:37 尹正杰 阅读(328) 评论(0) 推荐(0) 编辑
摘要: Scala进阶之路-Spark本地模式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark简介 1>.Spark的产生背景 传统式的Hadoop缺点主要有以下两点: 第一.迭代式计算效率低(一个MapReduce依赖上一个MapReduce的结果); 第二.交互式数 阅读全文
posted @ 2018-07-27 11:35 尹正杰 阅读(712) 评论(0) 推荐(0) 编辑
摘要: Scala进阶之路-Spark底层通信小案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark Master和worker通信过程简介 1>.Worker会向master注册自己; 2>.Master收到worker的注册信息之后,会告诉你已经注册成功,并给worke 阅读全文
posted @ 2018-07-27 10:54 尹正杰 阅读(1228) 评论(2) 推荐(0) 编辑
摘要: Scala进阶之路-Scala高级语法之隐式(implicit)详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 我们调用别人的框架,发现少了一些方法,需要添加,但是让别人为你一个人添加是不现实的,因此很多很多时候需要我们自己动手。掌握implicit的用法是阅读Spark源码 阅读全文
posted @ 2018-07-27 10:54 尹正杰 阅读(2630) 评论(0) 推荐(0) 编辑
摘要: Scala进阶之路-并发编程模型Akka入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Akka Actor介绍 1>.Akka介绍 写并发程序很难。程序员不得不处理线程、锁和竞态条件等等,这个过程很容易出错,而且会导致程序代码难以阅读、测试和维护。Akka 是 JVM 阅读全文
posted @ 2018-07-27 10:53 尹正杰 阅读(8964) 评论(0) 推荐(2) 编辑
摘要: Scala进阶之路-统计商家id的标签数以及TopN示例案例分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.项目需求 将“temptags.txt”中的数据进行分析,统计出商家id的评论标签数量,由于博客园无法上传大文件的文本,因此我把该文本的内容放在博客园的另一个链接了 阅读全文
posted @ 2018-07-27 10:51 尹正杰 阅读(853) 评论(0) 推荐(0) 编辑