摘要:
Scala进阶之路-Spark独立模式(Standalone)集群部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS分布式文件系统存储,而计算采用MapReduce框架进行计算,当你在学习MapReduce的操作时, 阅读全文
摘要:
Scala进阶之路-idea下进行spark编程 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 1>.创建新模块并添加maven依赖 2>.编写scala代码(使用类型推断) 3>.scala编程(定义具体类型) 4>.编写java版 wordcount 阅读全文
摘要:
Scala进阶之路-Spark本地模式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark简介 1>.Spark的产生背景 传统式的Hadoop缺点主要有以下两点: 第一.迭代式计算效率低(一个MapReduce依赖上一个MapReduce的结果); 第二.交互式数 阅读全文
摘要:
Scala进阶之路-Spark底层通信小案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark Master和worker通信过程简介 1>.Worker会向master注册自己; 2>.Master收到worker的注册信息之后,会告诉你已经注册成功,并给worke 阅读全文
摘要:
Scala进阶之路-Scala高级语法之隐式(implicit)详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 我们调用别人的框架,发现少了一些方法,需要添加,但是让别人为你一个人添加是不现实的,因此很多很多时候需要我们自己动手。掌握implicit的用法是阅读Spark源码 阅读全文
摘要:
Scala进阶之路-并发编程模型Akka入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Akka Actor介绍 1>.Akka介绍 写并发程序很难。程序员不得不处理线程、锁和竞态条件等等,这个过程很容易出错,而且会导致程序代码难以阅读、测试和维护。Akka 是 JVM 阅读全文
摘要:
Scala进阶之路-统计商家id的标签数以及TopN示例案例分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.项目需求 将“temptags.txt”中的数据进行分析,统计出商家id的评论标签数量,由于博客园无法上传大文件的文本,因此我把该文本的内容放在博客园的另一个链接了 阅读全文