Spark - 随笔分类(第3页) - 日月的弯刀

UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现

摘要：UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现测试数据 java代码 1 package com.hzf.spark.study; 2 3 import java.util.Map; 4 import java.util.Set; 5 6 impo 阅读全文

posted @ 2017-03-05 23:38 日月的弯刀阅读(626) 评论(0) 推荐(0) 编辑

UserView--第一种方式set去重，基于Spark算子的java代码实现

摘要：UserView--第一种方式set去重，基于Spark算子的java代码实现  测试数据 java代码 package com.hzf.spark.study; import java.util.HashSet; import java.util.Iterator; impo 阅读全文

posted @ 2017-03-05 23:24 日月的弯刀阅读(437) 评论(0) 推荐(0) 编辑

Spark_总结四

摘要：转载请标明出处http://www.cnblogs.com/haozhengfei/p/22bba3b1ef90cbfaf073eb44349c0757.html Spark_总结四 1.Spark SQL Spark SQL 和 Hive on Spark 两者的区别？ sp 阅读全文

posted @ 2017-03-05 16:49 日月的弯刀阅读(4766) 评论(0) 推荐(0) 编辑

Spark应用_PageView_UserView_HotChannel

摘要：Spark应用_PageView_UserView_HotChannel 一、PV  对某一个页面的访问量，在页面中进行刷新一次就是一次pv PV {p1, (u1,u2,u3,u1,u2,u4…)} 对同一个页面的浏览量进行统计，用户可以重复 1 2 3 4 5 6 7 8 阅读全文

posted @ 2017-03-04 20:31 日月的弯刀阅读(529) 评论(0) 推荐(0) 编辑

Spark_总结一

摘要：Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架，使数据计算更快（高效运行，快速开发）  1.2Spark比Hadoop快的两个原因第一，内存计算第二，DAG（有向无环图） 2.Spark运行模式（四种）阅读全文

posted @ 2017-03-02 23:28 日月的弯刀阅读(2921) 评论(1) 推荐(0) 编辑

Spark高可用集群搭建

摘要：Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh，注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE 阅读全文

posted @ 2017-03-02 23:08 日月的弯刀阅读(1646) 评论(0) 推荐(0) 编辑

Spark集群搭建_YARN

摘要：Spark集群搭建_YARN 前提：参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh  2.Spark on YARN--不需要启动Spark集群，因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o 阅读全文

posted @ 2017-03-02 23:06 日月的弯刀阅读(883) 评论(0) 推荐(0) 编辑

Spark集群搭建_Standalone

摘要：转载请标明出处http://www.cnblogs.com/haozhengfei/p/f421e517457b01f6db36d934bfab5ac6.html Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安阅读全文

posted @ 2017-03-02 22:58 日月的弯刀阅读(1087) 评论(0) 推荐(0) 编辑

导航

随笔分类 - Spark


Copyright © 2024 日月的弯刀 Powered by .NET 8.0 on Kubernetes 博客园