-
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现
摘要:UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现 测试数据 java代码 1 package com.hzf.spark.study; 2 3 import java.util.Map; 4 import java.util.Set; 5 6 impo
阅读全文
-
UserView--第一种方式set去重,基于Spark算子的java代码实现
摘要:UserView--第一种方式set去重,基于Spark算子的java代码实现 <!--more--> 测试数据 java代码 package com.hzf.spark.study; import java.util.HashSet; import java.util.Iterator; impo
阅读全文
-
Spark_总结四
摘要:转载请标明出处http://www.cnblogs.com/haozhengfei/p/22bba3b1ef90cbfaf073eb44349c0757.html Spark_总结四 1.Spark SQL Spark SQL 和 Hive on Spark 两者的区别?<!--more--> sp
阅读全文
-
Spark应用_PageView_UserView_HotChannel
摘要:Spark应用_PageView_UserView_HotChannel 一、PV <!--more--> 对某一个页面的访问量,在页面中进行刷新一次就是一次pv PV {p1, (u1,u2,u3,u1,u2,u4…)} 对同一个页面的浏览量进行统计,用户可以重复 1 2 3 4 5 6 7 8
阅读全文
-
Spark_总结一
摘要:Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发) <!--more--> 1.2Spark比Hadoop快的两个原因 第一,内存计算 第二,DAG(有向无环图) 2.Spark运行模式(四种 )
阅读全文
-
Spark高可用集群搭建
摘要:Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE
阅读全文
-
Spark集群搭建_YARN
摘要:Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh <!--more--> 2.Spark on YARN--不需要启动Spark集群,因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o
阅读全文
-
Spark集群搭建_Standalone
摘要:转载请标明出处http://www.cnblogs.com/haozhengfei/p/f421e517457b01f6db36d934bfab5ac6.html Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安
阅读全文
|