上一页 1 ··· 4 5 6 7 8 9 10 下一页
摘要: 关联 DStream 和 RDDtransform(func)Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream. This can be used to do arbitrary RDD operations on the DStream.黑名单过滤实现思路:拿到访问日... 阅读全文
posted @ 2019-05-07 22:33 BBBone 阅读(2281) 评论(0) 推荐(1) 编辑
摘要: RDD源码解析一、RDD.scala- Resilient Distributed Dataset (RDD) 弹性分布式数据集 弹性: 体现在计算上面- the basic abstraction in Spark- Represents an immutable val RDDA == RDDB- partitioned collection of elements-... 阅读全文
posted @ 2019-05-07 22:18 BBBone 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 基于Maven的构建是Apache Spark的参考构建。使用Maven构建Spark需要Maven 3.5.4和Java 8.请注意,从Spark 2.2.0开始,对Java 7的支持已被删除。包:jdk-8u51-linux-x64.tar.gzapache-maven-3.3.9-bin.tar.gzspark-2.4.2.tgzscala-2.11.8.tgz1、maven中的设置需要通过... 阅读全文
posted @ 2019-05-07 21:39 BBBone 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 配置文件:pom.xml 2.11.8 2.2.0 2.6.0-cdh5.7.0 cloudera cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ org.scala-lang ... 阅读全文
posted @ 2019-05-07 19:10 BBBone 阅读(2039) 评论(0) 推荐(0) 编辑
摘要: domain层开发及测试数据准备修改pom.xml配置文件创建四层结构在domain层,创建Orders.class和Iterms.class两个类Orders.classimport lombok.Data;import javax.persistence.Entity;import javax.persistence.Id;import javax.persistence.Table;@E... 阅读全文
posted @ 2019-04-30 17:32 BBBone 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 使用Scala语言开发时,自动生成get和set方法 不用写return进行返回, 因为它的最后一行就是返回值先建立四个层(层层递进)domain 表结构的建立repository(DAO) 实现接口层service 实现业务层controller 实现控制层domain层开发MetaTable.scalapackage com.imooc.imoocb... 阅读全文
posted @ 2019-04-30 17:30 BBBone 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 方式一: 通过case class创建DataFrames(反射)TestDataFrame1.scalapackage com.bky// 隐式类的导入// 定义case class,相当于表结构case class Dept(var id:Int, var position:String, var location:String)// 需要导入SparkSession这个包import org... 阅读全文
posted @ 2019-04-30 17:29 BBBone 阅读(2388) 评论(0) 推荐(0) 编辑
摘要: 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在group by之后使用的sum,avg等UDTF(User-Defined Table-Generat... 阅读全文
posted @ 2019-04-30 17:28 BBBone 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 开始编写我们的统计逻辑,使用row_number()函数先说明一下,row_number()开窗函数的作用其实就是给每个分组的数据,按照其排序顺序,打上一个分组内行号比如说,有一个分组20151001,里面有三条数据,1122,1121,1124那么对这个分组的每一行使用row_number()开窗函数以后,三行依次会获得一个组内的行号行号从1开始递增,比如1122,1 1121,2 1124... 阅读全文
posted @ 2019-04-30 17:28 BBBone 阅读(7098) 评论(0) 推荐(0) 编辑
摘要: 基于Spark Streaming&Flume&Kafka打造通用流处理平台整合日志输出到Flume整合Flume到Kafka整合Kafka到Spark StreamingSpark Streaming对接收到的数据进行处理异常:java.lang.ClassNotFoundException:org.apache.flume.clients.log4jappender.Log4jAppender... 阅读全文
posted @ 2019-04-30 17:27 BBBone 阅读(245) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 下一页