上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
摘要: UserDefinedTypedAggregation.scala(用户可自定义类型)import org.apache.spark.sql.expressions.Aggregatorimport org.apache.spark.sql.{Encoder, Encoders, SparkSession}object UserDefinedTypedAggregation { case clas... 阅读全文
posted @ 2019-05-15 00:41 BBBone 阅读(138) 评论(0) 推荐(0) 编辑
摘要: UserDefinedUntypedAggregate.scala(默认返回类型为空,不能更改)import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import or... 阅读全文
posted @ 2019-05-15 00:40 BBBone 阅读(147) 评论(0) 推荐(0) 编辑
摘要: SparkSQLDemo.scalaimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{StringType, StructField, StructType}object SparkSQLDemo { // $example on:create_ds$ case class Per... 阅读全文
posted @ 2019-05-15 00:40 BBBone 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 目录一、概述二、shuffle的定义三、ShuffleMananger发展概述四、HashShuffleManager的运行原理4.1 未经优化的HashShuffleManager4.2 优化后的HashShuffleManager五、SortShuffleManager运行原理5.1 普通运行机制5.2 bypass运行机制六、shuffle相关参数调优spark.shuffle.file.b... 阅读全文
posted @ 2019-05-15 00:29 BBBone 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 前置ES: JavaSpark/Flink Stack + Spring Boot + ES Scala/Java + Java/Scala + Java==> 用API的方式来掌握ES的用法(API、SpringBoot的使用)ES: API RESTFulElasticSearch + Kibana存储 展示/分析ES Plugin: Head SQL Kibana (三个插件... 阅读全文
posted @ 2019-05-15 00:28 BBBone 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 需求: 将统计结果写入到MySQLcreate table wordcount( word varchar(50) default null, wordcount int(10) default null);通过该sql将统计结果写入到MySQL "insert into wordcount(word, wordcount) vlaues('" + record._1 + "'," + re... 阅读全文
posted @ 2019-05-15 00:27 BBBone 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 目录什么是数据倾斜Hadoop框架的特性主要表现容易数据倾斜的情况产生数据清洗的原因业务场景空值产生的数据倾斜不同数据类型关联产生数据倾斜大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点二、Hadoop框架的特性不怕数据大,怕数据倾斜jobs数比较多的作业运行效率相对比较低,如子查询比较多sum、count、max、min等聚合函数,通常不会有... 阅读全文
posted @ 2019-05-15 00:27 BBBone 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 完全搞清楚项目需求,思考项目选项,这块就是使用的是数据库,就是HBase,因为它里面有一个非常合适的API,直接调用,即可功能一: 今天到现在为止 实战课程 的访问量yyyyMMdd使用数据库来进行存储我们的统计结果 Spark Streaming吧统计结果写入到数据库里面 可视化前端根据: yyyyMMdd courseid 把数据库里面的统计结果展示出来选择什么数据库为统... 阅读全文
posted @ 2019-05-15 00:26 BBBone 阅读(548) 评论(0) 推荐(0) 编辑
摘要: Spark Core官网学习回顾 Speed disk 10x memory 100x Easy code interactive shell Unified Stack Batch Streaming ML Graph Deployment Local... 阅读全文
posted @ 2019-05-07 22:39 BBBone 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 关联 DStream 和 RDDtransform(func)Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream. This can be used to do arbitrary RDD operations on the DStream.黑名单过滤实现思路:拿到访问日... 阅读全文
posted @ 2019-05-07 22:33 BBBone 阅读(2279) 评论(0) 推荐(1) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 下一页