摘要:
精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":" 阅读全文
摘要:
spark 调优 三个方面: 代码的优化 参数的优化 数据倾斜的优化 spark 代码的优化 加粗的为重点 1、避免创建重复的RDD 2、尽可能复用同一个RDD 3、对多次使用的RDD进行持久化 4、尽量避免使用shuffle类算子 5、使用map-side预聚合的shuffle操作 6、使用高性能 阅读全文
摘要:
Spark MLlib Spark 机器学习 机器学习是人工智能的一个分支 注意:我们学习一个框架的时候一定要学会看官网 导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artif 阅读全文
摘要:
机器学习数学模型 机器学习简单理解:坐标系中有很多点,要画一条线,尽量穿过所有的点。那么画这条线的过程就是机器学习的过程 机器学习是模仿人的学习过程 有监督和无监督 机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法 决策树算法 随机森林算法 逻辑回归算法 k-means聚类 人工神经网络 深 阅读全文
摘要:
DStream、RDD、DataFrame 的相互转换 DStream → RDD → DataFrame package com.shujia.stream import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD i 阅读全文
摘要:
有状态算子 之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的 如何让其能够产生累加的效果呢? package com.shujia.stream import org.apache.spark.streaming.dstream.{DStream, R 阅读全文
摘要:
Spark Streaming spark 中 最重要的就是 spark core 和 spark sql (也就是之前笔记的内容) 离线计算、实时计算、实时查询 Spark Streaming 原理 Spark Streaming WordCount 1、导入依赖 <dependency> <gr 阅读全文
摘要:
查看 spark-sql 的 SQL语法树 查看 spark-sql 的web界面的一种方式 在通过 spark-sql --master yarn-client 命令进入 spark-sql 的时候 可以在yarn的web界面中通过下图所示的步骤进入spark-sql 的web界面,并查看 spa 阅读全文
摘要:
spark 写代码的方式 1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多) 将代码提交到集群运行,不需要指定master(运行模式) 注意以后只要涉及到路径,就不能出现中文或空格,不然可能会报莫名其妙的错误 代码示例 package com.shujia.sql import org 阅读全文
摘要:
DSL练习 统计每科都及格的学生 需要显示[学号,姓名,班级,性别,科目名,科目分数] package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFra 阅读全文