赤兔胭脂小吕布

2022年3月17日

摘要：精准搜索需求数据： {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":" 阅读全文

posted @ 2022-03-17 19:00 赤兔胭脂小吕布阅读(86) 评论(0) 推荐(0) 编辑

2022年3月15日

spark 调优、spark 代码的优化

摘要： spark 调优三个方面：代码的优化参数的优化数据倾斜的优化 spark 代码的优化加粗的为重点 1、避免创建重复的RDD 2、尽可能复用同一个RDD 3、对多次使用的RDD进行持久化 4、尽量避免使用shuffle类算子 5、使用map-side预聚合的shuffle操作 6、使用高性能阅读全文

posted @ 2022-03-15 22:00 赤兔胭脂小吕布阅读(82) 评论(0) 推荐(0) 编辑

Spark MLlib

摘要： Spark MLlib Spark 机器学习机器学习是人工智能的一个分支注意：我们学习一个框架的时候一定要学会看官网导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artif 阅读全文

posted @ 2022-03-15 11:38 赤兔胭脂小吕布阅读(81) 评论(0) 推荐(0) 编辑

2022年3月14日

机器学习、算法

摘要：机器学习数学模型机器学习简单理解：坐标系中有很多点，要画一条线，尽量穿过所有的点。那么画这条线的过程就是机器学习的过程机器学习是模仿人的学习过程有监督和无监督机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法决策树算法随机森林算法逻辑回归算法 k-means聚类人工神经网络深阅读全文

posted @ 2022-03-14 21:24 赤兔胭脂小吕布阅读(43) 评论(0) 推荐(0) 编辑

2022年3月13日

DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因

摘要： DStream、RDD、DataFrame 的相互转换 DStream → RDD → DataFrame package com.shujia.stream import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD i 阅读全文

posted @ 2022-03-13 15:18 赤兔胭脂小吕布阅读(281) 评论(0) 推荐(0) 编辑

有状态算子、滑动窗口和滚动窗口

摘要：有状态算子之前我们在运行 Spark Streaming 的时候发现微批处理之中，每一个批次都是相对独立的如何让其能够产生累加的效果呢？ package com.shujia.stream import org.apache.spark.streaming.dstream.{DStream, R 阅读全文

posted @ 2022-03-13 14:24 赤兔胭脂小吕布阅读(149) 评论(0) 推荐(0) 编辑

Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图

摘要： Spark Streaming spark 中最重要的就是 spark core 和 spark sql (也就是之前笔记的内容) 离线计算、实时计算、实时查询 Spark Streaming 原理 Spark Streaming WordCount 1、导入依赖 <dependency> <gr 阅读全文

posted @ 2022-03-13 00:33 赤兔胭脂小吕布阅读(346) 评论(0) 推荐(0) 编辑

2022年3月12日

查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作

摘要：查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql --master yarn-client 命令进入 spark-sql 的时候可以在yarn的web界面中通过下图所示的步骤进入spark-sql 的web界面，并查看 spa 阅读全文

posted @ 2022-03-12 22:36 赤兔胭脂小吕布阅读(221) 评论(0) 推荐(0) 编辑

spark 写代码的三种方式、spark 整合 Hive

摘要： spark 写代码的方式 1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多) 将代码提交到集群运行，不需要指定master(运行模式) 注意以后只要涉及到路径，就不能出现中文或空格，不然可能会报莫名其妙的错误代码示例 package com.shujia.sql import org 阅读全文

posted @ 2022-03-12 21:42 赤兔胭脂小吕布阅读(395) 评论(0) 推荐(0) 编辑

DSL练习、array函数、map函数、sum() 在 over(窗口函数) 中的两种用法、expr()--转换成列的对象、when(表达式,为true返回的值).otherwise(为false返回的值)--用法

摘要： DSL练习统计每科都及格的学生需要显示[学号，姓名，班级，性别，科目名，科目分数] package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFra 阅读全文

posted @ 2022-03-12 00:17 赤兔胭脂小吕布阅读(151) 评论(0) 推荐(0) 编辑

赤兔胭脂小吕布

天行健，君子以自强不息！

公告