上一页 1 2 3 4 5 6 7 8 9 ··· 24 下一页
摘要: 操作步骤 建立数据库连接 import pymysql db = pymysql.connect(host="127.0.0.1", user="root", password="123456", db="student_mis", port=3306) cur = db.cursor() 执行数据 阅读全文
posted @ 2021-01-18 20:14 MoooJL 阅读(122) 评论(0) 推荐(0) 编辑
摘要: Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程 总结 RDD 的优点 面向对象的操作方式 可以处理任何类型的数据 RDD 的缺点 运行速度比较慢, 执行过程没有优化 API 比较僵硬, 阅读全文
posted @ 2021-01-17 20:50 MoooJL 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 在使用yum命令安装包时报如下错误 解决方法:在确保虚拟机网络连通的条件下打开如下配置文件 vi /etc/yum.repos.d/CentOS-Base.repo 添加清华大学镜像,https://mirrors.tuna.tsinghua.edu.cn/centos-vault/ 找到对应链接, 阅读全文
posted @ 2021-01-17 00:07 MoooJL 阅读(589) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming 介绍 流式计算框架 批计算 数据已经存在, 一次性读取所有的数据进行批量处理 流计算 数据源源不断的进来, 经过处理后落地 特点 Spark Streaming 会源源不断的处理数据, 称之为流计算 Spark Streaming 并不是实时流, 而是按照时间切分小批量 阅读全文
posted @ 2021-01-16 23:08 MoooJL 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 聚合 使用 functions 函数进行聚合 import org.apache.spark.sql.functions._ val groupedDF: RelationalGroupedDataset = pmDF.groupBy('year) groupedDF.agg(avg('pm) as 阅读全文
posted @ 2021-01-14 23:40 MoooJL 阅读(93) 评论(0) 推荐(0) 编辑
摘要: Dataset (DataFrame) 的基础操作 有类型操作 分类算子解释 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world", "h 阅读全文
posted @ 2021-01-13 23:40 MoooJL 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 数据读写 DataFrameReader 组件解释 schema 结构信息, 因为 Dataset 是有结构的, 所以在读取数据的时候, 就需要有 Schema 信息, 有可能是从外部数据源获取的, 也有可能是指定的 option 连接外部数据源的参数, 例如 JDBC 的 URL, 或者读取 CS 阅读全文
posted @ 2021-01-12 23:33 MoooJL 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 案例一:词频统计 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("wordCount") val s 阅读全文
posted @ 2021-01-11 22:09 MoooJL 阅读(360) 评论(0) 推荐(0) 编辑
摘要: SparkSQL 发展过程 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 解析器, 可以不使用 HQL, 此外, 还 阅读全文
posted @ 2021-01-11 19:50 MoooJL 阅读(89) 评论(0) 推荐(0) 编辑
摘要: Spark底层逻辑 Spark部署 针对于上图, 可以看到整体上在集群中运行的角色有如下几个: Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集群中的协调节点 Worker Daemon Work 阅读全文
posted @ 2021-01-10 23:47 MoooJL 阅读(181) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 24 下一页