上一页 1 2 3 4 5 6 7 8 9 ··· 27 下一页
摘要: 大数据指数据采集,数据清洗,数据分析和数据应用的整个流程中理论,技术和方法,即上述公式的整个流程 机器学习是大数据分析的核心内容,解决的是找到关联X和Y的模型F,从Data到X的步骤通常是人工完成(特征工程) 深度学习是机器学习的一部分,核心是自动找到对特定任务有效的特征,即自动完成Data到X的转 阅读全文
posted @ 2021-01-21 23:40 谜语+ 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 1 spark streaming 1.1 Spark Streaming 介绍 批量计算 流计算 1.2 Spark Streaming 入门 Netcat 的使用 项目实例 目标:使用 Spark Streaming 程序和 Socket server 进行交互, 从 Server 处获取实时传 阅读全文
posted @ 2021-01-20 22:58 谜语+ 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1 spark SQL基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , " 阅读全文
posted @ 2021-01-18 15:38 谜语+ 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 1 聚合 1.1 使用 functions 进行聚合 import org.apache.spark.sql.functions._ val groupedDF: RelationalGroupedDataset = pmDF.groupBy('year) groupedDF.agg(avg('pm 阅读全文
posted @ 2021-01-17 21:55 谜语+ 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 1 Dataset(DataFrame)的基础操作 1.1 有类型操作 分类算子解释 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world" 阅读全文
posted @ 2021-01-16 23:12 谜语+ 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 1 数据读写 1.1 DataFrameReader 组件解释 schema 结构信息, 因为 Dataset 是有结构的, 所以在读取数据的时候, 就需要有 Schema 信息, 有可能是从外部数据源获取的, 也有可能是指定的 option 连接外部数据源的参数, 例如 JDBC 的 URL, 或 阅读全文
posted @ 2021-01-15 22:48 谜语+ 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 在阅读完上篇架构设计的分解篇之后,今天又阅读完《架构设计思维-集成》,原文地址:https://mp.weixin.qq.com/s/f1ZlEpvbnox_re14ceCgFQ。 分解的目的是加速开发和降低问题的复杂度,但是如果分解后的内容无法集成在一起,那么分解的存在则是没有意义的。分解+集成联 阅读全文
posted @ 2021-01-15 19:56 谜语+ 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 1 spark SQL 1.1 发展过程 1.2 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 解析器, 可以不使用 阅读全文
posted @ 2021-01-14 22:10 谜语+ 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 综合案例 1 综合案例 1.0 文件排序 解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit ={ val source=sc.textFile("dataset/files 阅读全文
posted @ 2021-01-13 21:09 谜语+ 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 问题如下: 问题的原因: umi插件版本与umi的版本有冲突,现在直接使用命令安装umi的话,系统都会默认给你安装最新版umi3,而umi3已经对原来的插件进行了更新,所以如果你的umi是最新版的,就要参考官方文档最新版的配置方式,不能一味地使用原来的配置,否则会一直报错。 解决办法: 需要先执行 阅读全文
posted @ 2021-01-13 21:07 谜语+ 阅读(235) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 27 下一页