上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 38 下一页
摘要: SparkSQL 练习项目 - 出租车利用率分析 数据集结构 字段示例示意 hack_license BA96DE419E711691B9445D6A6307C170 执照号, 可以唯一标识一辆出租车 pickup_datetime 2013-01-01 15:11:48 上车时间 dropoff_ 阅读全文
posted @ 2021-01-16 19:44 喜欢爬的孩子 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 函数: 聚合每个类别的总价; val spark = SparkSession.builder() .appName("window") .master("local[6]") .getOrCreate() import spark.implicits._ val source = Seq( ("T 阅读全文
posted @ 2021-01-16 13:42 喜欢爬的孩子 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 学习内容; Bp 神经网络的简单理解 首先从名称中可以看出,Bp神经网络可以分为两个部分,bp和神经网络。 bp是 Back Propagation 的简写 ,意思是反向传播。而神经网络,听着高大上,其实就是一类相对复杂的计算网络。举个简单的例子来说明一下,什么是网络。 看这样一个问题,假如我手里有 阅读全文
posted @ 2021-01-15 20:32 喜欢爬的孩子 阅读(1455) 评论(0) 推荐(0) 编辑
摘要: spark-shell 交互式编程: 请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含 了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,D 阅读全文
posted @ 2021-01-15 15:29 喜欢爬的孩子 阅读(1086) 评论(0) 推荐(0) 编辑
摘要: 第二章不同软件项目的需求视图 -读后总结: 信息系统的需求视图: 直到今天,信息系统在软件项目所占的比例也是做高的,因此研究信息系统的本质和分类对于需求工作的开展是尤为重要的。 信息系统的本质与分类: 信息系统是人和数据、过程和接口的组合,主要体会如下几个要素。支持企业的日常运作、支持解决问题、支持 阅读全文
posted @ 2021-01-14 21:53 喜欢爬的孩子 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 聚合操作: groupby: // 1. 创建 SparkSession val spark = SparkSession.builder() .master("local[6]") .appName("agg processor") .getOrCreate() import spark.impl 阅读全文
posted @ 2021-01-14 19:35 喜欢爬的孩子 阅读(398) 评论(0) 推荐(0) 编辑
摘要: column对象: 分类操作解释 创建 ' 单引号 ' 在 Scala 中是一个特殊的符号, 通过 ' 会生成一个 Symbol 对象, Symbol 对象可以理解为是一个字符串的变种, 但是比字符串的效率高很多, 在 Spark 中, 对 Scala 中的 Symbol 对象做了隐式转换, 转换为 阅读全文
posted @ 2021-01-14 12:58 喜欢爬的孩子 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 有类型转换: map: @Test def trans(): Unit = { // 3. flatMap val ds1 = Seq("hello spark", "hello hadoop").toDS ds1.flatMap( item => item.split(" ") ).show() 阅读全文
posted @ 2021-01-13 22:15 喜欢爬的孩子 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 初识 DataFrameReader: SparkSQL 的一个非常重要的目标就是完善数据读取, 所以 SparkSQL 中增加了一个新的框架, 专门用于读取外部数据源, 叫做 DataFrameReader @Test def reader1(): Unit = { // 1. 创建 SparkS 阅读全文
posted @ 2021-01-13 20:44 喜欢爬的孩子 阅读(474) 评论(0) 推荐(0) 编辑
摘要: RDD 和 SparkSQL 运行时的区别 RDD 的运行流程 大致运行步骤 先将 RDD 解析为由 Stage 组成的 DAG, 后将 Stage 转为 Task 直接运行 问题 任务会按照代码所示运行, 依赖开发者的优化, 开发者的会在很大程度上影响运行效率 解决办法 创建一个组件, 帮助开发者 阅读全文
posted @ 2021-01-12 14:18 喜欢爬的孩子 阅读(258) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 38 下一页