03 2019 档案
摘要:源码分析 def seq: TraversableOnce[A] 上面两段代码是scala.collection.TraversableOnce特质的foldLeft方法源代码,实现了TraversableOnce trait的seq就是可迭代的集合; 运行过程为:b=0+a,即0+20=20b=2
阅读全文
摘要:在scala中Map分为可变长(mutable)和不可变长(immutable)
阅读全文
摘要:开发中遇到需求:合并两个Map集合对象(将两个对应Key的值累加) 先说解决方案: 首先: Scala中现有的合并集合操作不能满足这个需求 。 注意合并后的结果a的G02的值其实是被覆盖掉了。。 然后: 说说那个表达式中(a /: b)( ... ) 这部分是什么鬼。这个其实是scala简化的fol
阅读全文
摘要:除了逐行处理数据的udf,还有比较常见的就是聚合多行处理udaf,自定义聚合函数。类比rdd编程就是map和reduce算子的区别。 自定义UDAF,需要extends org.apache.spark.sql.expressions.UserDefinedAggregateFunction,并实现
阅读全文
摘要:Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往
阅读全文
摘要:本文内容和代码是接着上篇文章来写的,推荐先看一下哈~ 我们上一篇文章是写了电影推荐的实现,但是推荐内容是否合理呢,这就需要我们对模型进行评估 针对推荐模型,这里根据 均方差 和 K值平均准确率 来对模型进行评估,MLlib也对这几种评估方法都有提供内置的函数 在真实情况下,是要不断地对推荐模型的三个
阅读全文
摘要:本文将使用 SparkML 来构建推荐引擎。 推荐引擎算法大致分为 基于内容的过滤、协同过滤、矩阵分解,本文将使用基于属于矩阵分解的 最小二乘法 算法来构建推荐引擎。 对于推荐引擎模块这里将分为两篇文章,第一篇文章主要是以实现推荐功能为主,第二篇文章主要是对模型进行评估 文章将按照以下章节来进行书写
阅读全文
摘要:转载来自: https://blog.csdn.net/qq_40990732/article/details/80914873 https://blog.csdn.net/tp15868352616/article/details/80891057 相关概念 1.Metadata概念: 元数据包含
阅读全文
摘要:在hive中有metaServer与hiveServer2两种服务,看了好多文章说这两个的区别,文章内容有对有错,不够全面,故在这里好好总结一下。 首先,下面这个hive构架图,我们一定不陌生,它反应出hive有哪些组件结构 当然下面的图是hadoop1的部分,现在JobTracker是Yarn了
阅读全文
摘要:转载自:https://blog.csdn.net/Android_xue/article/details/79780463 Spark两种共享变量:广播变量(broadcast variable)与累加器(accumulator) 累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。 共享
阅读全文
摘要:import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.MultilayerPerceptronClassifierimport org.apache.spark.ml.evaluation.Multi
阅读全文
摘要:流处理主要有3种应用场景:无状态操作、window操作、状态操作。 reduceByKeyAndWindow countByValueAndWindow countByValueAndWindow的源码如下所示: reduceByWindow reduceByWindow的源码如下所示: count
阅读全文
摘要:在使用Breeze 库时,需要导入相关包: Breeze创建函数 Breeze元素访问 val a = new DenseVector[Int](Array(10 to 20: _*)) a: breeze.linalg.DenseVector[Int] = DenseVector(10, 11,
阅读全文
摘要:0x00 概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。 因此,本文将指出一种通用的数据仓库分层方法,具体包含如
阅读全文
摘要:0x00 前言 下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正! 概述 数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容: 以Hadoo
阅读全文
摘要:0x00 前言整理一些数据仓库中的常用概念。大部分概念不是照搬书上的准确定义,会加入很多自己的理解。 0x01 概念数据仓库(Data Warehouse)数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合
阅读全文
摘要:问题 Spark应用名在使用yarn-cluster模式提交时不生效,在使用yarn-client模式提交时生效,如图1所示,第一个应用是使用yarn-client模式提交的,正确显示我们代码里设置的应用名Spark Pi,第二个应用是使用yarn-cluster模式提交的,设置的应用名没有生效。
阅读全文
摘要:一、文章主题 本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。 本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶
阅读全文
摘要:数据仓库与数据集市建模 前言 数据仓库建模包含了几种数据建模技术,除了ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。 本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。 维度建模的
阅读全文
摘要:前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,也不完全满足范式要求,甚至第一范式都不满足。这种情况正常吗? 如果您不能五秒内给出答案,那么本文应该是对您有帮助的。 数据库的"分家" 随着关系数据
阅读全文