随笔分类 - Spark
摘要:本篇分享来自Martei在Spark AI Submit 2020的开场分享。 马铁是谁 什么!你不知道马铁是谁?Martei Zaharia(说实话,不知道谁给起的中文名字叫马铁,跟着叫就是了),现任Databricks的CTO,也许Databricks你也不是很熟,Spark总是听过的吧?可以说
阅读全文
摘要:Spark憋了一年半的大招后,发布了3.0版本,新特性主要与Spark SQL和Python相关。这也恰恰说明了大数据方向的两大核心:BI与AI。下面是本次发布的主要特性,包括性能、API、生态升级、数据源、SQL兼容、监控和调试等方面的升级。 本次主要整理了性能方面的优化,包括了自适应查询与动态分
阅读全文
摘要:PMML是一种通用的配置文件,只要遵循标准的配置文件,就可以在Spark中训练机器学习模型,然后再web接口端去使用。目前应用最广的就是基于Jpmml来加载模型在javaweb中应用,这样就可以实现跨平台的机器学习应用了。 训练模型 首先在spark MLlib中使用mllib包下的逻辑回归训练模型
阅读全文
摘要:无论是ICF基于物品的协同过滤、UCF基于用户的协同过滤、基于内容的推荐,最基本的环节都是计算相似度。如果样本特征维度很高或者的维度很大,都会导致无法直接计算。设想一下100w 100w的二维矩阵,计算相似度怎么算? 更多内容参考—— "我的大数据学习之路——xingoo" 在spark中RowMa
阅读全文
摘要:在阅读spark mllib源码的时候,发现一个出镜率很高的函数——aggregate和treeAggregate,比如matrix.columnSimilarities()中。为了好好理解这两个方法的使用,于是整理了本篇内容。 由于treeAggregate是在aggregate基础上的优化版本,
阅读全文
摘要:最近在用Spark MLlib进行特征处理时,对于StringIndexer和IndexToString遇到了点问题,查阅官方文档也没有解决疑惑。无奈之下翻看源码才明白其中一二...这就给大家娓娓道来。 更多内容参考 "我的大数据学习之路" 文档说明 StringIndexer 字符串转索引 Str
阅读全文
摘要:最近测试环境基于shc[https://github.com/hortonworks spark/shc]的hbase connector总是异常连接不到zookeeper,看下报错日志: 可以观察到hbase connector莫名其妙连接的是localhost:2181,检查所有的配置文件都没有
阅读全文
摘要:公司平时使用的CDH版本的hadoop生态,spark任务是基于yarn来管理的,而不是基于原生的spark master slave集群管理。 因此任务的大致启动模式是: 如果是Cluster模式: 1. A节点启动Spark submit,这个程序即为client,client连接Resourc
阅读全文
摘要:今天新开发的Structured streaming部署到集群时,总是报这个错: 百度了一下说是版本不一致导致的。于是重新检查各个jar包,发现spark sql kafka的版本是2.2,而spark的版本是2.3,修改spark sql kafka的版本后,顺利执行。
阅读全文
摘要:Structured Streaming最主要的生产环境应用场景就是配合kafka做实时处理,不过在Strucured Streaming中kafka的版本要求相对搞一些,只支持0.10及以上的版本。就在前一个月,我们才从0.9升级到0.10,终于可以尝试structured streaming的很
阅读全文
摘要:上篇了解了一些基本的Structured Streaming的概念,知道了Structured Streaming其实是一个无下界的无限递增的DataFrame。基于这个DataFrame,我们可以做一些基本的select、map、filter操作,也可以做一些复杂的join和统计。本篇就着重介绍下
阅读全文
摘要:近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming,它也是本系列的主角,废话不多说,进入正题吧! 简单介绍 在有过1.6的s
阅读全文
摘要:最近看到有几个Github友关注了Streaming的监控工程—— "Teddy" ,所以思来想去还是优化下代码,不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提交。 本博客内容基于Spark2.2版本~在阅读文章并想实际操作前,请确保你有: 1. 一台配置好Spark和yarn
阅读全文
摘要:Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介,供客户端使用。 因此Spark如何向HBase中写数据就成为很
阅读全文
摘要:spark 模型选择与超参调优 机器学习可以简单的归纳为 通过数据训练 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。 如何选择最优的模型,就是本篇的主要内容: 模型验证的方法 超参数的选择 评估函数的选择 模型验证的方法 在《统计学习方法》这本书中,曾经讲过模型验证的方
阅读全文
摘要:经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。 在整体的流程图上是这样的: 大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当前的JVM中启动Driver,然后与Master通信创建Excutor执行相应的任务。 自己整理了下
阅读全文
摘要:今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容,这次就顺带着回顾一下。 更多内容参考: "我的大数据之路" Spark作为目前最流行的大数据计算框架,已经发展了几个年头了。版
阅读全文
摘要:任务的监控和使用 有几种方式监控spark应用:Web UI,指标和外部方法 Web接口 每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息: 1. 一系列调度的stage和task 2. RDD大小和内存的使用概况 3. 环境变量信息 4. excutors
阅读全文
摘要:spark2.2在使用的时候使用的是SparkSession,这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码,简单的模拟了下,可以当作以后编码风格的参考: 官方使用 自己写的小例子,模拟一下: 很好的风格! 可以得到输出:
阅读全文
摘要:在机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了,一般模型最后效果的好坏往往都是跟特征的选择有关系的,因为模型本身的参数并没有太多优化的点,反而特征这边有时候多加一个或者少加一个,最终的结果都会差别很大。 在SparkMLlib中为
阅读全文