随笔分类 -  spark

摘要:spark总结 1.Spark的特点: 高可伸缩性 高容错 基于内存计算 支持多种语言:java,scala,python,R 高质量的算法,比MapReduce快100倍 多种调度引擎:可以运行于YARN,Mesos,standalone 等。 2.spark的提供的功能 以及应用场景 | spa 阅读全文
posted @ 2018-04-13 16:03 丹江湖畔养蜂子赵大爹 阅读(805) 评论(0) 推荐(0) 编辑
摘要:spark mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。 局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。 在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量 阅读全文
posted @ 2018-03-23 11:32 丹江湖畔养蜂子赵大爹 阅读(1063) 评论(0) 推荐(0) 编辑
摘要:spark Graph 的PregelAPI 理解和使用 图本质上是一种递归的数据结构,可以使用Spark GraphX 的PregelAPI接口对图数据进行批量计算, 之前一直不怎么理解Pregel计算模型,因此花点时间整理一下,该api的理解以及使用方法等。 1、Pregel的计算模型 Preg 阅读全文
posted @ 2018-02-06 14:48 丹江湖畔养蜂子赵大爹 阅读(1456) 评论(0) 推荐(0) 编辑
摘要:运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决 在Idea中,直接运行ComprehensiveExample.scala,报需要指定master异常。 修改源码:指定master为local模式, 继续运行,报如下错误: com.google. 阅读全文
posted @ 2018-01-23 13:06 丹江湖畔养蜂子赵大爹 阅读(607) 评论(0) 推荐(0) 编辑
摘要:在spark streming 中调用spark sql时过程遇到的问题 使用版本:spark 2.1.0 JDK1.8 1. spark sql中对limit 的查询结果使用sum() 聚合操作不生效 如下sql会报出 top10_sts 存在异常。 改成如下sql逻辑正常执行 2. spark 阅读全文
posted @ 2017-09-19 18:43 丹江湖畔养蜂子赵大爹 阅读(1214) 评论(0) 推荐(0) 编辑
摘要:spark任务提交到yarn上命令总结 1. 使用spark submit提交任务 集群模式执行 SparkPi 任务,指定资源使用,指定eventLog目录 不指定资源,使用yarn的默认资源分配。 动态的加载spark配置 客户端模式执行 SparkPi 任务:spark submit 2. 使 阅读全文
posted @ 2017-02-23 17:51 丹江湖畔养蜂子赵大爹 阅读(18911) 评论(0) 推荐(2) 编辑
摘要:spark on yarn模式下配置spark sql访问hive元数据 目的:在spark on yarn模式下,执行spark sql访问hive的元数据。并对比一下spark sql 和hive的效率。 软件环境: + hadoop2.7.3 + apache hive 2.1.1 bin + 阅读全文
posted @ 2017-02-15 19:04 丹江湖畔养蜂子赵大爹 阅读(7766) 评论(0) 推荐(0) 编辑
摘要:spark on yarn任务提交缓慢解决 spark版本:spark 2.0.0 hadoop 2.7.2。 在spark on yarn 模式执行任务提交,发现特别慢,要等待几分钟, 使用集群模式模式提交任务: ./bin/spark submit class org.apache.spark. 阅读全文
posted @ 2017-02-08 19:23 丹江湖畔养蜂子赵大爹 阅读(8142) 评论(0) 推荐(1) 编辑
摘要:运行 Spark on YARN Spark 0.6.0 以上的版本添加了在yarn上执行spark application的功能支持,并在之后的版本中持续的 改进。关于本文的内容是翻译官网的内容,大家也可参考spark的官网地址:http://spark.apache.org/docs/lates 阅读全文
posted @ 2016-12-27 19:16 丹江湖畔养蜂子赵大爹 阅读(316) 评论(0) 推荐(0) 编辑
摘要:spark的standlone模式安装 安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交。 require:提前安装好jdk 1.7.0_80 ;scala 2.11.8 可以参考官网的说明:http://spark.apache.org/docs/la 阅读全文
posted @ 2016-12-08 19:30 丹江湖畔养蜂子赵大爹 阅读(1306) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示