随笔分类 - spark
摘要:spark总结 1.Spark的特点: 高可伸缩性 高容错 基于内存计算 支持多种语言:java,scala,python,R 高质量的算法,比MapReduce快100倍 多种调度引擎:可以运行于YARN,Mesos,standalone 等。 2.spark的提供的功能 以及应用场景 | spa
阅读全文
摘要:spark mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。 局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。 在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量
阅读全文
摘要:spark Graph 的PregelAPI 理解和使用 图本质上是一种递归的数据结构,可以使用Spark GraphX 的PregelAPI接口对图数据进行批量计算, 之前一直不怎么理解Pregel计算模型,因此花点时间整理一下,该api的理解以及使用方法等。 1、Pregel的计算模型 Preg
阅读全文
摘要:运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决 在Idea中,直接运行ComprehensiveExample.scala,报需要指定master异常。 修改源码:指定master为local模式, 继续运行,报如下错误: com.google.
阅读全文
摘要:在spark streming 中调用spark sql时过程遇到的问题 使用版本:spark 2.1.0 JDK1.8 1. spark sql中对limit 的查询结果使用sum() 聚合操作不生效 如下sql会报出 top10_sts 存在异常。 改成如下sql逻辑正常执行 2. spark
阅读全文
摘要:spark任务提交到yarn上命令总结 1. 使用spark submit提交任务 集群模式执行 SparkPi 任务,指定资源使用,指定eventLog目录 不指定资源,使用yarn的默认资源分配。 动态的加载spark配置 客户端模式执行 SparkPi 任务:spark submit 2. 使
阅读全文
摘要:spark on yarn模式下配置spark sql访问hive元数据 目的:在spark on yarn模式下,执行spark sql访问hive的元数据。并对比一下spark sql 和hive的效率。 软件环境: + hadoop2.7.3 + apache hive 2.1.1 bin +
阅读全文
摘要:spark on yarn任务提交缓慢解决 spark版本:spark 2.0.0 hadoop 2.7.2。 在spark on yarn 模式执行任务提交,发现特别慢,要等待几分钟, 使用集群模式模式提交任务: ./bin/spark submit class org.apache.spark.
阅读全文
摘要:运行 Spark on YARN Spark 0.6.0 以上的版本添加了在yarn上执行spark application的功能支持,并在之后的版本中持续的 改进。关于本文的内容是翻译官网的内容,大家也可参考spark的官网地址:http://spark.apache.org/docs/lates
阅读全文
摘要:spark的standlone模式安装 安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交。 require:提前安装好jdk 1.7.0_80 ;scala 2.11.8 可以参考官网的说明:http://spark.apache.org/docs/la
阅读全文