spark - 随笔分类 - 丹江湖畔养蜂子赵大爹

Spark技术的总结以及同storm，Flink技术的对比

摘要：spark总结 1.Spark的特点：高可伸缩性高容错基于内存计算支持多种语言：java，scala，python，R 高质量的算法，比MapReduce快100倍多种调度引擎：可以运行于YARN，Mesos，standalone 等。 2.spark的提供的功能以及应用场景 | spa 阅读全文

posted @ 2018-04-13 16:03 丹江湖畔养蜂子赵大爹阅读(847) 评论(0) 推荐(0)

spark-mllib 密集向量和稀疏向量

摘要：spark mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器，也支持存储于一个或者多个rdd的分布式矩阵。局部向量和局部矩阵是用作公共接口的最简单的数据模型。基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。因此，向量阅读全文

posted @ 2018-03-23 11:32 丹江湖畔养蜂子赵大爹阅读(1119) 评论(0) 推荐(0)

spark Graph 的PregelAPI 理解和使用

摘要：spark Graph 的PregelAPI 理解和使用图本质上是一种递归的数据结构，可以使用Spark GraphX 的PregelAPI接口对图数据进行批量计算，之前一直不怎么理解Pregel计算模型，因此花点时间整理一下，该api的理解以及使用方法等。 1、Pregel的计算模型 Preg 阅读全文

posted @ 2018-02-06 14:48 丹江湖畔养蜂子赵大爹阅读(1522) 评论(0) 推荐(0)

运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决

摘要：运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决在Idea中，直接运行ComprehensiveExample.scala，报需要指定master异常。修改源码：指定master为local模式，继续运行，报如下错误： com.google. 阅读全文

posted @ 2018-01-23 13:06 丹江湖畔养蜂子赵大爹阅读(672) 评论(0) 推荐(0)

spark-streming 中调用spark-sql时过程遇到的问题

摘要：在spark streming 中调用spark sql时过程遇到的问题使用版本：spark 2.1.0 JDK1.8 1. spark sql中对limit 的查询结果使用sum() 聚合操作不生效如下sql会报出 top10_sts 存在异常。改成如下sql逻辑正常执行 2. spark 阅读全文

posted @ 2017-09-19 18:43 丹江湖畔养蜂子赵大爹阅读(1255) 评论(0) 推荐(0)

spark任务提交到yarn上命令总结

摘要：spark任务提交到yarn上命令总结 1. 使用spark submit提交任务集群模式执行 SparkPi 任务，指定资源使用,指定eventLog目录不指定资源，使用yarn的默认资源分配。动态的加载spark配置客户端模式执行 SparkPi 任务:spark submit 2. 使阅读全文

posted @ 2017-02-23 17:51 丹江湖畔养蜂子赵大爹阅读(19091) 评论(0) 推荐(2)

spark on yarn模式下配置spark-sql访问hive元数据

摘要：spark on yarn模式下配置spark sql访问hive元数据目的：在spark on yarn模式下，执行spark sql访问hive的元数据。并对比一下spark sql 和hive的效率。软件环境： + hadoop2.7.3 + apache hive 2.1.1 bin + 阅读全文

posted @ 2017-02-15 19:04 丹江湖畔养蜂子赵大爹阅读(7836) 评论(0) 推荐(0)

spark on yarn任务提交缓慢解决

摘要：spark on yarn任务提交缓慢解决 spark版本：spark 2.0.0 hadoop 2.7.2。在spark on yarn 模式执行任务提交，发现特别慢，要等待几分钟，使用集群模式模式提交任务： ./bin/spark submit class org.apache.spark. 阅读全文

posted @ 2017-02-08 19:23 丹江湖畔养蜂子赵大爹阅读(8224) 评论(0) 推荐(1)

运行 Spark on YARN

摘要：运行 Spark on YARN Spark 0.6.0 以上的版本添加了在yarn上执行spark application的功能支持，并在之后的版本中持续的改进。关于本文的内容是翻译官网的内容，大家也可参考spark的官网地址：http://spark.apache.org/docs/lates 阅读全文

posted @ 2016-12-27 19:16 丹江湖畔养蜂子赵大爹阅读(332) 评论(0) 推荐(0)

spark的standlone模式安装和application 提交

摘要：spark的standlone模式安装安装一个standlone模式的spark集群，这里是最基本的安装，并测试一下如何进行任务提交。 require：提前安装好jdk 1.7.0_80 ；scala 2.11.8 可以参考官网的说明：http://spark.apache.org/docs/la 阅读全文

posted @ 2016-12-08 19:30 丹江湖畔养蜂子赵大爹阅读(1355) 评论(0) 推荐(0)

丹江湖畔养蜂子的赵大爹

随笔分类 - spark

公告