摘要: Accumulator简介 Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。 只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spa 阅读全文
posted @ 2017-12-02 22:46 凯心宝牙 阅读(3250) 评论(0) 推荐(3) 编辑
摘要: 原文链接:http://blog.csdn.net/Gavin_chun/article/details/78663826 一、方式1:反射的方法,但是生产上不建议使用。因为case class只能定义22个字段,有所限制。 二、方式2:编程的方式,一般三步走。 1、从原始RDD创建一个RDD[Ro 阅读全文
posted @ 2017-12-01 00:01 凯心宝牙 阅读(967) 评论(0) 推荐(0) 编辑
摘要: 92 92 由于之前配置了hive,hdfs 被格式化了,导致现在hive上原来的元数据没有清理掉。 由于hive 上所有元数据均保存在mysql中,所以,可以从mysql上删除表相关信息即可删除hive表,而且不会影响hdfs上数据。 分析: hive在mysql上的相关元数据表关系图: 解决方法 阅读全文
posted @ 2017-11-02 22:55 凯心宝牙 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 下载软件1:jdk 安装: 2:安装maven http://maven.apache.org/download.cgi 安装需求下载需要版本人下载3.5.0解压: tar -zxvf apache-maven-3.5.0-bin.tar.gz 到 配置maven环境变量 mvn -version 阅读全文
posted @ 2017-09-02 14:28 凯心宝牙 阅读(242) 评论(0) 推荐(0) 编辑
摘要: datanode监控json格式数据:将http://namenode_ip:50070/dfshealth.jsp的地址替换成http://namenode_ip:50070/jmx resourcemanager监控json格式数据:将http://resourcemanager_ip:8088 阅读全文
posted @ 2017-06-03 23:21 凯心宝牙 阅读(932) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://blog.itpub.net/30089851/viewspace-2136429/ 1.下载apache-tomcat-7.0.42及解压[root@sht-sgmhadoopnn-01 app]# pwd/root/learnproject/app[root@sht-sg 阅读全文
posted @ 2017-05-03 23:18 凯心宝牙 阅读(878) 评论(0) 推荐(0) 编辑
摘要: 以下是在学习和使用spark过程中遇到的一些问题,记录下来。 1、首先来说说spark任务运行完后查错最常用的一个命令,那就是把任务运行日志down下来。 程序存在错误,将日志down下来查看具体原因!down日志命令:yarn logs -applicationId app_id 2、Spark性 阅读全文
posted @ 2017-03-03 00:21 凯心宝牙 阅读(6372) 评论(0) 推荐(0) 编辑
摘要: 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 阅读全文
posted @ 2016-12-03 16:20 凯心宝牙 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 阅读全文
posted @ 2016-12-03 16:15 凯心宝牙 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 错误如下: 解决方法: spark-env.sh添加 具体参考官网spark 阅读全文
posted @ 2016-12-03 00:04 凯心宝牙 阅读(858) 评论(0) 推荐(0) 编辑