摘要: 1、使用Sparkconf配置Spark 对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项。 Spark中最主要的配置机制通过SparkConf类对Spark进行配置,当创建出一个SparkContext时,就需要创建出一个SparkConf实例。 Sparkconf实例包含用户 阅读全文
posted @ 2017-09-18 11:39 Easen.Cai 阅读(1776) 评论(0) 推荐(0) 编辑
摘要: Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力。Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境。 Spark运行 阅读全文
posted @ 2017-09-18 08:51 Easen.Cai 阅读(999) 评论(0) 推荐(0) 编辑
摘要: Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下: 文本文件 使用文件路径作为参数调用SparkContext中的textFile()函数,就可以读取一个文本文件。也可以指定minPartitions控制分区数。 阅读全文
posted @ 2017-09-16 22:48 Easen.Cai 阅读(17084) 评论(0) 推荐(0) 编辑
摘要: 键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 Spark中创建pair RDD的方法:存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pa 阅读全文
posted @ 2017-09-15 11:04 Easen.Cai 阅读(1070) 评论(0) 推荐(0) 编辑
摘要: 通过一个简单的单词计数的例子来开始介绍RDD编程。 使用Scala语言,IDE使用IntelliJ IDEA 。在IDEA上运行Spark应用需要添加Maven依赖。 运行结果: 运行Spark应用,首先需要导入Spark包,这里使用Maven来连接公共仓库中的Spark包。 接下来创建一个Spar 阅读全文
posted @ 2017-09-14 16:04 Easen.Cai 阅读(701) 评论(0) 推荐(0) 编辑
摘要: Spark是一个用来实现快速而通用的集群计算的平台。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应用进行调度,分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点,因此Spark支持为各种不同应用场景专门设计 阅读全文
posted @ 2017-09-14 10:43 Easen.Cai 阅读(1020) 评论(0) 推荐(0) 编辑
摘要: 一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的 阅读全文
posted @ 2017-09-01 09:58 Easen.Cai 阅读(64081) 评论(2) 推荐(8) 编辑
摘要: 在Hadoop1.x版本的时候,Namenode存在着单点失效的问题。如果namenode失效了,那么所有的基于HDFS的客户端——包括MapReduce作业均无法读,写或列文件,因为namenode是唯一存储元数据与文件到数据块映射的地方。而从一个失效的namenode中恢复的步骤繁多,系统恢复时 阅读全文
posted @ 2017-08-20 14:53 Easen.Cai 阅读(3976) 评论(0) 推荐(0) 编辑
摘要: 学习完Hadoop权威指南有一段时间了,现在再回顾和总结一下HDFS的知识点。 1、HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储 阅读全文
posted @ 2017-08-20 00:48 Easen.Cai 阅读(49899) 评论(1) 推荐(7) 编辑
摘要: 前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题。以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助。当然,建议先把HDFS和MapReduce理论原理看懂了再来搭建,会流畅很多。 准备阶段: 系统:Ubuntu Linux 阅读全文
posted @ 2017-08-18 19:33 Easen.Cai 阅读(9572) 评论(0) 推荐(3) 编辑