Easen.Cai - 博客园

2017年9月18日

摘要： 1、使用Sparkconf配置Spark 对Spark进行性能调优，通常就是修改Spark应用的运行时配置选项。 Spark中最主要的配置机制通过SparkConf类对Spark进行配置，当创建出一个SparkContext时，就需要创建出一个SparkConf实例。 Sparkconf实例包含用户阅读全文

posted @ 2017-09-18 11:39 Easen.Cai 阅读(1811) 评论(0) 推荐(0)

Spark学习笔记5：Spark集群架构

摘要： Spark的一大好处就是可以通过增加机器数量并使用集群模式运行，来扩展计算能力。Spark可以在各种各样的集群管理器（Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器）上运行，所以Spark应用既能够适应专用集群，又能用于共享的云计算环境。 Spark运行阅读全文

posted @ 2017-09-18 08:51 Easen.Cai 阅读(1032) 评论(0) 推荐(0)

2017年9月16日

Spark学习笔记4：数据读取与保存

摘要： Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下：文本文件使用文件路径作为参数调用SparkContext中的textFile()函数，就可以读取一个文本文件。也可以指定minPartitions控制分区数。阅读全文

posted @ 2017-09-16 22:48 Easen.Cai 阅读(17184) 评论(0) 推荐(0)

2017年9月15日

Spark学习笔记3：键值对操作

摘要：键值对RDD通常用来进行聚合计算，Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 Spark中创建pair RDD的方法：存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pa 阅读全文

posted @ 2017-09-15 11:04 Easen.Cai 阅读(1113) 评论(0) 推荐(0)

2017年9月14日

Spark学习笔记2：RDD编程

摘要：通过一个简单的单词计数的例子来开始介绍RDD编程。使用Scala语言，IDE使用IntelliJ IDEA 。在IDEA上运行Spark应用需要添加Maven依赖。运行结果：运行Spark应用，首先需要导入Spark包，这里使用Maven来连接公共仓库中的Spark包。接下来创建一个Spar 阅读全文

posted @ 2017-09-14 16:04 Easen.Cai 阅读(719) 评论(0) 推荐(0)

Spark学习笔记1：Spark概览

摘要： Spark是一个用来实现快速而通用的集群计算的平台。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的，运行在多个工作机器或者是一个计算集群上的应用进行调度，分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点，因此Spark支持为各种不同应用场景专门设计阅读全文

posted @ 2017-09-14 10:43 Easen.Cai 阅读(1052) 评论(0) 推荐(0)

2017年9月1日

HBase核心知识点总结

摘要：一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库，经常被描述为一种稀疏的，分布式的，持久化的，多维有序映射，它基于行键、列键和时间戳建立索引，是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类，允许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的阅读全文

posted @ 2017-09-01 09:58 Easen.Cai 阅读(64662) 评论(2) 推荐(8)

2017年8月20日

理解HDFS高可用性架构

摘要：在Hadoop1.x版本的时候，Namenode存在着单点失效的问题。如果namenode失效了，那么所有的基于HDFS的客户端——包括MapReduce作业均无法读，写或列文件，因为namenode是唯一存储元数据与文件到数据块映射的地方。而从一个失效的namenode中恢复的步骤繁多，系统恢复时阅读全文

posted @ 2017-08-20 14:53 Easen.Cai 阅读(4024) 评论(0) 推荐(0)

HDFS知识点总结

摘要：学习完Hadoop权威指南有一段时间了，现在再回顾和总结一下HDFS的知识点。 1、HDFS的设计 HDFS是什么：HDFS即Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储超大文件，运行于商用硬件集群上，是管理网络中跨多台计算机存储阅读全文

posted @ 2017-08-20 00:48 Easen.Cai 阅读(50339) 评论(1) 推荐(7)

2017年8月18日

Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04

摘要：前段时间搭建Hadoop分布式集群，踩了不少坑，网上很多资料都写得不够详细，对于新手来说搭建起来会遇到很多问题。以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助。当然，建议先把HDFS和MapReduce理论原理看懂了再来搭建，会流畅很多。准备阶段：系统：Ubuntu Linux 阅读全文

posted @ 2017-08-18 19:33 Easen.Cai 阅读(9619) 评论(0) 推荐(3)

CAI

公告