子墨言良

2018年10月16日

摘要：本博文集群搭建没有实现Hadoop HA，详细文档在后续给出，本次只是先给出大概逻辑思路。（一）hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商（国外）如下所示：基于Apache厂商的最原始的hadoop版本，所有发行版均基于这个版本进行改进。基于HortonWo 阅读全文

posted @ 2018-10-16 20:52 子墨言良阅读(632) 评论(0) 推荐(0) 编辑

2018年10月15日

Spark新闻项目介绍及Linux集群准备

摘要：从今天开始博主后面的已连续博客都是关于一个新闻项目的博客：卡弗卡大数据用户行为（日志）分析项目，从该项目可以学习整个Spark集群的环境配置以及大数据分析技术，完成实时数据分析。（一）项目介绍本课程基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、阅读全文

posted @ 2018-10-15 17:33 子墨言良阅读(246) 评论(0) 推荐(0) 编辑

2018年10月10日

Spark on YARN

摘要： Spark on YARN YARN概述 YARN是什么 Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用阅读全文

posted @ 2018-10-10 11:09 子墨言良阅读(281) 评论(0) 推荐(0) 编辑

2018年10月9日

Spark运行模式

摘要： Spark运行模式简介注：重点是Standalone模式，然后是YARNcluster和YARN client模式。 1. Standalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。借鉴Spark开发模式，我阅读全文

posted @ 2018-10-09 11:34 子墨言良阅读(202) 评论(0) 推荐(0) 编辑

2018年9月19日

Spark编程模型(下)

摘要：创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD； Pair RDD通常用来进行聚合计算； Pair RDD通常由普通RDD做ETL转化而来。 Python： pairs = lines.map(lambda x: (x.split(" ")[0], x 阅读全文

posted @ 2018-09-19 16:03 子墨言良阅读(226) 评论(0) 推荐(0) 编辑

2018年9月18日

Spark编程模型(中)

摘要：创建RDD 方式一：从集合创建RDD makeRDD Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型阅读全文

posted @ 2018-09-18 14:47 子墨言良阅读(166) 评论(0) 推荐(0) 编辑

2018年9月13日

Spark 编程模型(上)

摘要：初识RDD 什么是RDD？定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic 阅读全文

posted @ 2018-09-13 16:51 子墨言良阅读(299) 评论(0) 推荐(0) 编辑

2018年9月12日

Spark编程环境搭建及WordCount实例

摘要：基于Intellij IDEA搭建Spark开发环境搭建基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 · 阅读全文

posted @ 2018-09-12 17:39 子墨言良阅读(2509) 评论(0) 推荐(0) 编辑

2018年9月11日

IDEA右键新建时没有Java Class选项

摘要：今天在IDEA中新建了一个maven工程，但是在我想要新建Class时发件右键菜单里竟然没有Java Class选项！如下图所示：如上图红圈所示，我们可以根据对项目的任意目录进行这五种目录类型标注，这个知识点非常非常重要，必须会。 Sources：一般用于标注类似 src 这种可编译目录。有时候阅读全文

posted @ 2018-09-11 16:54 子墨言良阅读(53333) 评论(2) 推荐(9) 编辑

Spark最简安装

摘要：该环境适合于学习使用的快速Spark环境，采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装，这将在后面进行介绍。 Spark预编译安装包下载——Apache版下载地址：http://spark.apache.org/downloads.html ( 阅读全文

posted @ 2018-09-11 11:13 子墨言良阅读(395) 评论(0) 推荐(0) 编辑

公告