随笔分类 - Big Data (Suro, Kafka, Hadoop, Spark, ES, Druid)
Suro, Kafka, Hadoop, Spark, ES, Druid
摘要:【原创 Hadoop&Spark 动手实践 13】Spark综合案例:简易电影推荐系统
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 7】Spark 应用经验、调优与动手实践 目标: 1. 了解Spark 应用经验与调优的理论与方法,如果遇到Spark调优的事情,有理论思考框架。 2. 把调优的过程,进行动手实践,完成一些调优的优化过程,加深理解。 3. 做一个完整的调优的案例,再次加深
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 9】SparkSQL程序设计基础与动手实践(上) 目标: 1. 理解Spark SQL最基础的原理 2. 可以使用Spark SQL完成一些简单的数据分析任务 3. 可以利用Spark SQL完成一个完整的案例
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践(下) 目标: 1. 深入理解Spark SQL 程序设计的原理 2. 通过简单的命令来验证Spark SQL的运行原理 3. 通过一个完整的案例来验证Spark SQL的运行原理,自己实际动手来进行掌握 4
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 11】Spark Streaming 应用与动手实践 目标: 1. 掌握Spark Streaming的基本原理 2. 完成Spark Streaming最简单的演练和动手实验 3. 完成一个完整的Spark Streaming的实际案例(用户手机信息实时
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示 Spark 编程实例和简易电影分析系统的编写 目标: 1. 掌握理论:了解Spark编程的理论基础 2. 搭建开发环境:自己可以搭建Spark程序开发的环境 3. 动手实践简单的示例:完成一些简单的动手实验,可以帮助Sp
阅读全文
摘要:【原创 Hadoop&Spark 动手实践 7】Spark计算引擎剖析与动手实践 目标: 1. 理解Spark计算引擎的理论知识 2. 动手实践更深入的理解Spark计算引擎的细节 3. 通过编程案例加深理解
阅读全文
摘要:Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践。 Spark 安装部署 理论已经了解的差不多了,接下来是实际动手实验: 练习1 利用Spark Shell(本机模式) 完成WordCount spark-shell
阅读全文
摘要:简介 Apache Hadoop 2.0 包含 YARN,它将资源管理和处理组件分开。基于 YARN 的架构不受 MapReduce 约束。本文将介绍 YARN,以及它相对于 Hadoop 中以前的分布式处理层的一些优势。本文将了解如何使用 YARN 的可伸缩性、效率和灵活性增强您的集群。 回页首
阅读全文
摘要:目录(?)[-] 一软件环境 二创建maven工程 三添加maven依赖 四配置log4j 五启动Hadoop 六运行WordCount从本地读取文件 七运行WordCount从HDFS读取文件 八代码下载 目录(?)[-] 介绍如何在Intellij Idea中通过创建maven工程配置MapRe
阅读全文
摘要:转载地址:http://blog.csdn.net/napoay/article/details/54136398 目录(?)[+] 转载地址:http://blog.csdn.net/napoay/article/details/54136398 目录(?)[+] 一、机器环境 系统:MAC OS
阅读全文
摘要:开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技
阅读全文
摘要:简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失
阅读全文
摘要:HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware Failure(硬件失效是常态) Streaming Data Access(支持流式访问) Lar
阅读全文
摘要:目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软件速度更快 4. CentOS 用户配置,Sudo授权 第二部分:Java环境准备 1. JDK1.
阅读全文
摘要:本节内容 1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与
阅读全文
摘要:本节内容 1.Kafka基础概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知识 1.2.2.架构和原理 1.2.3.基本概念 1.2.4.kafka特点 2.Kafka初体验 2.1 环境准备 2.2 Kafka小试牛刀 2.2.1单个broker初体验 2.2.2 多个broker初体
阅读全文
摘要:本节内容 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性
阅读全文
摘要:本节内容 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark on Yarn运行流程 2.5 WordCount执行原理 3.Spark计算引擎原理 3.1 Spark内部原理 3.
阅读全文