摘要:
一 单机版部署 1.1 Redis下载地址 http://download.redis.io/releases/ 本次部署版本:3.2.8 当前最新版本:5.0.5 1.2 安装 部署路径说明规划 /usr/local/redis/data部署组件元数据存储目录,按组件名目录存储(如/部署路径/re 阅读全文
摘要:
Spark详解(02) - Spark概述 什么是Spark 什么是Spark Hadoop主要解决,海量数据的存储和海量数据的分析计算。 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Hadoop与Spark历史 Hadoop与Spark历史 Hadoop的Yarn框架比Sp 阅读全文
摘要:
Spark详解(03) - Spark3.0.0运行环境安装 Spark运行模式 Spark运行模式 Spark常见部署模式: Local模式:在本地部署单个Spark服务 所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。 在IDEA 阅读全文
摘要:
Spark详解(08) - Spark(3.0)内核解析和源码欣赏 源码全流程 Spark提交流程(YarnCluster) Spark通讯架构 Spark任务划分 Task任务调度 Shuffle原理 HashShuffle流程 优化后的HashShuffle流程 假设前提:每个Executor只 阅读全文
摘要:
Spark通信框架RPC介绍 内容安排: 1、RPC原理 2、nio操作 3、netty简单的api 4、自定义RPC框架 RPC原理学习 RPC原理学习 什么是RPC 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计 阅读全文
摘要:
Spark下中文分词常用项目 四种中文分词工具名称: hanLP ansj jieba fudannlp 推荐使用ansj,HanLP效果也不错 Ansj中文分词 Ansj中文分词 基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试 阅读全文
摘要:
Spark详解(05) - Spark核心编程SparkCore RDD概述 RDD概述 什么是RDD 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面 阅读全文
摘要:
Spark详解(05-1) - SparkCore实战案例 数据准备 数据准备 1)数据格式 本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。 (1)数据采用_分割字段 (2)每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 (3)如果点击的品类 阅读全文
摘要:
Spark详解(07) - SparkStreaming SparkStreaming概述 SparkStreaming概述 Spark Streaming用于流式数据的处理。 Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、HDFS等。 数据输入后可以用Spark 阅读全文
摘要:
Spark详解(09) - Spark调优 Spark 性能调优 Spark 性能调优 常规性能调优 常规性能调优 常规性能调优一:最优资源配置 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配 阅读全文
摘要:
类别 [随笔分类]Spark Spark详解(04) - Spark项目开发环境搭建 Spark Shell仅在测试和验证程序时使用的较多,在生产环境中,通常会在IDEA中编制程序,然后打成Jar包,提交到集群,最常用的是创建一个Maven项目,利用Maven来管理Jar包的依赖。 新建项目 新建项 阅读全文
摘要:
Spark详解(06) - SparkSQL Spark SQL概述 Spark SQL概述 什么是Spark SQL 什么是Spark SQL Spark SQL是Spark用于结构化数据(Structured Data)处理的Spark模块。 (1)半结构化数据(日志数据): 001 zhang 阅读全文