随笔分类 - Spark
摘要:Spark详解(07-1) - SparkStreaming案例实操 环境准备 pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId>
阅读全文
摘要:Spark详解(02) - Spark概述 什么是Spark 什么是Spark Hadoop主要解决,海量数据的存储和海量数据的分析计算。 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Hadoop与Spark历史 Hadoop与Spark历史 Hadoop的Yarn框架比Sp
阅读全文
摘要:Spark详解(03) - Spark3.0.0运行环境安装 Spark运行模式 Spark运行模式 Spark常见部署模式: Local模式:在本地部署单个Spark服务 所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。 在IDEA
阅读全文
摘要:Spark详解(08) - Spark(3.0)内核解析和源码欣赏 源码全流程 Spark提交流程(YarnCluster) Spark通讯架构 Spark任务划分 Task任务调度 Shuffle原理 HashShuffle流程 优化后的HashShuffle流程 假设前提:每个Executor只
阅读全文
摘要:Spark通信框架RPC介绍 内容安排: 1、RPC原理 2、nio操作 3、netty简单的api 4、自定义RPC框架 RPC原理学习 RPC原理学习 什么是RPC 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计
阅读全文
摘要:Spark下中文分词常用项目 四种中文分词工具名称: hanLP ansj jieba fudannlp 推荐使用ansj,HanLP效果也不错 Ansj中文分词 Ansj中文分词 基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试
阅读全文
摘要:Spark详解(05) - Spark核心编程SparkCore RDD概述 RDD概述 什么是RDD 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面
阅读全文
摘要:Spark详解(05-1) - SparkCore实战案例 数据准备 数据准备 1)数据格式 本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。 (1)数据采用_分割字段 (2)每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 (3)如果点击的品类
阅读全文
摘要:Spark详解(07) - SparkStreaming SparkStreaming概述 SparkStreaming概述 Spark Streaming用于流式数据的处理。 Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、HDFS等。 数据输入后可以用Spark
阅读全文
摘要:Spark详解(09) - Spark调优 Spark 性能调优 Spark 性能调优 常规性能调优 常规性能调优 常规性能调优一:最优资源配置 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配
阅读全文
摘要:类别 [随笔分类]Spark Spark详解(04) - Spark项目开发环境搭建 Spark Shell仅在测试和验证程序时使用的较多,在生产环境中,通常会在IDEA中编制程序,然后打成Jar包,提交到集群,最常用的是创建一个Maven项目,利用Maven来管理Jar包的依赖。 新建项目 新建项
阅读全文
摘要:Spark详解(06) - SparkSQL Spark SQL概述 Spark SQL概述 什么是Spark SQL 什么是Spark SQL Spark SQL是Spark用于结构化数据(Structured Data)处理的Spark模块。 (1)半结构化数据(日志数据): 001 zhang
阅读全文
摘要:Spark详解(01) - Scala编程语言概述 Spark详解(01) - Scala编程语言概述 Scala官网:https://www.scala-lang.org/ 什么是Scala 从英文的角度来讲,Scala并不是一个单词,而是Scalable Language两个单词的缩写,表示可伸
阅读全文