摘要:
Spark通信框架RPC介绍 内容安排: 1、RPC原理 2、nio操作 3、netty简单的api 4、自定义RPC框架 RPC原理学习 RPC原理学习 什么是RPC 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计 阅读全文
摘要:
Spark下中文分词常用项目 四种中文分词工具名称: hanLP ansj jieba fudannlp 推荐使用ansj,HanLP效果也不错 Ansj中文分词 Ansj中文分词 基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试 阅读全文
摘要:
Spark详解(05) - Spark核心编程SparkCore RDD概述 RDD概述 什么是RDD 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面 阅读全文
摘要:
Spark详解(05-1) - SparkCore实战案例 数据准备 数据准备 1)数据格式 本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。 (1)数据采用_分割字段 (2)每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 (3)如果点击的品类 阅读全文
摘要:
Spark详解(07) - SparkStreaming SparkStreaming概述 SparkStreaming概述 Spark Streaming用于流式数据的处理。 Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、HDFS等。 数据输入后可以用Spark 阅读全文
摘要:
Spark详解(09) - Spark调优 Spark 性能调优 Spark 性能调优 常规性能调优 常规性能调优 常规性能调优一:最优资源配置 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配 阅读全文
摘要:
类别 [随笔分类]Spark Spark详解(04) - Spark项目开发环境搭建 Spark Shell仅在测试和验证程序时使用的较多,在生产环境中,通常会在IDEA中编制程序,然后打成Jar包,提交到集群,最常用的是创建一个Maven项目,利用Maven来管理Jar包的依赖。 新建项目 新建项 阅读全文
摘要:
Spark详解(06) - SparkSQL Spark SQL概述 Spark SQL概述 什么是Spark SQL 什么是Spark SQL Spark SQL是Spark用于结构化数据(Structured Data)处理的Spark模块。 (1)半结构化数据(日志数据): 001 zhang 阅读全文