随笔分类 -  Spark系列

分布式流处理框架
摘要:1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数 指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全 阅读全文
posted @ 2019-09-30 23:52 牧梦者 阅读(2795) 评论(0) 推荐(2) 编辑
摘要:1. SparkContext概述 注意:SparkContext的初始化剖析是基于Spark2.1.0版本的 Spark Driver用于提交用户应用程序,实际可以看作Spark的客户端。了解Spark Driver的初始化,有助于读者理解用户应用程序在客户端的处理过程。 Spark Driver 阅读全文
posted @ 2018-11-20 10:55 牧梦者 阅读(2072) 评论(0) 推荐(0) 编辑
摘要:本章导读 机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识、新技能,并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文
posted @ 2018-08-15 17:39 牧梦者 阅读(28135) 评论(1) 推荐(3) 编辑
摘要:8.初始化管理器BlockManager 无论是Spark的初始化阶段还是任务提交、执行阶段,始终离不开存储体系。Spark为了避免Hadoop读写磁盘的I/O操作成为性能瓶颈,优先将配置信息、计算结果等数据存入内存,这极大地提升了系统的执行效率。正是因为这一关键决策,才让Spark能在大数据应用中 阅读全文
posted @ 2018-08-04 14:25 牧梦者 阅读(910) 评论(0) 推荐(0) 编辑
摘要:9. 启动测量系统MetricsSystem MetricsSystem使用codahale提供的第三方测量仓库Metrics。MetricsSystem中有三个概念: Instance:指定了谁在使用测量系统; Source:指定了从哪里收集测量数据; Sink:指定了从哪里输出测量数据; Spa 阅读全文
posted @ 2018-07-16 14:42 牧梦者 阅读(748) 评论(0) 推荐(0) 编辑
摘要:1.准备工作 1.1 安装spark,并配置spark-env.sh 使用spark-shell前需要安装spark,详情可以参考http://www.cnblogs.com/swordfall/p/7903678.html 如果只用一个节点,可以不用配置slaves文件,spark-env.sh文 阅读全文
posted @ 2018-07-06 18:08 牧梦者 阅读(3292) 评论(0) 推荐(2) 编辑
摘要:Submitting Applications提交应用程序 在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器(目前Spark支持的集群模式有自带的Standalone、Apache Mesos、Hadoop 阅读全文
posted @ 2018-07-03 19:16 牧梦者 阅读(3857) 评论(0) 推荐(0) 编辑
摘要:1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为 阅读全文
posted @ 2018-05-12 03:04 牧梦者 阅读(26402) 评论(0) 推荐(1) 编辑
摘要:1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集 阅读全文
posted @ 2018-05-08 01:59 牧梦者 阅读(1418) 评论(2) 推荐(0) 编辑
摘要:用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka。 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序,用以下工件artifact连接你的应用程序: 对于Python应用程序,你需要在部署应用程序时添加上面的库及其依赖关系。查看D 阅读全文
posted @ 2018-02-26 16:16 牧梦者 阅读(2680) 评论(1) 推荐(0) 编辑
摘要:目录 Overview Quick Example Programming Model Basic Concepts Handling Event-time and Late Data Fault Tolerance Semantics API using Datasets and DataFram 阅读全文
posted @ 2018-02-26 00:38 牧梦者 阅读(969) 评论(0) 推荐(0) 编辑
摘要:Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (DStreams) Input DStreams and Receivers Transformati 阅读全文
posted @ 2018-02-09 16:05 牧梦者 阅读(4649) 评论(0) 推荐(1) 编辑
摘要:1. Spark Overview(spark概述) Apache spark是一个快速和通用的集群计算系统。它提供了Java,Scala,Python和R的高级APIs,以及支持通用执行图的优化引擎。它也支持一系列高级工具,包括用于SQL的Spark SQL、结构化数据处理、用于机器学习的MLli 阅读全文
posted @ 2018-01-23 00:56 牧梦者 阅读(1090) 评论(0) 推荐(0) 编辑
摘要:1. 下载Spark 1.1 官网下载Spark http://spark.apache.org/downloads.html 打开上述链接,进入到下图,点击红框下载Spark-2.2.0-bin-hadoop2.7.tgz,如下图所示: 2. 安装Spark Spark安装,分为: 准备,包括上传 阅读全文
posted @ 2017-11-27 15:45 牧梦者 阅读(19730) 评论(0) 推荐(1) 编辑
摘要:1. 下载Hadoop 1.1 官网下载Hadoop http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz 打开上述链接,进入到下图,可以随意下载一个完整的hadoop-2.9.0版本, 阅读全文
posted @ 2017-11-25 18:15 牧梦者 阅读(3232) 评论(0) 推荐(0) 编辑
摘要:Spark摘说 Spark的环境搭建涉及三个部分,一是linux系统基础环境搭建,二是Hadoop集群安装,三是Spark集群安装。在这里,主要介绍Spark在Centos系统上的准备工作——linux系统基础环境搭建。这个主要包括: 运行环境说明:硬软件环境、集群网络环境、Linux使用工具(xs 阅读全文
posted @ 2017-11-20 22:29 牧梦者 阅读(4419) 评论(6) 推荐(2) 编辑