Spark系列 - 随笔分类 - 牧梦者

互联网UV，PU，TopN统计

摘要：1. UV、PV、TopN概念 1.1 UV（unique visitor）即独立访客数指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内，UV只记录第一次进入网站的具有独立IP的访问者，在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标，而没有反应出网站的全阅读全文

posted @ 2019-09-30 23:52 牧梦者阅读(3090) 评论(0) 推荐(2) 编辑

Spark源码剖析 - SparkContext的初始化(一)

摘要：1. SparkContext概述注意：SparkContext的初始化剖析是基于Spark2.1.0版本的 Spark Driver用于提交用户应用程序，实际可以看作Spark的客户端。了解Spark Driver的初始化，有助于读者理解用户应用程序在客户端的处理过程。 Spark Driver 阅读全文

posted @ 2018-11-20 10:55 牧梦者阅读(2111) 评论(0) 推荐(0) 编辑

Spark MLlib 机器学习

摘要：本章导读机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为，以获取新知识、新技能，并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文

posted @ 2018-08-15 17:39 牧梦者阅读(28259) 评论(1) 推荐(3) 编辑

Spark源码剖析 - SparkContext的初始化(八)_初始化管理器BlockManager

摘要：8.初始化管理器BlockManager 无论是Spark的初始化阶段还是任务提交、执行阶段，始终离不开存储体系。Spark为了避免Hadoop读写磁盘的I/O操作成为性能瓶颈，优先将配置信息、计算结果等数据存入内存，这极大地提升了系统的执行效率。正是因为这一关键决策，才让Spark能在大数据应用中阅读全文

posted @ 2018-08-04 14:25 牧梦者阅读(939) 评论(0) 推荐(0) 编辑

Spark源码剖析 - SparkContext的初始化(九)_启动测量系统MetricsSystem

摘要：9. 启动测量系统MetricsSystem MetricsSystem使用codahale提供的第三方测量仓库Metrics。MetricsSystem中有三个概念： Instance：指定了谁在使用测量系统； Source：指定了从哪里收集测量数据； Sink：指定了从哪里输出测量数据； Spa 阅读全文

posted @ 2018-07-16 14:42 牧梦者阅读(779) 评论(0) 推荐(0) 编辑

Spark源码解析 - Spark-shell浅析

摘要：1.准备工作 1.1 安装spark，并配置spark-env.sh 使用spark-shell前需要安装spark，详情可以参考http://www.cnblogs.com/swordfall/p/7903678.html 如果只用一个节点，可以不用配置slaves文件，spark-env.sh文阅读全文

posted @ 2018-07-06 18:08 牧梦者阅读(3319) 评论(0) 推荐(2) 编辑

Spark Submitting Applications浅析

摘要：Submitting Applications提交应用程序在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器（目前Spark支持的集群模式有自带的Standalone、Apache Mesos、Hadoop 阅读全文

posted @ 2018-07-03 19:16 牧梦者阅读(3941) 评论(0) 推荐(0) 编辑

Spark SQL基本概念与基本用法

摘要：1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为阅读全文

posted @ 2018-05-12 03:04 牧梦者阅读(26877) 评论(0) 推荐(1) 编辑

Spark RDD基本概念与基本用法

摘要：1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集阅读全文

posted @ 2018-05-08 01:59 牧梦者阅读(1473) 评论(2) 推荐(0) 编辑

Structured Streaming + Kafka Integration Guide 结构化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)

摘要：用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka。 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序，用以下工件artifact连接你的应用程序：对于Python应用程序，你需要在部署应用程序时添加上面的库及其依赖关系。查看D 阅读全文

posted @ 2018-02-26 16:16 牧梦者阅读(2722) 评论(1) 推荐(0) 编辑

Structured Streaming Programming Guide结构化流编程指南

摘要：目录 Overview Quick Example Programming Model Basic Concepts Handling Event-time and Late Data Fault Tolerance Semantics API using Datasets and DataFram 阅读全文

posted @ 2018-02-26 00:38 牧梦者阅读(988) 评论(0) 推荐(0) 编辑

Spark Streaming编程指南

摘要：Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (DStreams) Input DStreams and Receivers Transformati 阅读全文

posted @ 2018-02-09 16:05 牧梦者阅读(4691) 评论(0) 推荐(1) 编辑

Spark入门学习

摘要：1. Spark Overview（spark概述） Apache spark是一个快速和通用的集群计算系统。它提供了Java，Scala，Python和R的高级APIs，以及支持通用执行图的优化引擎。它也支持一系列高级工具，包括用于SQL的Spark SQL、结构化数据处理、用于机器学习的MLli 阅读全文

posted @ 2018-01-23 00:56 牧梦者阅读(1103) 评论(0) 推荐(0) 编辑

Spark环境搭建（下）——Spark安装

摘要：1. 下载Spark 1.1 官网下载Spark http://spark.apache.org/downloads.html 打开上述链接，进入到下图，点击红框下载Spark-2.2.0-bin-hadoop2.7.tgz，如下图所示： 2. 安装Spark Spark安装，分为：准备，包括上传阅读全文

posted @ 2017-11-27 15:45 牧梦者阅读(20018) 评论(0) 推荐(1) 编辑

Spark环境搭建（中）——Hadoop安装

摘要：1. 下载Hadoop 1.1 官网下载Hadoop http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz 打开上述链接，进入到下图，可以随意下载一个完整的hadoop-2.9.0版本，阅读全文

posted @ 2017-11-25 18:15 牧梦者阅读(3263) 评论(0) 推荐(0) 编辑

Spark环境搭建（上）——基础环境搭建

摘要：Spark摘说 Spark的环境搭建涉及三个部分，一是linux系统基础环境搭建，二是Hadoop集群安装，三是Spark集群安装。在这里，主要介绍Spark在Centos系统上的准备工作——linux系统基础环境搭建。这个主要包括：运行环境说明：硬软件环境、集群网络环境、Linux使用工具（xs 阅读全文

posted @ 2017-11-20 22:29 牧梦者阅读(4477) 评论(6) 推荐(2) 编辑

牧梦者

随笔分类 - Spark系列

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (89)

随笔档案 (113)

阅读排行榜

评论排行榜

推荐排行榜