上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 27 下一页
摘要: RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。 RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个Blo 阅读全文
posted @ 2019-06-04 19:44 |旧市拾荒| 阅读(10301) 评论(0) 推荐(0) 编辑
摘要: 一、累加器API 关于累加器,前面我也写了一篇博客,顺便粘贴这儿,对比学习,Spark学习之编程进阶总结(一)。Spark 2.0系列引入了一个更加简单和更高性能的累加器API,如在1.X版本中可以这样使用累加器: 在Spark 2.X版本里使用SparkContext里内置的累加器: 只使用Spa 阅读全文
posted @ 2019-05-21 21:09 |旧市拾荒| 阅读(779) 评论(0) 推荐(0) 编辑
摘要: 二、通过DataFrame实战电影点评系统 DataFrameAPI是从Spark 1.3开始就有的,它是一种以RDD为基础的分布式无类型数据集,它的出现大幅度降低了普通Spark用户的学习门槛。 DataFrame类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有sc 阅读全文
posted @ 2019-05-13 14:12 |旧市拾荒| 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 一、通过RDD实战电影点评系统 日常的数据来源有很多渠道,如网络爬虫、网页埋点、系统日志等。下面的案例中使用的是用户观看电影和点评电影的行为数据,数据来源于网络上的公开数据,共有3个数据文件:uers.dat、ratings.dat和movies.dat。 其中,uers.dat的格式如下: Use 阅读全文
posted @ 2019-05-13 14:11 |旧市拾荒| 阅读(1534) 评论(0) 推荐(0) 编辑
摘要: 一、前期准备 前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分布式环境搭建 然后在spark伪分布式的环境下必须出现如下八个节点才算spark环境搭建好。 然后再 阅读全文
posted @ 2019-05-06 21:08 |旧市拾荒| 阅读(1055) 评论(0) 推荐(0) 编辑
摘要: 一、简介 首先介绍MNIST 数据集。如图1-1 所示, MNIST 数据集主要由一些手写数字的图片和相应的标签组成,图片一共有10 类,分别对应从0~9 ,共10 个阿拉伯数字。 原始的MNIST 数据库一共包含下面4 个文件, 见表1-1 。 在表1 - 1 中,图像数据是指很多张手写字符的图像 阅读全文
posted @ 2019-05-05 15:42 |旧市拾荒| 阅读(18152) 评论(0) 推荐(4) 编辑
摘要: 在前一个博客中,我们已经对MNIST 数据集和TensorFlow 中MNIST 数据集的载入有了基本的了解。本节将真正以TensorFlow 为工具,写一个手写体数字识别程序,使用的机器学习方法是Softmax 回归。 一、Softmax回归的原理 Softmax 回归是一个线性的多类分类模型,实 阅读全文
posted @ 2019-05-05 15:42 |旧市拾荒| 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 一、简介 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚 阅读全文
posted @ 2019-04-29 16:38 |旧市拾荒| 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 一、简介 Spark SQL 提供了以下三大功能。 (1) Spark SQL 可以从各种结构化数据源(例如 JSON、Hive、Parquet 等)中读取数据。 (2) Spark SQL 不仅支持在 Spark 程序内使用 SQL 语句进行数据查询,也支持从类似商业智能软件 Tableau 这样 阅读全文
posted @ 2019-04-27 15:46 |旧市拾荒| 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时。当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行。上一篇博文结尾处输出的谱系图使用不同缩进等级来展示 RDD 是否会在物理步骤中进行流水线执行。在物理执行 阅读全文
posted @ 2019-04-21 21:57 |旧市拾荒| 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 一、使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置。当创建出一个 SparkContext 时,就需要创建出一个 SparkConf 的实例。 S 阅读全文
posted @ 2019-04-21 21:53 |旧市拾荒| 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 一、简介 Spark 的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。好在编写用于在集群上并行执行的 Spark 应用所使用的 API 跟本地单机模式下的完全一样。也就是说,你可以在小数据集上利用本地模式快速开发并验证你的应用,然后无需修改代码就可以在大规模集群上运行。 阅读全文
posted @ 2019-04-19 16:36 |旧市拾荒| 阅读(811) 评论(0) 推荐(0) 编辑
摘要: 五、基于分区进行操作 基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作。Spark 提供基于分区的 map 和 foreach ,让你的部分代码只对 RDD 的每个分区运行一次,这样可以帮 阅读全文
posted @ 2019-04-16 21:06 |旧市拾荒| 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 一、简介 这次介绍前面没有提及的 Spark 编程的各种进阶特性,会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。在已有的 RDD 转化操作的基础上,我们为类似查询数据库这样需要 阅读全文
posted @ 2019-04-16 21:05 |旧市拾荒| 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 8、Hadoop输入输出格式 除了 Spark 封装的格式之外,也可以与任何 Hadoop 支持的格式交互。Spark 支持新旧两套Hadoop 文件 API,提供了很大的灵活性。 要使用新版的 Hadoop API 读入一个文件,需要告诉 Spark 一些东西。 newAPIHadoopFile接 阅读全文
posted @ 2019-04-15 18:29 |旧市拾荒| 阅读(922) 评论(0) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 27 下一页