随笔分类 -  大数据生态圈

一般包括Spark、Flink、Hadoop、Hive、HBase、Zookeeper、Yarn等
摘要:一.NumPy NumPy是Python科学计算的基础包。它提供了以下功能: 快速高效的多维数组对象ndarray。 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。 用于读写硬盘上基于数组的数据集的工具。 线性代数运算、傅里叶变换,以及随机数生成。 用于C、C++、Fortran代码集成 阅读全文
posted @ 2020-11-17 16:40 云山之巅 阅读(311) 评论(0) 推荐(0) 编辑
摘要:一.简介 在分布式环境下,用户必须要考虑系统出错的情形,例如,Region服务器发生故障时, MemStore 缓存中还没有被写入文件的数据会全部丢失。因此,HBase 采用 HLog 来保证系统发生故障时能够恢复到正常的状态。 二.WAL机制 每个 Region 服务器都有一个 HLog 文件,同 阅读全文
posted @ 2020-10-20 11:43 云山之巅 阅读(1779) 评论(0) 推荐(0) 编辑
摘要:一.简介 Word2Vec是一个Estimator表示文档的单词序列并用于训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将转换为向量;然后,可以将此向量用作预测,文档相似度计算等功能。 二.例子 在下面的代码段 阅读全文
posted @ 2020-09-29 10:25 云山之巅 阅读(913) 评论(0) 推荐(0) 编辑
摘要:一.图像数据源 图像数据源用于从目录加载图像文件,它可以通过ImageIO Java库将压缩图像(jpeg,png等)加载为原始图像表示形式。加载的DataFrame具有一StructType列:“ image”,其中包含存储为图像架构的图像数据。该image列的架构为: origin :(Stri 阅读全文
posted @ 2020-09-07 18:22 云山之巅 阅读(563) 评论(0) 推荐(0) 编辑
摘要:一.概述 GraphX是Spark中用于图形和图形并行计算的新组件。在较高的层次上,GraphX 通过引入新的Graph抽象来扩展Spark RDD:一个有向多重图,其属性附加到每个顶点和边上。为了支持图计算,GraphX公开了一组基本的操作符(例如, subgraph,joinVertices和  阅读全文
posted @ 2020-08-22 11:18 云山之巅 阅读(1410) 评论(0) 推荐(0) 编辑
摘要:Spark流式计算程序要想运行顺畅,也需要一些基本的调优,总结一下主要在两个方向: 每个批次的处理时间尽可能短。 收到数据后,尽可能地处理。 1.减少批处理的时间 一是增加数据接收的并发数量,尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器,运行在某个节点上, 阅读全文
posted @ 2020-07-30 19:02 云山之巅 阅读(581) 评论(0) 推荐(0) 编辑
摘要:一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能 阅读全文
posted @ 2020-07-26 11:38 云山之巅 阅读(451) 评论(0) 推荐(0) 编辑
摘要:一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数 阅读全文
posted @ 2020-07-20 11:49 云山之巅 阅读(527) 评论(0) 推荐(0) 编辑
摘要:一.原因分析 根据是使用java集合还是scala数据集原因也不尽相同。 1.java集合 因为 Java 集合类型在 Scala 操作时没有 foreach 方法。 2.scala数据集 一般为scala版本与spark版本不兼容导致! 二.解决方案 1.java集合 需要将其转换为Scala的集 阅读全文
posted @ 2020-05-18 18:30 云山之巅 阅读(1156) 评论(0) 推荐(0) 编辑
摘要:一.高亮简介 大多数的搜索应用都存在类似的情况,那就是搜索结果显示的屏幕空间有限。如果文档很短并可以在结果列表中显示全部内容,对屏幕空间显示就不会构成太大的问题。但大多数情况下都只能显示每个结果文档的一小部分。这就提出了一个问题:如何决定结果文档中显示哪一部分?理想情况下,应该是基于各片段与用户查询 阅读全文
posted @ 2020-05-11 10:49 云山之巅 阅读(1433) 评论(0) 推荐(0) 编辑
摘要:一.DAGScheduler SparkContext在初始化时,创建了DAG调度和Task调度来负责RDD Action操作的调度执行。 DAGScheduler负责Spark的最高级别的任务调度,调度的粒度是Stage,它为每个Job的所有Stage计算一个有向无环图,控制它们的并发,并找到一个 阅读全文
posted @ 2020-04-29 11:02 云山之巅 阅读(680) 评论(0) 推荐(0) 编辑
摘要:一.简介 SparkContext是Spark程序最主要的入口,用于与Spark集群连接。Spark集群的所有操作都通过SparkContext来进行,使用它可以在Spark集群上创建RDD、计数器以及广播变量。所有的Spark程序都必须创建一个SparkContext对象。进行流式计算时使用的St 阅读全文
posted @ 2020-04-14 18:35 云山之巅 阅读(689) 评论(0) 推荐(0) 编辑
摘要:一.Spark核心数据结构RDD RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助, 也可能提升Spark程序编写能力。 RDD的全称是“弹性分布式数据集”。首先,它是一个数据集,就像Scala语言中的Array,List,Tu 阅读全文
posted @ 2020-04-11 15:53 云山之巅 阅读(411) 评论(0) 推荐(0) 编辑
摘要:一.简介 Spark对程序提供了非常灵活的配置方式,可以使用环境变量、配置文件、命令行参数,还可以直接在Spark程序中指定,不同的配置方式有不同的优先级,可以相互覆盖。而且这些配置的属性在Web界面中可以直接看到,非常方便我们管理配置。 二.Spark程序配置加载过程 Spark程序一般都是由脚本 阅读全文
posted @ 2020-04-08 20:24 云山之巅 阅读(561) 评论(0) 推荐(0) 编辑
摘要:一.背景 2003年,Google发表了“The Google File System”的论文。这个分布式文件系统简称GFS,它使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗余复制,这样的话,即使一台存储服务器发生故障,也不会影响数据的可用性。它对数据的流式读取也做了优化,可以边处理边读取 阅读全文
posted @ 2020-04-06 18:51 云山之巅 阅读(328) 评论(0) 推荐(0) 编辑
摘要:一.维度 1.数据模型 数据有多种存储的方式,包括键值对【类似Map】、半结构化的列式存储和文档结构存储。 2.存储模型 内存还是磁盘持久化可以和RDBMS进行比较,它们通常持久化存储数据到磁盘中。即使需要的是纯粹内存模式,也仍旧有其他方案。一旦考虑持久化存储,就需要考虑选择的方案是否影响到访问模式 阅读全文
posted @ 2020-04-04 18:05 云山之巅 阅读(192) 评论(0) 推荐(0) 编辑
摘要:一.海量数据的黎明 以前,因为缺乏划算的方式来存储所有信息,很多公司会忽略某些数据源,但是现在这样的处理方式会让公司丧失竞争力。存储和分析每一个数据点的需求在不断增长,这种需求的增长直接导致各公司电子商务平台产生了更多的数据。 过去,唯一的选择就是将收集到的数据删减后保存起来,例如只保存最近N天的数 阅读全文
posted @ 2020-03-31 18:35 云山之巅 阅读(228) 评论(0) 推荐(0) 编辑
摘要:一.软件要求 Flink在所有类UNIX的环境【例如linux,mac os x和cygwin】上运行,并期望集群由一个 主节点和一个或多个工作节点组成。在开始设置系统之前,确保在每个节点上都安装了一下软件: 1.Java1.8.x或更高版本 2.ssh,必须运行sshd才能使用管理远程组件的Fli 阅读全文
posted @ 2020-02-05 11:11 云山之巅 阅读(2030) 评论(0) 推荐(0) 编辑
摘要:一.DStreams【离散流】 DStreams或离散流是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。在内部,DStream由一系列连续的RDD表示,这是Spark对不可变的分布式数据集的抽象。DStream 阅读全文
posted @ 2020-02-01 10:44 云山之巅 阅读(520) 评论(0) 推荐(0) 编辑
摘要:一.事件驱动 提到事件驱动应用,首先讲什么是事件驱动的应用程序?事件驱动的应用程序是有状态的应用程序,它从一个或多个事件中提取事件,并通过触发计算,状态更新或外部操作来对传入的事件做出反应。 事件驱动的应用程序是传统应用程序设计的发展,具有分离的计算和数据存储层。在这种体系结构中,应用程序从远程事务 阅读全文
posted @ 2020-01-02 19:41 云山之巅 阅读(2580) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示