……

上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 36 下一页
2020年5月29日
摘要: 第1章 Spark 整体概述 1.1 整体概念 Apache Spark 是一个开源的通用集群计算系统,它提供了 High-level 编程 API,支持 Scala、Java 和 Python 三种编程语言。Spark 内核使用 Scala 语言编写,通过基于 Scala 的函数式编程特性,在不同 阅读全文
posted @ 2020-05-29 18:36 大码王 阅读(15846) 评论(2) 推荐(7) 编辑
摘要: Spark GraphX 概述 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可 阅读全文
posted @ 2020-05-29 18:31 大码王 阅读(350) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark 阅读全文
posted @ 2020-05-29 18:28 大码王 阅读(388) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点: (1)和 Spark Core 的无缝集成,可以在写整个 RDD 应用的时候 阅读全文
posted @ 2020-05-29 18:27 大码王 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv 阅读全文
posted @ 2020-05-29 18:25 大码王 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 第1章 Spark GraphX 概述 1.1 什么是 Spark GraphX Spark GraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。那么什么是图,都计算些什么?众所周知社交网络中人与人之间有很多关 阅读全文
posted @ 2020-05-29 18:14 大码王 阅读(972) 评论(0) 推荐(0) 编辑
摘要: 第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的 阅读全文
posted @ 2020-05-29 18:11 大码王 阅读(714) 评论(0) 推荐(0) 编辑
摘要: 第1章 Spark SQL 概述 1.1 什么是 Spark SQL Spark SQL:http://spark.apache.org/sql/ Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了一个编程抽象叫做 DataFrame,并且作为分布式 SQL 查询引擎的作用。 阅读全文
posted @ 2020-05-29 18:05 大码王 阅读(977) 评论(0) 推荐(0) 编辑
摘要: 第1章 RDD 概念 1.1 RDD 为什么会产生 RDD:Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工 阅读全文
posted @ 2020-05-29 18:02 大码王 阅读(719) 评论(0) 推荐(2) 编辑
2020年5月28日
摘要: 第1章 机器学习概述 1.1 机器学习是啥? 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 即通 阅读全文
posted @ 2020-05-28 10:09 大码王 阅读(1497) 评论(1) 推荐(0) 编辑
摘要: 第一章、flink实时数仓入门 一、依赖 <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distr 阅读全文
posted @ 2020-05-28 00:53 大码王 阅读(1922) 评论(0) 推荐(1) 编辑
2020年5月27日
摘要: 问题导读: 1.什么是数据仓库? 2.数据仓库的架构是怎样的? 3.怎样设计数据仓库的模型? 1、什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 这个定义的确官方,但是却指出了数据仓库的四个特 阅读全文
posted @ 2020-05-27 17:43 大码王 阅读(1479) 评论(0) 推荐(1) 编辑
摘要: 问题导读:1、用户画像的核心工作是什么?2、开发用户画像流程有哪些?3、标签类别和标签内容有哪些?4、如何构建用户画像系统?用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户 阅读全文
posted @ 2020-05-27 17:28 大码王 阅读(3184) 评论(1) 推荐(0) 编辑
摘要: 问题导读 1、如何理解SQL Core? 2、RDD支持的第三方格式有哪些? 3、SQLContext如何对sql执行解析? 摘要 本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解,无论是从源码实现,还是从Spark SQL实际使用角度 阅读全文
posted @ 2020-05-27 16:38 大码王 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 问题导读1、什么是Catalyst?2、对Hive的兼容支持将转移到什么上?3、TreeNode具备哪些对节点的操作方法?摘要:本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解,无论是从源码实现,还是从Spark SQL实际使用角度,这 阅读全文
posted @ 2020-05-27 16:26 大码王 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 问题导读:1、如何理解列裁剪和分区裁剪?2、sort by代替order by优势在哪里?3、如何调整group by配置?4、如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗 阅读全文
posted @ 2020-05-27 16:17 大码王 阅读(643) 评论(0) 推荐(0) 编辑
摘要: 第一章、spark源码分析之RDD四种依赖关系 一、RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示:org.apache.spark.Dep 阅读全文
posted @ 2020-05-27 15:44 大码王 阅读(1287) 评论(0) 推荐(0) 编辑
摘要: 问题导读1,如何保存接收到的数据?2,如何处理接收到的数据?3,调用get或Compute方法获得RDD的流程有什么?这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程讲解》。 1、示例代码分析 val ssc = new Stre 阅读全文
posted @ 2020-05-27 15:31 大码王 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 问题导读1、yarn提交作业的流程是怎样的?2、run方法在ApplicationMaster里面主要干了什么工作?3、把作业发布到yarn上面去执行,涉及到哪些类?本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个 阅读全文
posted @ 2020-05-27 15:16 大码王 阅读(782) 评论(0) 推荐(0) 编辑
摘要: 问题导读: 1、shuffle过程的划分? 2、shuffle的中间结果如何存储? 3、shuffle的数据如何拉取过来? Shuffle过程的划分 Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出re 阅读全文
posted @ 2020-05-27 14:51 大码王 阅读(624) 评论(1) 推荐(0) 编辑
上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 36 下一页
复制代码