2020年5月29日

摘要：第1章 Spark 整体概述 1.1 整体概念 Apache Spark 是一个开源的通用集群计算系统，它提供了 High-level 编程 API，支持 Scala、Java 和 Python 三种编程语言。Spark 内核使用 Scala 语言编写，通过基于 Scala 的函数式编程特性，在不同阅读全文

posted @ 2020-05-29 18:36 大码王阅读(15846) 评论(2) 推荐(7) 编辑

SparkGraphX之（2）企业运用

摘要： Spark GraphX 概述 1、Spark GraphX是什么？（1）Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。（2）GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可阅读全文

posted @ 2020-05-29 18:31 大码王阅读(350) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(7)--Spark Streaming企业运用

摘要： Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark 阅读全文

posted @ 2020-05-29 18:28 大码王阅读(388) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（4）spark企业运用

摘要： Spark SQL 1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点：（1）和 Spark Core 的无缝集成，可以在写整个 RDD 应用的时候阅读全文

posted @ 2020-05-29 18:27 大码王阅读(467) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（5）sparkcore企业运用

摘要： 1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv 阅读全文

posted @ 2020-05-29 18:25 大码王阅读(353) 评论(0) 推荐(0) 编辑

SparkGraphX之（1）从入门到实战

摘要：第1章 Spark GraphX 概述 1.1 什么是 Spark GraphX Spark GraphX 是一个分布式图处理框架，它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。那么什么是图，都计算些什么？众所周知社交网络中人与人之间有很多关阅读全文

posted @ 2020-05-29 18:14 大码王阅读(972) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(6)--sparkstreaming入门到实战

摘要：第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的阅读全文

posted @ 2020-05-29 18:11 大码王阅读(714) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（3）sparkSql从入门到实战

摘要：第1章 Spark SQL 概述 1.1 什么是 Spark SQL Spark SQL：http://spark.apache.org/sql/ Spark SQL 是 Spark 用来处理结构化数据的一个模块，它提供了一个编程抽象叫做 DataFrame，并且作为分布式 SQL 查询引擎的作用。阅读全文

posted @ 2020-05-29 18:05 大码王阅读(977) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（2）sparkcore入门到实战

摘要：第1章 RDD 概念 1.1 RDD 为什么会产生 RDD：Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石，是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢？ Hadoop 的 MapReduce 是一种基于数据集的工阅读全文

posted @ 2020-05-29 18:02 大码王阅读(719) 评论(0) 推荐(2) 编辑

2020年5月28日

spark机器学习从0到1之spark机器算法从入门到实战（十八）

摘要：第1章机器学习概述 1.1 机器学习是啥？机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。即通阅读全文

posted @ 2020-05-28 10:09 大码王阅读(1497) 评论(1) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（9）flink实时数仓从入门到实战

摘要：第一章、flink实时数仓入门一、依赖 <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distr 阅读全文

posted @ 2020-05-28 00:53 大码王阅读(1922) 评论(0) 推荐(1) 编辑

2020年5月27日

项目实战从0到1之（1）数据仓库详解：包括概念、架构及设计

摘要：问题导读： 1.什么是数据仓库? 2.数据仓库的架构是怎样的？ 3.怎样设计数据仓库的模型？ 1、什么是数据仓库 1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。这个定义的确官方，但是却指出了数据仓库的四个特阅读全文

posted @ 2020-05-27 17:43 大码王阅读(1479) 评论(0) 推荐(1) 编辑

利用行为标签构建用户画像

摘要：问题导读：1、用户画像的核心工作是什么？2、开发用户画像流程有哪些？3、标签类别和标签内容有哪些？4、如何构建用户画像系统？用户画像将产品设计的焦点放在目标用户的动机和行为上，从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表，根据自己的需求设计产品，导致无法抓住实际用户阅读全文

posted @ 2020-05-27 17:28 大码王阅读(3184) 评论(1) 推荐(0) 编辑

SSpark SQL入门到实战之（2）park SQL深度理解篇：模块实现、代码结构及执行流程总览

摘要：问题导读 1、如何理解SQL Core？ 2、RDD支持的第三方格式有哪些？ 3、SQLContext如何对sql执行解析？摘要本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解，无论是从源码实现，还是从Spark SQL实际使用角度阅读全文

posted @ 2020-05-27 16:38 大码王阅读(517) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（1）深度理解篇：模块实现、代码结构及执行流程总览

摘要：问题导读1、什么是Catalyst？2、对Hive的兼容支持将转移到什么上？3、TreeNode具备哪些对节点的操作方法？摘要：本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解，无论是从源码实现，还是从Spark SQL实际使用角度，这阅读全文

posted @ 2020-05-27 16:26 大码王阅读(653) 评论(0) 推荐(0) 编辑

hadoop入门到实战（6）hive常用优化方法总结

摘要：问题导读：1、如何理解列裁剪和分区裁剪？2、sort by代替order by优势在哪里？3、如何调整group by配置？4、如何优化SQL处理join数据倾斜？Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗阅读全文

posted @ 2020-05-27 16:17 大码王阅读(643) 评论(0) 推荐(0) 编辑

Spark源码系列（九）spark源码分析以及优化

摘要：第一章、spark源码分析之RDD四种依赖关系一、RDD四种依赖关系 RDD四种依赖关系，分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示：org.apache.spark.Dep 阅读全文

posted @ 2020-05-27 15:44 大码王阅读(1287) 评论(0) 推荐(0) 编辑

Spark源码系列（八）Spark Streaming实例分析

摘要：问题导读1，如何保存接收到的数据？2，如何处理接收到的数据？3，调用get或Compute方法获得RDD的流程有什么？这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程讲解》。 1、示例代码分析 val ssc = new Stre 阅读全文

posted @ 2020-05-27 15:31 大码王阅读(445) 评论(0) 推荐(0) 编辑

Spark源码系列（七）Spark on yarn具体实现

摘要：问题导读1、yarn提交作业的流程是怎样的？2、run方法在ApplicationMaster里面主要干了什么工作？3、把作业发布到yarn上面去执行，涉及到哪些类？本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经是一个阅读全文

posted @ 2020-05-27 15:16 大码王阅读(782) 评论(0) 推荐(0) 编辑

Spark原始码系列（六）Shuffle的过程解析

摘要：问题导读： 1、shuffle过程的划分？ 2、shuffle的中间结果如何存储？ 3、shuffle的数据如何拉取过来？ Shuffle过程的划分 Spark的操作模型是基于RDD的，当调用RDD的reduceByKey、groupByKey等类似的操作的时候，就需要有shuffle了。再拿出re 阅读全文

posted @ 2020-05-27 14:51 大码王阅读(624) 评论(1) 推荐(0) 编辑

公告