大数据 - 随笔分类 - bluesky1

Spark权威指南(中文版)----第17章部署Spark应用程序

摘要：本章探讨了您和您的团队运行Spark应用程序所需的基础设施: 集群部署的选项 Spark的不同集群管理器部署考虑事项和配置部署在大多数情况下，Spark应该与所有受支持的集群管理器配合工作; 然而，自定义设置意味着需要理解每个集群管理系统的复杂性。最难的部分是如何选择集群管理器。尽管我们很乐意包阅读全文

posted @ 2021-08-19 16:18 bluesky1 阅读(312) 评论(0) 推荐(0)

Spark权威指南(中文版)----第16章开发Spark应用程序

摘要：在第15章中，您了解了Spark如何在集群上运行代码。现在，我们将向您展示开发一个独立的Spark应用程序并将其部署到集群上是多么容易。我们将使用一个简单的模板来实现这一点，该模板分享了一些关于如何构建应用程序的简单技巧，包括设置构建工具和单元测试。这个模板可以在本书的代码存储库中找到。这个模板实际阅读全文

posted @ 2021-08-19 16:17 bluesky1 阅读(358) 评论(0) 推荐(0)

Spark权威指南(中文版)----第15章 Spark如何在集群环境运行

摘要：到目前为止，在本书中，我们主要关注Spark作为编程接口的特性。我们已经讨论了结构化api如何接受逻辑操作，将其分解为逻辑计划，并将其转换为物理计划，该物理计划实际上由跨机器集群执行的弹性分布式数据集(RDD)操作组成。本章主要讨论Spark执行代码时会发生什么。我们以一种与实现无关的方式讨论这个问阅读全文

posted @ 2021-08-19 16:16 bluesky1 阅读(245) 评论(0) 推荐(0)

Spark权威指南(中文版)----第13章高级RDD操作

摘要：第12章探讨了单一RDD操作的基础。您学习了如何创建RDDs以及为什么要使用它们。此外，我们还讨论了map、filter、reduce以及如何创建函数来转换单个RDD数据。本章将介绍高级的RDD操作，并关注键值RDDs，这是一种用于操作数据的强大抽象。我们还讨论了一些更高级的主题，比如自定义分区，这阅读全文

posted @ 2021-08-19 16:15 bluesky1 阅读(209) 评论(0) 推荐(0)

Spark权威指南(中文版)----第14章分布式共享变量

摘要：除了弹性分布式数据集(RDD)接口之外，Spark中的第二类底层API是两种类型的“分布式共享变量”:广播变量和累加器。这些变量可以在用户定义的函数中使用(例如，在RDD或DataFrame上的map函数中)，这些函数在集群上运行时具有特殊属性。具体来说,accumulators让将所有task中的阅读全文

posted @ 2021-08-19 16:15 bluesky1 阅读(196) 评论(0) 推荐(0)

Spark权威指南(中文版)----第12章弹性分布式数据集RDD

摘要：本书的前一部分介绍了Spark的结构化api。在几乎所有的计算场景中，您都应该优先使用这些api。话虽如此，有时只使用Higher-Level API无法解决你的问题。对于这些情况，您可能需要使用Spark的底层api，特别是弹性分布式数据集(RDD)、SparkContext，以及分布式共享变量，阅读全文

posted @ 2021-08-19 16:13 bluesky1 阅读(233) 评论(0) 推荐(0)

Spark权威指南(中文版)----第11章 Datasets(1)

摘要：Datasets是结构化api的基本类型。我们已经使用过DataFrames，它是Row类型的Datasets，可以跨Spark的不同语言使用。Datasets是一种严格意义上的Java虚拟机(JVM)语言特性，仅适用于Scala和Java。使用Datasets，您可以定义数据集中每行包含的对象。在阅读全文

posted @ 2021-08-19 16:12 bluesky1 阅读(279) 评论(0) 推荐(0)

Spark权威指南(中文版)----第10章 Spark SQL

摘要：Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！ 10.5. 如何运行Spark SQL查询 Spark提供了几个接口来执行SQL查询。 10.5.1. Spark SQL 阅读全文

posted @ 2021-08-19 16:11 bluesky1 阅读(859) 评论(0) 推荐(0)

Spark权威指南(中文版)----第9章数据源

摘要：本章正式介绍Spark可以使用的开箱即用的各种其他数据源，以及由更大的社区构建的无数其他数据源。Spark有6个“核心”数据源和数百个由社区编写的外部数据源。能够从所有不同类型的数据源进行读写，这可以说是Spark最大的优势之一。以下是Spark的核心数据源: CSV JSON Parquet OR 阅读全文

posted @ 2021-08-19 16:06 bluesky1 阅读(638) 评论(0) 推荐(0)

Spark权威指南(中文版)----第8章表连接joins

摘要：第7章讨论了聚合单个数据集，这很有帮助，但通常情况下，您的Spark应用程序将汇集大量不同的数据集。因此，连接几乎是所有Spark工作负载的重要组成部分。Spark能够与不同的数据进行对话，这意味着您能够访问公司内的各种数据源。本章不仅介绍了Spark中存在哪些连接以及如何使用它们，还介绍了一些基本阅读全文

posted @ 2021-08-19 16:03 bluesky1 阅读(545) 评论(0) 推荐(0)

Spark权威指南(中文版)----第7章聚合

摘要：Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容阅读全文

posted @ 2021-08-19 15:56 bluesky1 阅读(734) 评论(0) 推荐(0)

Spark权威指南(中文版)----第6章处理不同类型的数据(1)

摘要：Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！ 6.1. 在哪里查看AP 阅读全文

posted @ 2021-08-19 15:55 bluesky1 阅读(941) 评论(0) 推荐(0)

Spark权威指南(中文版)----第5章结构化API基本操作

摘要：Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！在第4章中，我们介绍了结阅读全文

posted @ 2021-08-19 15:53 bluesky1 阅读(704) 评论(0) 推荐(0)

Spark权威指南(中文版)----第2章 Spark简介

摘要：Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！上一张我们学习了Apac 阅读全文

posted @ 2021-08-19 15:52 bluesky1 阅读(1109) 评论(0) 推荐(0)

Spark权威指南(中文版)----第4章结构化API概述

摘要：Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！本书的这一部分将深入探讨阅读全文

posted @ 2021-08-19 15:52 bluesky1 阅读(299) 评论(0) 推荐(0)

Spark权威指南(中文版)----第1章Apache Spark是什么

摘要：Spark The Definitive Guide Spark权威指南中文版。关注公众号，阅读中文版的Spark权威指南，系统学习Spark大数据框架！ Apache Spark是一个统一的分布式内存计算引擎，包括一组用于在计算机集群上进行并行数据处理的函数库。截止目前，Spark已经成为大数据阅读全文

posted @ 2021-08-19 15:48 bluesky1 阅读(1634) 评论(0) 推荐(0)

大数据分析之技术框架整理

摘要：大数据离线部分 HDFS 1：HDFS的架构部分及工作原理 NameNode：负责管理元素据，将信息保存在内存中 DataNode：保存数据，以块的形式保存。启动后需要定时的向NameNode发送心跳，报告自身存储的块信息 2：HDFS的上传过程 3：HDFS的下载 4：NameNode的元数据安全阅读全文

posted @ 2017-05-11 10:37 bluesky1 阅读(420) 评论(0) 推荐(0)

随笔分类 - 大数据

公告