yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  129 随笔 :: 0 文章 :: 1 评论 :: 2389 阅读

02 2024 档案

摘要:架构产生的动力主要源自以下几个方面: 自动化程度有限:对于需要人工干预才能完成的工作,即使存在一定程度的自动化,仍需要架构来协助规划和设计。 个体能力和专注度有限:每个人都有自己擅长的领域,但由于个人能力和专注度的限制,单个人很难完成复杂系统的设计和实施。因此,需要将工作分解并委托给不同擅长领域的角 阅读全文
posted @ 2024-02-28 17:46 椰糖 阅读(8) 评论(0) 推荐(0) 编辑

摘要:Spark 有许多优势,其中一些主要优势包括: 速度:Spark 基于内存计算,能够比基于磁盘的计算快很多。对于迭代式算法和交互式数据挖掘任务,这种速度优势尤为明显。 易用性:Spark 支持多种语言,包括 Java、Scala、Python 和 R。它提供了丰富的内置 API,可以帮助开发人员更快 阅读全文
posted @ 2024-02-27 16:00 椰糖 阅读(6) 评论(0) 推荐(0) 编辑

摘要:Spark Core Spark Core 是 Spark 的基础,它提供了内存计算的能力,是分布式处理大数据集的基础。它将分布式数据抽象为弹性分布式数据集(RDD),并为运行在其上的上层组件提供 API。所有 Spark 的上层组件都建立在 Spark Core 的基础之上。 Spark SQL 阅读全文
posted @ 2024-02-07 21:33 椰糖 阅读(8) 评论(0) 推荐(0) 编辑

摘要:当优化器在编译时无法识别可跳过的分区时,可以使用"动态分区裁剪",即基于运行时推断的信息来进一步进行分区 裁剪。这在星型模型中很常见,星型模型是由一个或多个并且引用了任意数量的维度表的事实表组成。在这种连接操 作中,我们可以通过识别维度表过滤之后的分区来裁剪从事实表中读取的分区。在一个TPC-DS基 阅读全文
posted @ 2024-02-03 22:36 椰糖 阅读(4) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示