spark - 随笔分类 - 哥不是小萝莉

Hadoop和Spark大数据挖掘与实战

摘要：1.概述本节将系统讲解大数据分析的完整流程，包括数据采集、预处理、存储管理、分析挖掘与结果可视化等核心环节。与此同时，我们还将对主流数据分析工具进行横向对比，帮助读者根据实际需求选用最合适的工具，提升数据价值挖掘的效率与深度。 2.内容 1.数据采集数据采集是大数据分析的起点，旨在通过多种手段高阅读全文

posted @ 2025-04-26 19:15 哥不是小萝莉阅读(972) 评论(1) 推荐(0)

Ignite实战

摘要：1.概述本篇博客将对Ignite的基础环境、集群快照、分布式计算、SQL查询与处理、机器学习等内容进行介绍。 2.内容 2.1 什么是Ignite？在学习Ignite之前，我们先来了解一下什么是Ignite？首先，Ignite是Apache开源的顶级项目之一。Ignite 内存数组组织框架是一个阅读全文

posted @ 2022-10-30 17:46 哥不是小萝莉阅读(2896) 评论(0) 推荐(1)

Kafka与Spark案例实践

摘要：1.概述 Kafka系统的灵活多变，让它拥有丰富的拓展性，可以与第三方套件很方便的对接。例如，实时计算引擎Spark。接下来通过一个完整案例，运用Kafka和Spark来合理完成。 2.内容 2.1 初始Spark 在大数据应用场景中，面对实时计算、处理流数据、降低计算耗时等问题时，Apache S 阅读全文

posted @ 2022-07-31 17:14 哥不是小萝莉阅读(2572) 评论(0) 推荐(2)

Hive和Spark分区策略

摘要：1.概述离线数据处理生态系统包含许多关键任务，最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略，以最大限度的提高数据工程生态系统的稳定性和效率。 2.内容大多数Spark Job可以通过三个阶段来表述，即读取输入数据、使用Spark处理、阅读全文

posted @ 2021-06-27 17:18 哥不是小萝莉阅读(1933) 评论(0) 推荐(1)

万亿数据下Hadoop的核心竞争力

摘要：1.前言在大数据时代，Hadoop有着得天独厚的优势。然而，每个企业的技术储备和需求特点不同，他们希望从海量的客户数据中挖掘真正的商业价值，像Google、Facebook、Twitter等这样的企业更是Hadoop的最早获益者。那么，今天我们就来聊一聊，万亿数据下Hadoop的核心竞争力。 2. 阅读全文

posted @ 2019-06-17 09:19 哥不是小萝莉阅读(1682) 评论(0) 推荐(4)

基于Kafka的实时计算引擎如何选择？Flink or Spark？

摘要：1.前言目前实时计算的业务场景越来越多，实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？Flink or Spark？ 2.为何需要实时计算？根据IBM的统计报告显示，过去两阅读全文

posted @ 2019-06-03 09:13 哥不是小萝莉阅读(7818) 评论(0) 推荐(2)

Hadoop大数据挖掘从入门到进阶实战

摘要：1.概述大数据时代，数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本，而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮，笔者愿意分享自己多年的开发经验，带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔阅读全文

posted @ 2018-06-22 20:52 哥不是小萝莉阅读(4162) 评论(2) 推荐(2)

Apache Ignite剖析

摘要：1.概述 Apache Ignite和Apache Arrow很类似，属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容，它统一了大数据领域各个生态系统的数据格式，避免了序列化和反序列化所带来的资源开销（能够节省80%左右的CPU资源）。今天来阅读全文

posted @ 2018-03-11 02:42 哥不是小萝莉阅读(14191) 评论(1) 推荐(2)

Apache Beam 剖析

摘要：1.概述在大数据的浪潮之下，技术的更新迭代十分频繁。受技术开源的影响，大数据开发者提供了十分丰富的工具。但也因为如此，增加了开发者选择合适工具的难度。在大数据处理一些问题的时候，往往使用的技术是多样化的。这完全取决于业务需求，比如进行批处理的MapReduce，实时流处理的Flink，以及SQL交阅读全文

posted @ 2017-04-09 16:14 哥不是小萝莉阅读(14377) 评论(0) 推荐(1)

Spark 实时计算整合案例

摘要：1.概述最近有同学问道，除了使用 Storm 充当实时计算的模型外，还有木有其他的方式来实现实时计算的业务。了解到，在使用 Storm 时，需要编写基于编程语言的代码。比如，要实现一个流水指标的统计，需要去编写相应的业务代码，能不能有一种简便的方式来实现这一需求。在解答了该同学的疑惑后，整理了该实阅读全文

posted @ 2016-06-05 15:35 哥不是小萝莉阅读(8852) 评论(3) 推荐(4)

哥不是小萝莉

随笔分类 - spark

公告