随笔分类 -  spark

摘要:1.概述 本篇博客将对Ignite的基础环境、集群快照、分布式计算、SQL查询与处理、机器学习等内容进行介绍。 2.内容 2.1 什么是Ignite? 在学习Ignite之前,我们先来了解一下什么是Ignite?首先,Ignite是Apache开源的顶级项目之一。Ignite 内存数组组织框架是一个 阅读全文
posted @ 2022-10-30 17:46 哥不是小萝莉 阅读(2389) 评论(0) 推荐(1) 编辑
摘要:1.概述 Kafka系统的灵活多变,让它拥有丰富的拓展性,可以与第三方套件很方便的对接。例如,实时计算引擎Spark。接下来通过一个完整案例,运用Kafka和Spark来合理完成。 2.内容 2.1 初始Spark 在大数据应用场景中,面对实时计算、处理流数据、降低计算耗时等问题时,Apache S 阅读全文
posted @ 2022-07-31 17:14 哥不是小萝莉 阅读(2172) 评论(0) 推荐(2) 编辑
摘要:1.概述 离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效率。 2.内容 大多数Spark Job可以通过三个阶段来表述,即读取输入数据、使用Spark处理、 阅读全文
posted @ 2021-06-27 17:18 哥不是小萝莉 阅读(1785) 评论(0) 推荐(1) 编辑
摘要:1.前言 在大数据时代,Hadoop有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像Google、Facebook、Twitter等这样的企业更是Hadoop的最早获益者。那么,今天我们就来聊一聊,万亿数据下Hadoop的核心竞争力。 2. 阅读全文
posted @ 2019-06-17 09:19 哥不是小萝莉 阅读(1642) 评论(0) 推荐(4) 编辑
摘要:1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象。那么,今天就来聊一聊基于Kafka的实时计算引擎如何选择?Flink or Spark? 2.为何需要实时计算? 根据IBM的统计报告显示,过去两 阅读全文
posted @ 2019-06-03 09:13 哥不是小萝莉 阅读(7668) 评论(0) 推荐(2) 编辑
摘要:1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔 阅读全文
posted @ 2018-06-22 20:52 哥不是小萝莉 阅读(4108) 评论(2) 推荐(2) 编辑
摘要:1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来 阅读全文
posted @ 2018-03-11 02:42 哥不是小萝莉 阅读(14058) 评论(1) 推荐(2) 编辑
摘要:1.概述 在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时候,往往使用的技术是多样化的。这完全取决于业务需求,比如进行批处理的MapReduce,实时流处理的Flink,以及SQL交 阅读全文
posted @ 2017-04-09 16:14 哥不是小萝莉 阅读(14309) 评论(0) 推荐(1) 编辑
摘要:1.概述 最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务。了解到,在使用 Storm 时,需要编写基于编程语言的代码。比如,要实现一个流水指标的统计,需要去编写相应的业务代码,能不能有一种简便的方式来实现这一需求。在解答了该同学的疑惑后,整理了该实 阅读全文
posted @ 2016-06-05 15:35 哥不是小萝莉 阅读(8814) 评论(3) 推荐(4) 编辑

点击右上角即可分享
微信分享提示