随笔分类 - 【 大数据 】
摘要:天下武功,唯快不破。同样的,kafka在消息队列领域,也是非常快的,这里的快指的是kafka在单位时间搬运的数据量大小,也就是吞吐量。下图是不同消息队列的一个性能测试结果,在同步发送场景下,单机Kafka的吞吐量高达17.3w/s,不愧是高吞吐量消息中间件的行业老大。 那究竟是什么原因让kafka如
阅读全文
摘要:隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,实现数据的可用不可见的目的;在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。
阅读全文
摘要:
一、什么是数据湖 数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。 用阿里的数据架构图来说: ODS(operat
阅读全文

摘要:
埋点的作用 开始之前先看一下为什么要收集埋点数据,埋点都可以做什么。埋点主要用于记录用户行为,几乎是应用必不可少的功能。埋点的作用包括但不限于 分析用户转化以及存留例如下载的用户数量,注册的用户数量,一段时间之后的存留用户数量; 分析用户偏好例如通过用户行为的分析,可以对用户的偏好做一定的概括,便于
阅读全文

摘要:
一、程序结构 Flink 程序的基本构建块是流和转换(Flink 的 DataSet API 中使用的 DataSet 也是内部流 )。从概念上讲,流是(可能永无止境的)数据记录流,而转换是将一个或多个流作为一个或多个流的操作。输入,并产生一个或多个输出流。 Flink 应用程序结构就是如上图所示:
阅读全文

摘要:
本文从理论上讲解 MongoDB 分布式集群架构的三种模式,以及在集群工作方式下,MongoDB 是如何使用分片和复制的机制来完成对数据的管理和恢复的。 MongoDB 有三种集群部署模式,分别为主从复制(Master-Slaver)、副本集(Replica Set)和分片(Sharding)模式。
阅读全文

摘要:
正常情况下,选举是一定要投票的。 我们应该都经历过投票,在投票时我们可能会将票投给和我们关系比较好的人,如果你和几个候选人都比较熟,这种情况下你会将选票投给你认为能力比较强的人,如果你和几个候选人都不熟,并且你自己也是候选人的话,这时你应该会认为你是这些候选人里面最厉害的那个人,大家都应该选你,这时
阅读全文
