06 2019 档案

摘要:说起 RPC (远程过程调用),大家应该不陌生。随着微服务、分布式越来越流行,RPC 应用越来越普遍。常见的 RPC 框架如:Dubbo、gRPC、Thrift 等。本篇文章不是介绍各种 RPC 的使用和对比。而是深入剖析一个 RPC 包含哪些内容。我最近在 Hadoop 的源码,正好把 Hadoo 阅读全文
posted @ 2019-06-24 08:27 渡码 阅读(925) 评论(3) 推荐(0) 编辑
摘要:流处理是 Flink 的核心,流处理的数据集用 DataStream 表示。数据流从可以从各种各样的数据源中创建(消息队列、Socket 和 文件等),经过 DataStream 的各种 transform 操作,最终输出文件或者标准输出。这个过程跟之前文章中介绍的 Flink 程序基本骨架一样。本 阅读全文
posted @ 2019-06-19 08:23 渡码 阅读(777) 评论(0) 推荐(0) 编辑
摘要:定义 在数据分析场景中,我们可能会遇到这样的问题。例如,我们要做一个推荐系统,如果我们用批处理任务去做,一天或者一小时的推荐频次明显延迟太大。如果用流处理任务,虽然延迟的问题解决了,然而只用实时数据而没有历史数据,那么准确性就无法保证。因此需要结合批处理的历史数据和流处理的实时数据进行处理,既能保证 阅读全文
posted @ 2019-06-13 08:33 渡码 阅读(1609) 评论(0) 推荐(1) 编辑
摘要:上一篇介绍了编写 Flink 程序的基本步骤,以及一些常见 API,如:map、filter、keyBy 等,重点介绍了 keyBy 方法。本篇将继续介绍 Flink 中常用的 API,主要内容为 指定 transform 函数 Flink 支持的数据类型 累加器 指定 transform 函数 许 阅读全文
posted @ 2019-06-10 12:50 渡码 阅读(1903) 评论(0) 推荐(1) 编辑
摘要:Flink使用 DataSet 和 DataStream 代表数据集。DateSet 用于批处理,代表数据是有限的;而 DataStream 用于流数据,代表数据是无界的。数据集中的数据是不可以变的,也就是说不能对其中的元素增加或删除。我们通过数据源创建 DataSet 或者 DataStream 阅读全文
posted @ 2019-06-03 12:52 渡码 阅读(1919) 评论(0) 推荐(0) 编辑