上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页
摘要: 1. 术语 在 ElasticSearch 中,存入一个文件的动作称为索引(indexing)。对比传统关系型数据库,ElasticSearch中的类比为: Relational DB -> Databases -> Tables -> Rows -> Columns Elasticsearch - 阅读全文
posted @ 2019-12-11 12:53 ZacksTang 阅读(346) 评论(0) 推荐(0) 编辑
摘要: Docker Image 我们介绍一下如何构造一个自定义的 Docker Image。在Docker 中,我们使用Dokcerfile 构建一个docker的描述。 首先我们定义一下需要启动一个什么应用,以 web app 为例,我们有以下需求: 操作系统:centos 更新软件:yum -y up 阅读全文
posted @ 2019-11-27 09:53 ZacksTang 阅读(285) 评论(0) 推荐(0) 编辑
摘要: Docker 基础 为什么需要docker?在传统部署下,我们会遇到不同机器、不同依赖版本的兼容性等问题,解决此问题一般会消耗大量时间,并且在不同机器上均要执行统一环境的部署也是一个耗时较长的工作。除此之外、还包括例如管理Dev/Test/Prod等不同环境的成本。为了解决这些问题,Docker应运 阅读全文
posted @ 2019-11-26 13:04 ZacksTang 阅读(304) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi Apache Hudi 在基于 HDFS/S3 数据存储之上,提供了两种流原语: 插入更新 增量拉取 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如 hive中,对于update的支 阅读全文
posted @ 2019-11-22 17:39 ZacksTang 阅读(15298) 评论(0) 推荐(0) 编辑
摘要: Flink 读写Kafka 在Flink中,我们分别用Source Connectors代表连接数据源的连接器,用Sink Connector代表连接数据输出的连接器。下面我们介绍一下Flink中用于读写kafka的source & sink connector。 Apache Kafka Sour 阅读全文
posted @ 2019-11-10 09:00 ZacksTang 阅读(15351) 评论(1) 推荐(0) 编辑
摘要: 应用一致性保障 在Flink中,会自动做检查点,用于故障时恢复一个应用。在恢复时,application的state信息可以根据最近完成的检查点进行重建,并继续运行。不过,仅将一个application的state进行重置并不足以满足exactly-once的保证。 为了给一个应用提供exactly 阅读全文
posted @ 2019-11-09 09:15 ZacksTang 阅读(1377) 评论(1) 推荐(0) 编辑
摘要: Flink 系统配置 Flink 提供了多个配置参数,用于调整Flink的行为与性能,所有参数均在flink-config.yaml 文件中。下面我们介绍一下几个主要配置。 Java and Classloading 默认情况下,Flink启动JVM进程时,会使用系统环境变量里的PATH路径。当然, 阅读全文
posted @ 2019-11-08 13:43 ZacksTang 阅读(5579) 评论(0) 推荐(0) 编辑
摘要: 检查点,保存点,与状态恢复 Flink是一个分布式数据处理系统,这种场景下,它需要处理各种异常,例如进程终止、机器故障、网络中断等。因为tasks在本地维护它们的state,Flink必须确保在出现故障的情况下,state不会丢失,并且保持一致性。 在这一节,我们会介绍Flink用于保证exactl 阅读全文
posted @ 2019-10-26 21:14 ZacksTang 阅读(4976) 评论(0) 推荐(3) 编辑
摘要: 状态管理 之前我们提到过大多数流应用是有状态的。很多operators会不断的访问并更新某中状态,例如一个window中收集了多少条记录,输入源中当前读到的位置,亦或是用户定义的特定operators的状态。无论是内置的operator还是用户定义的operators,Flink对待它们都是一致的。 阅读全文
posted @ 2019-10-26 08:16 ZacksTang 阅读(2084) 评论(0) 推荐(1) 编辑
摘要: HDFS Read调优 在基于 HDFS 存储的 HBase 中,主要有两种调优方式: 绕过RPC的选项,称为short circuit reads 开启让HDFS推测性地从多个datanode读数据的选项,称为 hedged reads Short-Circuit Reads 一般来说,HBase 阅读全文
posted @ 2019-10-22 18:00 ZacksTang 阅读(1808) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页