摘要: ETL简介 Kettle简介 transformation 和 job的区别 Kettle 的核心组件 Kettle 特点 Kettle 的目录说明 Kettle 的文件说明 ETL简介 ETL,Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程。 市面上常用的ETL工 阅读全文
posted @ 2023-06-07 23:36 HOUHUILIN 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 官网:https://flink.apache.org/ 一、Flink 是什么 是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能。 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 是为分布式、高性能、随时空iji准确的流处理应用程序打 阅读全文
posted @ 2023-06-07 17:14 HOUHUILIN 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC(支持事务的orc表)测试 TORC(分区表)测试 TEXTFILE 表测试 ORC 表测试 ES(ElasticSearch表)测试 hyperdrive 表测试 TORC(支持事务的orc表)测试 -- 阅读全文
posted @ 2023-06-07 13:39 HOUHUILIN 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 一、相关链接地址 Hive官网:https://hive.apache.org/ Hive下载页面:https://downloads.apache.org/hive/ 中科大镜像地址:http://mirrors.ustc.edu.cn/apache/hive/hive-3.1.2/ 清华大学镜像 阅读全文
posted @ 2023-06-07 00:35 HOUHUILIN 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 词频 Word Count 1、在浏览器上访问 https://node01:9870 2、创建目录 /user 目录 bin/hdfs dfs -mkdir /user 如果未配置环境变量,需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2(这个是我的安装目录) 3 阅读全文
posted @ 2023-06-07 00:01 HOUHUILIN 阅读(33) 评论(0) 推荐(0) 编辑