摘要: DataX入门教程2 接DataX入门教程1 MongoDB 什么是MongoDB MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>va 阅读全文
posted @ 2022-11-23 23:18 LEEPINE 阅读(1576) 评论(0) 推荐(0) 编辑
摘要: DataX入门教程概述什么是DataX​ DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX的设计为了解决异构数据源同步问题,Data 阅读全文
posted @ 2022-11-23 23:17 LEEPINE 阅读(1198) 评论(0) 推荐(1) 编辑
摘要: 第1章 Hive安装1.1 Hive安装地址1)Hive官网地址http://hive.apache.org/2)文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址http://archive.apa 阅读全文
posted @ 2022-11-20 21:17 LEEPINE 阅读(269) 评论(0) 推荐(1) 编辑
摘要: Hadoop运行环境搭建2接上篇第3章 Hadoop编译源码3.1 前期准备工作1)CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2)jar包准备(hadoop源码、JDK8、maven、 阅读全文
posted @ 2022-11-20 16:53 LEEPINE 阅读(68) 评论(0) 推荐(0) 编辑
摘要: Hadoop运行环境搭建1 第1章 Hadoop运行环境搭建(开发重点) 1.1 虚拟机环境准备 1)准备三台虚拟机,虚拟机配置要求如下: 单台虚拟机:内存4G,硬盘50G,安装必要环境 (1)修改克隆虚拟机的静态IP vi /etc/sysconfig/network-scripts/ifcfg- 阅读全文
posted @ 2022-11-20 16:52 LEEPINE 阅读(186) 评论(0) 推荐(0) 编辑
摘要: Apache Doris入门教程第1章 Doris简介1.1 Doris概述Apache Doris由百度大数据部研发(之前叫百度 Palo,2018年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过200个产品线在使用,部署机器超过1000台,单一业务最大可达到上百 TB。 阅读全文
posted @ 2022-11-20 16:34 LEEPINE 阅读(4498) 评论(0) 推荐(0) 编辑
摘要: StarRocks入门教程 第1章 StarRocks简介 1.1 StarRocks介绍 StarRocks是新一代极速全场景MPP数据库 StraRocks充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能, 阅读全文
posted @ 2022-11-20 16:33 LEEPINE 阅读(7514) 评论(0) 推荐(1) 编辑
摘要: Flink 优化总结3第6章 FlinkSQL调优FlinkSQL官网配置参数:https://ci.apache.org/projects/flink/flink-docs-release-1.13/dev/table/config.html设置空闲状态保留时间Flink SQL新手有可能犯的错误 阅读全文
posted @ 2022-11-13 22:45 LEEPINE 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 大数据之Flink优化总结2第3章 反压处理概述Flink网络流控及反压的介绍:https://flink-learning.org.cn/article/detail/138316d1556f8f9d34e517d04d670626反压的理解简单来说,Flink 拓扑中每个节点(Task)间的数据 阅读全文
posted @ 2022-11-13 22:41 LEEPINE 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: 大数据之Flink优化总结 第1章 资源配置调优 Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 提交方式主要是yarn-per-job,资源的分配在使用脚本提交Flink 阅读全文
posted @ 2022-11-13 22:37 LEEPINE 阅读(522) 评论(0) 推荐(0) 编辑