随笔分类 -  大数据

摘要:〇、参考地址 1、Linux下编写脚本自动安装hive https://blog.csdn.net/weixin_44911081/article/details/121227024?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216 阅读全文
posted @ 2022-12-04 22:26 哥们要飞 阅读(215) 评论(0) 推荐(0) 编辑
摘要:〇、参考地址 1、pg官方文档 http://www.postgres.cn/docs/9.6/index.html 2、腾讯云仓pg文档 https://cloud.tencent.com/document/product/878/33571 3、阿里云数据库RDS PostgreSQL 版 ht 阅读全文
posted @ 2022-11-26 11:53 哥们要飞 阅读(228) 评论(0) 推荐(0) 编辑
摘要:〇、参考地址 1、多个Excel实现同步 https://www.wangt.cc/2021/05/kettle%E5%A4%9A%E4%B8%AA%E8%A1%A8%E4%B8%80%E8%B5%B7%E8%BF%81%E7%A7%BB-%E9%80%9A%E8%BF%87%E9%85%8D%E7 阅读全文
posted @ 2022-11-26 10:22 哥们要飞 阅读(908) 评论(0) 推荐(0) 编辑
摘要:Hadoop安装-分布式-Fully 〇、所需资料 一、配置 1、基础配置 (1)系统安装 (2)hostname主机名配置 (3)ip地址、dns、hosts映射文件配置 (4)关闭防火墙与selinux (5)开启ntpd时钟同步 (6)jdk安装与环境变量配置 (7)机器克隆、配置 (8)ss 阅读全文
posted @ 2022-11-02 19:42 哥们要飞 阅读(16) 评论(0) 推荐(0) 编辑
摘要:Hadoop安装-伪分布式-Pseudo 〇、所需资料 一、前置环境安装 1、包含内容 (1)安装 虚拟机安装、系统安装 (2)配置 ip、host、主机名配置 关闭防火墙及selinux SSH免密登录 (2)基础环境安装 安装jdk 安装ntpd开启时钟同步 2、参考地址 https://www 阅读全文
posted @ 2022-10-29 15:49 哥们要飞 阅读(31) 评论(0) 推荐(0) 编辑
摘要:一、思维导图 1、实时更新连接 https://www.mubucm.com/doc/1GRE2U7qYuj 2、思维导图图片 二、具体内容 8.系统架构 架构推导 拓扑结构 多对多 leader读写,follower同步 结构组成 分类topic存储数据 提高吞吐量,进行分区 多副本数据一致性通过 阅读全文
posted @ 2022-10-04 23:38 哥们要飞 阅读(168) 评论(0) 推荐(0) 编辑
摘要:一、地址 1、实时更新的思维导图 https://www.mubucm.com/doc/4uqlpedefuj 2、图片 二、具体内容 5.producer生产者 demo 发送pro.send(new ProducerRecord<String,String>("test","123")) Pro 阅读全文
posted @ 2022-10-04 23:32 哥们要飞 阅读(90) 评论(0) 推荐(0) 编辑
摘要:Kafka教程(一)基础入门 1.基本概念 背景 领英->Apache 分布式、消息发布订阅系统 角色 存储系统 消息系统 流处理平台-Kafka Streaming 特点 高吞吐、低延迟 cg消费不同分区 可扩展性(热扩展) 持久性、可靠性 容错性(n-1个replica) 高并发(数千个客户端☆ 阅读全文
posted @ 2022-10-02 16:46 哥们要飞 阅读(59) 评论(1) 推荐(0) 编辑
摘要:一、现在问题 同时插入多条时间戳相同的记录 INSERT INTO "ABANK" VALUES ('1', 'CH', '00211', 'UBS Switzerland AG', 'UBSWCHZH31A', ' ', TO_DATE('2015-06-13 00:00:00', 'SYYYY- 阅读全文
posted @ 2022-09-09 15:06 哥们要飞 阅读(35) 评论(0) 推荐(0) 编辑
摘要:〇、参考资料 一、现象 1、Oracle源表数据 2、PG同步后的表数据 3、现象 时间不一致,差了8个小时 4、查看对应的connector信息 (1)source { "connector.class": "io.confluent.connect.jdbc.JdbcSourceConnecto 阅读全文
posted @ 2022-09-09 11:13 哥们要飞 阅读(199) 评论(0) 推荐(0) 编辑
摘要:〇、所需资料 1、JDBC connect的plugins下载地址(confluent) 一、Oracle建表 1、表规划 表名:Test_TimeFormat_Order、Test_Stress_Order 字段:INCREMENT_UID/Order_ID/quantity/cost/CREAT 阅读全文
posted @ 2022-09-08 21:06 哥们要飞 阅读(784) 评论(1) 推荐(0) 编辑
摘要:〇、概述 1、常见资料 (1)confluent https://docs.confluent.io/5.4.0/connect/kafka-connect-jdbc/sink-connector/sink_config_options.html 一、可用的sink/source配置 (一)sour 阅读全文
posted @ 2022-09-02 13:38 哥们要飞 阅读(215) 评论(0) 推荐(0) 编辑
摘要:1234567890 阅读全文
posted @ 2022-09-02 13:37 哥们要飞 阅读(9) 评论(0) 推荐(0) 编辑
摘要:123456789 myid zk-web-ui 阅读全文
posted @ 2022-09-01 23:54 哥们要飞 阅读(13) 评论(0) 推荐(0) 编辑
摘要:1234567890 1请按照我是想额度插入fvtgb6yhn7ujm8ik,9ol. 阅读全文
posted @ 2022-08-30 19:43 哥们要飞 阅读(56) 评论(0) 推荐(0) 编辑
摘要:〇、概述 1、常用资料 dolphinscheduler用户手册:https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/system-manual.html airflow官方文档:airflow.apache.org 2、理解 阅读全文
posted @ 2022-08-15 19:09 哥们要飞 阅读(7646) 评论(0) 推荐(0) 编辑
摘要:(一)概述 1、ETL ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程) ETL工具:Sqoop,DataX,Kettle,Talend等 2、Kettle介绍 水壶、多数据源(ETL工作集)、Java编写 Kettle(现在已经更名为PDI,Pentaho 阅读全文
posted @ 2022-06-27 20:07 哥们要飞 阅读(378) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、介绍 对无界和有界数据流进行有状态计算的分布式引擎和框架,并可以使用高层API编写分布式任务,主要包括: DataSet API(批处理):静态数据抽象为分布式数据集,方便使用操作符进行处理(Python) DataStream API(流处理):对分布式流数据处理,从而进行各种操作 阅读全文
posted @ 2022-02-07 19:42 哥们要飞 阅读(100) 评论(0) 推荐(0) 编辑
摘要:一、DMA介绍 1、概念 DMA(Direct Memory Access,直接存储器访问) 是一种内存访问技术,独立于CPU, 直接读、写系统存储器、外设等 主存与I/0设备之间使用DMA控制器控制一个数据通路(专用数据总线)进行数据传输,无需依赖于CPU进行中断 I/O设备(字符设备和块设备): 阅读全文
posted @ 2022-01-26 18:02 哥们要飞 阅读(203) 评论(0) 推荐(0) 编辑