……

摘要: ClickHouse vs StarRocks 选型对比 面向列存的 DBMS 新的选择 Hadoop 从诞生已经十三年了,Hadoop 的供应商争先恐后的为 Hadoop 贡献各种开源插件,发明各种的解决方案技术栈,一方面确实帮助很多用户解决了问题,但另一方面因为繁杂的技术栈与高昂的维护成本,Ha 阅读全文
posted @ 2024-05-14 17:56 大码王 阅读(2709) 评论(0) 推荐(0) 编辑
摘要: 架构比对 简单一句描述。 mpp架构,就是找一群和自己能力差不多的任一起做事,每个人做的事情是一致的。 hadoop架构,就是找一群能力差一些的人,但只需要他们每个人只做一部分工作。 举例说明 一个特色小饭店如何成为连锁餐饮巨头。 一个做宫保鸡丁的夫妻店生意越来越好,顾客经常吃不上,于是考虑扩张。 阅读全文
posted @ 2024-05-14 16:35 大码王 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 一、区块链技术简介 1.1 区块链概念 区块链是一种按时间顺序将数据区块以顺序相连的方式组合而成的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。 简而言之,区块链是一条链,链上链接了许多个不能修改的数据块。 1.2 区块链应用 1.2.1 区块链1.0技术:比特币 诞生于20 阅读全文
posted @ 2024-05-14 16:19 大码王 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 先说结论: 0、本次测试,未调优二者的参数,开箱起服务,直接测试的,部署架构一致。 1、在单表查询下,StarRocks 在部分场景下优于Doris,但是二次查询,二者不分伯仲。 2、在多表查询下,仅在一个场景下Doris速度逊于StarRocks ,大部分场景是Doris优于StarRocks的。 阅读全文
posted @ 2024-05-11 17:31 大码王 阅读(2170) 评论(0) 推荐(1) 编辑
摘要: 第3章 集成 Hive 引擎 前面与Flink集成时,通过使用 paimon Hive Catalog,可以从 Flink 创建、删除、查询和插入到 paimon 表中。这些操作直接影响相应的Hive元存储。以这种方式创建的表也可以直接从 Hive 访问。 更进一步的与 Hive 集成,可以使用 H 阅读全文
posted @ 2024-03-02 15:41 大码王 阅读(234) 评论(1) 推荐(0) 编辑
摘要: 4.4. 插入数据 INSERT 语句向表中插入新行。插入的行可以由值表达式或查询结果指定,跟标准的sql语法一致。 INSERT INTO table_identifier [ part_spec ] [ column_list ] { value_expr | query } part_spec 阅读全文
posted @ 2024-03-02 15:35 大码王 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.doris表基本概念 在 Doris 中,数据都以关系表(Table)的形式进行逻辑上的描述。 1.1.1Row & Column 一张表包括行(Row)和列(Column) Row 即用户的一行数据 Column 用于描述一行数据中不同的字段 在默认的数据模型中,Column 只分为排序列和非 阅读全文
posted @ 2023-09-05 19:33 大码王 阅读(480) 评论(0) 推荐(0) 编辑
摘要: (一)java命名规范 1、变量、成员、方法名统一采用驼峰命名(lowerCamelCase),做到见语知其义 例子:变量——用户数据(userList)、方法——getUserData(int type)等。 说明:正常变量定义使用驼峰命名,特殊的如DTO\VO\DO等除外。 2、类名的定义 (1 阅读全文
posted @ 2023-03-29 09:57 大码王 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 概述 配置文件 概念:一种计算机文件,可给 计算机程序 配置 参数和初始设置 场景:软件开发时,生产环境数据库账号密码 应写到配置文件,不应明文写到代码中 常见的配置文件后缀示例 .properties Kafka的server.properties用于Java的日志配置文件log4j.proper 阅读全文
posted @ 2023-03-29 09:24 大码王 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 导读:美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对 阅读全文
posted @ 2023-03-24 13:48 大码王 阅读(767) 评论(0) 推荐(3) 编辑
摘要: 一、目的 通过编写一个模拟动态资源分配的银行家算法程序,进一步深入理解死锁、产生死锁的必要条件、安全状态等重要概念,并掌握避免死锁的具体实施方法。 二、实验内容 (1)模拟一个银行家算法: 设置数据结构 设计安全性算法 (2) 初始化时让系统拥有一定的资源 (3) 用键盘输入的方式申请资源 (4)如 阅读全文
posted @ 2022-12-28 14:48 大码王 阅读(1105) 评论(0) 推荐(1) 编辑
摘要: 配置 大佬的博客真的很详细很详细,我就不重复造轮子了,看这里 补充解释 在这一步疑问很多,大佬说的不是很详细,就由我来补充下吧~ 在PC端Charles这样点击: 之后会这样提示:我们要记住图中的红色方框圈起来的! 第一个是手机代理IP和端口号!第二个是移动端证书下载网址 移动端证书配置 2.1 首 阅读全文
posted @ 2022-11-24 11:44 大码王 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1、面试题一:应用架构 问题:公司怎么提交的实时任务,有多少 Job Manager、Task Manager? 解答: (1)我们使用 yarn session 模式提交任务;另一种方式是每次提交都会创建一个新的 Flink 集群,为每一个 job 提供资源,任务之间互相独立,互不影响,方便管理。 阅读全文
posted @ 2022-09-01 17:22 大码王 阅读(1317) 评论(0) 推荐(0) 编辑
摘要: 大数据概要 流程图解析 1)数据采集:定制开发采集程序,或使用开源框架FLUME 2)数据预处理:定制开发mapreduce程序运行于hadoop集群 3)数据仓库技术:基于hadoop之上的Hive 4)数据导出:基于hadoop的sqoop数据导入导出工具 5)数据可视化:定制开发web程序或使 阅读全文
posted @ 2022-08-31 23:44 大码王 阅读(254) 评论(1) 推荐(0) 编辑
摘要: 一、介绍 在构建数据湖时,也许没有比数据格式存储更具有意义的决定。其结果将对其性能、可用性和兼容性产生直接影响。 通过简单地改变数据的存储格式,我们就可以解锁新的功能,提高整个系统的性能,这很有启发意义。 Apache Hudi、Apache Iceberg 和 Delta Lake是目前为数据湖设 阅读全文
posted @ 2022-08-31 23:39 大码王 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Ja 阅读全文
posted @ 2022-08-31 23:38 大码王 阅读(907) 评论(0) 推荐(0) 编辑
摘要: (1) OGG Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据,并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式,它从数据库的日志解析数据的变化(数据量只有日志的四分之一左右)。GoldenGate TDM将数据变化转化为自己的 阅读全文
posted @ 2022-08-31 23:29 大码王 阅读(3767) 评论(1) 推荐(1) 编辑
摘要: Golden Gate(简称OGG)提供异构环境下交易数据的实时捕捉、变换、投递。 1、OGG原理 OGG是一种基于日志的结构化数据复制软件,通过捕获源数据库online redo log (在线重做日志)或archive log(归档日志)获得数据变化,形成tail(队列文件 ),再将这些tail 阅读全文
posted @ 2022-08-31 23:27 大码王 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 1. 什么是Redis?它主要用来什么的? Redis,英文全称是Remote Dictionary Server(远程字典服务),是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 与MySQL数据库不同的是,Redis 阅读全文
posted @ 2022-08-31 23:21 大码王 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1、 HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;4)稀疏:空(null)列并不占用存储空间,表可以设计的 阅读全文
posted @ 2022-08-31 23:18 大码王 阅读(95) 评论(0) 推荐(0) 编辑
2024年3月2日
摘要: 第4章 集成 Spark 引擎 4.1 环境准备 Paimon 目前支持 Spark 3.4、3.3、3.2 和 3.1。课程使用的Spark版本是3.3.1。 1)上传并解压Spark安装包 tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/ 阅读全文
posted @ 2024-03-02 15:22 大码王 阅读(123) 评论(0) 推荐(0) 编辑
2023年5月23日
摘要: 概述 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使 阅读全文
posted @ 2023-05-23 11:56 大码王 阅读(110) 评论(0) 推荐(0) 编辑
2023年4月3日
摘要: 1. Docker 安装 ​ 1. yum包更新到最新 yum update ​ 2. 安装需要的软件包,yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的 yum install -y yum-utils device-mapper-per 阅读全文
posted @ 2023-04-03 08:34 大码王 阅读(352) 评论(0) 推荐(0) 编辑
2023年4月1日
摘要: 一、centos7获取IP地址的两种方法 动态获取IP 设置静态IP地址 二、动态获取IP(不推荐使用) 1、使用 ip addr命令查看查看网卡名和是否有网络,获知网卡名为ens33。 2、输入vi /etc/sysconfig/network-scripts/ifcfg-ens33 ,修改ifc 阅读全文
posted @ 2023-04-01 08:51 大码王 阅读(12887) 评论(0) 推荐(0) 编辑
2023年3月29日
摘要: 1、概述 场景 在数据开发中,由于各程序员风格不一、部分程序员代码太烂、代码注释过少等原因,导致代码维护时困难重重 同事A请假去生娃,此时Ta的代码出了问题需要同事B去修改,但由于代码太烂,同事B改不动 代码评审:通过 阅读代码 来 检查代码质量 目的:降低代码维护成本 使用代码评审自动化脚本(Py 阅读全文
posted @ 2023-03-29 09:15 大码王 阅读(123) 评论(0) 推荐(0) 编辑
2023年2月15日
该文被密码保护。 阅读全文
posted @ 2023-02-15 13:51 大码王 阅读(0) 评论(0) 推荐(0) 编辑
2022年9月1日
摘要: 一、Flink内存优化 1.1 Flink 内存配置 Flink JVM 进程的进程总内存(Total Process Memory)包含了由 Flink 应用使用的内存(Flink 总内存)以及由运行 Flink 的 JVM 使用的内存。 Flink 总内存(Total Flink Memory) 阅读全文
posted @ 2022-09-01 19:25 大码王 阅读(363) 评论(0) 推荐(0) 编辑
复制代码