文章分类 -  阿里云-大数据

摘要:如果需要向表中插入少量数据,您可以通过insert … values或values table操作向数据量小的表中插入数据。由于insert .... values就是我们平常使用的方式,这里不再介绍,本篇内容我们只介绍values table。 如果您需要对插入的数据进行简单的运算,推荐使用Max 阅读全文
posted @ 2024-10-09 09:41 业余砖家 阅读(23) 评论(0) 推荐(0) 编辑
摘要:问题背景 将xlsx格式的Excel文件作为资源上传到Dataworks,但是在读取Excel文件时发现,总是报错提示:Bad Magic Number 类似的错误。 经过分析,怀疑是上传Excel文件到Dataworks后,文件发生了改变,导致Excel文件无法完成解压导致。 所以我想到一个办法, 阅读全文
posted @ 2024-09-04 15:20 业余砖家 阅读(70) 评论(0) 推荐(0) 编辑
摘要:1、查看数据库中所有表 SHOW TABLES ; SHOW TABLES FROM db_name ; 2、查看某个表的所有列信息 DESC table_name ; SHOW COLUMNS FROM table_name ; 或者 SHOW COLUMNS IN table_name ; 3、 阅读全文
posted @ 2024-09-03 15:15 业余砖家 阅读(22) 评论(0) 推荐(0) 编辑
摘要:常用的高级SQL示例: 1、通过判断字段值是否为空来控制where查询条件是否保留 <where> <if test='PUR_ODR_CODE !=null and PUR_ODR_CODE !=""'> AND PUR_ODR_CODE=${PUR_ODR_CODE} </if> <if tes 阅读全文
posted @ 2024-09-03 12:07 业余砖家 阅读(34) 评论(0) 推荐(0) 编辑
摘要:导出方式 记录数 记录数(亿) 数据容量(byte) 数据容量(GB) 用时(秒) 平均速率(MB/秒) 平均速率(行/秒) 外部表 3000189510 30 107879150765 100 751 136.99 3994926 UNLOAD 3000189510 30 107879150765 阅读全文
posted @ 2024-05-10 11:15 业余砖家 阅读(14) 评论(0) 推荐(0) 编辑
摘要:一、查看表和DB的存储大小 Hologres兼容PostgreSQL,当前支持查看表或者DB的存储大小。本文将会为您介绍如何使用SQL语句查看表和DB的存储大小。 1.使用限制 仅支持查看内部表的存储规格大小,不支持直接查看分区父表(查看分区父表返回结果是0),需要指定分区子表进行查看。如果查询到表 阅读全文
posted @ 2024-05-08 18:43 业余砖家 阅读(57) 评论(0) 推荐(0) 编辑
摘要:1、查询Hologres的实例版本: select hg_version(); 2、查询Hologres的建表语句: select hg_dump_script('<table_name>'); 3、查询表的shard情况: (1)查询表分布在多少个shard上 select count(disti 阅读全文
posted @ 2024-04-12 14:28 业余砖家 阅读(45) 评论(0) 推荐(0) 编辑
摘要:在标准的create table语法基础上,增加一行 PERIOD FOR SYSTEM_TIME 的声明,即可实现维表功能。 PERIOD FOR SYSTEM_TIME 声明定义了维表的变化周期,即表明该表是一张会变化的表。 CREATE TABLE rds_dim_table( id INT, 阅读全文
posted @ 2024-03-28 17:12 业余砖家 阅读(11) 评论(0) 推荐(0) 编辑
摘要:一、Datahub创建Topic 1、进入项目管理,选择一个project进入该项目中。 2、点击右上角的"新建Topic",创建一个topic。 名称: test_topic 类型: TUPLE SCHEMA详情: id BIGINT name STRING create_time TIMESTA 阅读全文
posted @ 2024-03-28 16:04 业余砖家 阅读(17) 评论(0) 推荐(0) 编辑
摘要:背景 由于Doris 2以上版本支持创建Maxcompute Catalog,实现对于Maxcompute的连接和访问。但是由于配置中无法更改endpoint,所以无法实现公网Doris对于公有云Maxcompute的访问。 本文介绍如何通过修改/etc/hosts,将内部VPC的连接地址指向公有云 阅读全文
posted @ 2024-02-26 15:14 业余砖家 阅读(203) 评论(0) 推荐(0) 编辑
摘要:在使用ODPS处理数据的时候经常会遇到数据被误删除、或者被误覆盖,ODPS ChangeLogs提供了一种海量数据版本化的机制和数据恢复的工具,用户可以使用ChangeLogs将海量数据撤销或者重做至数据的任意历史版本、查看每个版本修改的内容。通过ChangeLogs,用户可以轻易地回滚任意修改,保 阅读全文
posted @ 2024-01-25 16:59 业余砖家 阅读(104) 评论(0) 推荐(0) 编辑
摘要:【异常】java.net.BindException: Cannot assign requested address (Bind failed)问题描述: 使用阿里云ECS服务器,操作系统为Centos7.6,启动zookeeper报错。通过cat /root/zookeeper/data/log 阅读全文
posted @ 2024-01-17 11:41 业余砖家 阅读(135) 评论(0) 推荐(0) 编辑
摘要:介绍 Distributed MapJoin是MapJoin的升级版,适用于大表Join中表的场景,二者的核心目的都是为了减少大表侧的Shuffle和排序。 注意事项 (1) Join两侧的表数据量要求不同,大表侧数据在10 TB以上,中表侧数据在[1 GB, 100 GB]范围内。 (2) 小表侧 阅读全文
posted @ 2023-12-22 15:58 业余砖家 阅读(191) 评论(0) 推荐(0) 编辑
摘要:1. Kafka映射DataHub介绍 1) Topic类型 Kafka的Topic扩容方式和DataHub的topic扩容方式不同,为了适配Kafka的topic扩容方式,DataHub创建topic时需要将扩容方式选为扩展模式。扩展模式的topic,不再支持分裂/合并操作,而是添加shard的方 阅读全文
posted @ 2023-09-04 15:19 业余砖家 阅读(171) 评论(0) 推荐(0) 编辑
摘要:问题描述: 启动目标端的replicat进程时报错:org.apache.kafka.common.errors.SslAuthenticationException : SSL handshake failed 解决办法: 1、通过集群运维,在配置中获取根证书,粘贴到文件中并将文件命名为:ca-c 阅读全文
posted @ 2023-09-01 19:41 业余砖家 阅读(312) 评论(0) 推荐(0) 编辑
摘要:(一)前提条件 在使用console工具前,请您确认已满足如下条件: 1) 待安装console的设备已安装Java 8或以上版本。 2)上传下载的Topic必须为Tuple类型。 ​ (二)安装并配置console客户端 1) 下载命令行工具进行datahub_console.tar.gz并解压 阅读全文
posted @ 2023-09-01 16:20 业余砖家 阅读(351) 评论(0) 推荐(0) 编辑
摘要:1、切分键 数据集成任务上提供了一个切分键的设置,那么该切分键是否可以对源库SQL查询有一定的提升,进而提高数据同步任务的整体效率呢? 切分键:(1)可以将源数据表中某一列作为切分键,建议使用主键或有索引的列作为切分键,因为为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。 (2) 阅读全文
posted @ 2023-08-28 16:09 业余砖家 阅读(306) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示