摘要: 0.背景 现在有一个大数据平台,我们需要通过spark对hive里的数据读取清洗转换(etl)再加其它的业务操作的过程,然后需要把这批数据落地到tbase数据库(腾讯的一款分布式数据库)。 数据导入的特点是不定时,但量大。每次导入的数据量在几亿到几十亿上百亿之间。 如果使用dataset.write 阅读全文
posted @ 2023-04-11 11:51 是奉壹呀 阅读(357) 评论(0) 推荐(2) 编辑