07 2021 档案

摘要:hive中,需要每天定时跑一些sql的脚本或者其他脚本,可以通过调用sh脚本 1.新建一个sh文件 [root@master log]# vim wh_hive_daily.sh 2.添加以下内容 (可以直接复制,然后修改sql里面的内容即可) #!/bin/bash APP=uiopdb hive 阅读全文
posted @ 2021-07-29 16:48 欣欣姐 阅读(1723) 评论(0) 推荐(0) 编辑
摘要:据两个例子, 第一个数层级关系的递归,用循环 begin for orgId in (select org_id from DWSDATA.T_AGENT_ORG_ID group by agent_id ) loop insert into ken.all_agent(agent_id,all_c 阅读全文
posted @ 2021-07-28 11:00 欣欣姐 阅读(2388) 评论(0) 推荐(0) 编辑
摘要:进入到,50070页面报错,There are 1557 missing blocks. The following files may be corrupted: 步骤1,检查文件缺失情况 执行一下代码, hdfs fsck / -list-corruptfileblocks,查看哪些数据块损坏 阅读全文
posted @ 2021-07-22 18:06 欣欣姐 阅读(594) 评论(0) 推荐(0) 编辑
摘要:问题:在使用hive的insert into 往表里插入数据时 ,却发现原来的数据被覆盖了。如下图,如论insert 语句执行多少次,只会有最新的一条数据。(情况跟overwrite一样) 经过多次查找原因,才知道时因为飘号的原因,去掉飘号就可以了 总结: 所以要么用户名和表名分别都加飘号,要么就都 阅读全文
posted @ 2021-07-20 16:36 欣欣姐 阅读(2598) 评论(0) 推荐(0) 编辑
摘要:往hive分区表中插入数据时,如果一张表的数据量非常大,需要按照日期分区,且将指定日期的数据插入到对应分区,如果使用进来分区一天一天的手工输入,效率极低,故hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 假如有两张表临时表 trade_detail_his 阅读全文
posted @ 2021-07-19 15:30 欣欣姐 阅读(3297) 评论(0) 推荐(1) 编辑
摘要:需求:在某一张 hive 表中需要有一列值,作为唯一标识,有些类似于MySQL中的自增ID,(唯一标识取别名时,尽量不要表中现有字段重名) 方法一,唯一标识: select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "" 阅读全文
posted @ 2021-07-16 16:13 欣欣姐 阅读(2065) 评论(0) 推荐(0) 编辑
摘要:查询数据库中每张表的记录条数 select t.table_name,t.num_rows from dba_tables t where owner='XS' ORDER BY NUM_ROWS DESC; 阅读全文
posted @ 2021-07-15 14:39 欣欣姐 阅读(2965) 评论(0) 推荐(0) 编辑
摘要:1.取得当前日期: select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01' 2.取得当前日期时间: select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-26 阅读全文
posted @ 2021-07-14 18:04 欣欣姐 阅读(2706) 评论(0) 推荐(0) 编辑
摘要:1、Hdfs的block和spark的partition有什么区别吗? 在hdfs中的block是分布式存储的最小单元,等分,并且可以设置冗余,这样设计会出现一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到,读取对应的内容,例如快手利用hdfs来进行存储视频。 Spark中的pariti 阅读全文
posted @ 2021-07-06 18:19 欣欣姐 阅读(261) 评论(0) 推荐(0) 编辑
摘要:1. OVER():用于指定分析函数工作时的数据窗口大小,这个数据窗口大小可能会随着行的变而变化; 2. CURRENT ROW:当前行; n PRECEDING:往前n行数据; n FOLLOWING:往后n行数据; UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起 阅读全文
posted @ 2021-07-06 11:22 欣欣姐 阅读(902) 评论(0) 推荐(0) 编辑
摘要:有时候,进行全量同步表时,涉及的表会比较多,可以使用参数定义表明的方式 进行调用datax的配置文件,这样就不需要每次新增一张表就写一个配置文件 { "job": { "content": [ { "reader": { "name": "oraclereader", "parameter": { 阅读全文
posted @ 2021-07-05 17:17 欣欣姐 阅读(4042) 评论(1) 推荐(2) 编辑
摘要:由于要实现两个不同数据源的同步,datax可以高效的传输,故在做海量数据同步和迁移时,可以考虑此方法,其中json文件如下。 { "job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "re 阅读全文
posted @ 2021-07-05 16:26 欣欣姐 阅读(2081) 评论(0) 推荐(1) 编辑
摘要:需要将oracle的数据导入到Hive上去,其实导入到hdfs和导入到hive的配置差不多。 查看集群上的文件 附上截图配置文件代码 { "job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { 阅读全文
posted @ 2021-07-05 16:15 欣欣姐 阅读(1966) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示