需求:在某一张 hive 表中需要有一列值,作为唯一标识,有些类似于MySQL中的自增ID,(唯一标识取别名时,尽量不要表中现有字段重名) 方法一,唯一标识: select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "" Read More
查询数据库中每张表的记录条数 select t.table_name,t.num_rows from dba_tables t where owner='XS' ORDER BY NUM_ROWS DESC; Read More
1.取得当前日期: select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01' 2.取得当前日期时间: select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-26 Read More
1、Hdfs的block和spark的partition有什么区别吗? 在hdfs中的block是分布式存储的最小单元,等分,并且可以设置冗余,这样设计会出现一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到,读取对应的内容,例如快手利用hdfs来进行存储视频。 Spark中的pariti Read More
1. OVER():用于指定分析函数工作时的数据窗口大小,这个数据窗口大小可能会随着行的变而变化; 2. CURRENT ROW:当前行; n PRECEDING:往前n行数据; n FOLLOWING:往后n行数据; UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起 Read More
有时候,进行全量同步表时,涉及的表会比较多,可以使用参数定义表明的方式 进行调用datax的配置文件,这样就不需要每次新增一张表就写一个配置文件 { "job": { "content": [ { "reader": { "name": "oraclereader", "parameter": { Read More
由于要实现两个不同数据源的同步,datax可以高效的传输,故在做海量数据同步和迁移时,可以考虑此方法,其中json文件如下。 { "job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "re Read More
需要将oracle的数据导入到Hive上去,其实导入到hdfs和导入到hive的配置差不多。 查看集群上的文件 附上截图配置文件代码 { "job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { Read More
1. 创建分桶分区表 set hive.enforce.bucketing=true; --设置自动分桶参数 CREATE Table `tmp_wfll_log_url` ( `log_time` string, `log_key` string, `url_detail` string, `ur Read More
Hive和HBase的区别 Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hiv Read More