摘要: 问题描述 今天看到这么一个问题: 看到清洗这两个字,就觉得可高级可高级了!!! 所以,就把这个问题的解决方法也看了看,学了学; 问题的具体解决方法 看到了对ETL的分析(抽取-->过滤-->加载): 首先创建一个在原表的结构基础上,新增我们所需数据的字段的表; 然后执行insert+select操作 阅读全文
posted @ 2023-09-26 22:37 yesyes1 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 今日收获 中午下课之后,就抓紧时间将大型数据库作业写完啦!(自认为很好地实现了老师要求的各个功能); 今天下午和小组的友友们一起讨论了C#管理系统的基本思路,整体进展还算顺利; 学习了一下hive的基础知识,对大数据的只是进行了一定程度上的巩固; 每日一背的单词怎么会少嘞~ 提前预习一下明天课程的内 阅读全文
posted @ 2023-09-26 22:13 yesyes1 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 1、load加载 load语法: 2、Hive3.X新特性 能够使用load将文件数据存储到分区中,将分区默认作为表格数据的最后一列; 3、insert+select向表插入数据 这个语法就是在上次测试的时候遇到过的问题嘞! insert+values这个语法执行效率就很慢,而换用insert+se 阅读全文
posted @ 2023-09-26 21:05 yesyes1 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 1、内部表和外部表 没有指定建表的类型的话,默认为内部表(Internal Table或者是Managed Table) 可以通过这行代码查看表的类型: describe formatted 表名; 内部表和外部表的区别以及适合使用的范围: 2、分区表--避免全表扫描,提高查询效率 需要注意的是,在 阅读全文
posted @ 2023-09-26 19:47 yesyes1 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 1、建表语法 2、数据类型转换函数CAST--也就是强制转换 例如, CAST('100' AS INT) 3、有关于SerDe的描述 序列化和反序列化————用于从文件中读取和数据写入文件的操作(通俗来说,就是分辨分隔符,读取有效数据存储到数据库中); 4、rowformat 指定具体的分隔符是什 阅读全文
posted @ 2023-09-26 15:29 yesyes1 阅读(11) 评论(0) 推荐(0) 编辑