摘要: 【1】数据 文件 rowcolumnData 数据如下 username,item,price zhangsan,A,1 zhangsan,B,2 zhangsan,C,3 lisi,A,4 lisi,C,5 zhangsan,D,6 lisi,B,7 wangwu,C,8 【2】scala代码实现 阅读全文
posted @ 2021-03-04 16:26 大数据程序员 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 直接正常读取json格式数据,然后某些下是嵌套的格式,直接使用 "列.属性" 就可以获取对应的值【1】数据 文件 NestJsonFile 数据如下 {"name":"zhangsan","score":100,"infos":{"age":20,"gender":'man'}} {"name":" 阅读全文
posted @ 2021-03-04 16:19 大数据程序员 阅读(801) 评论(0) 推荐(0) 编辑
摘要: get_json_object(jsonstr,json属性)scala代码: 1 package com.it.baizhan.scalacode.sparksql.examples 2 3 import org.apache.spark.sql.SparkSession 4 5 /** 6 * 阅读全文
posted @ 2021-03-04 16:13 大数据程序员 阅读(883) 评论(0) 推荐(0) 编辑
摘要: 【1】数据 文件jsonArrayFile 数据如下 {"name":"zhangsan","age":18,"scores":[{"xueqi":1,"yuwen":98,"shuxue":90,"yingyu":100},{"xueqi":2,"yuwen":98,"shuxue":78,"yi 阅读全文
posted @ 2021-03-04 11:40 大数据程序员 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 开窗函数 + 表的自关联实现【1】数据 文件test.csv数据如下 ID,CHANGE,NAME id1,1,a id1,1,b id1,1,c id1,2,d id1,2,e id1,1,f id2,2,g id2,2,h id2,1,i id2,1,j id2,2,k id3,1,l id3, 阅读全文
posted @ 2021-03-04 10:46 大数据程序员 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 【思路】先把要导出的字段建立一张新表,然后将就表中要到处的字段数据复制到新表中,最后将新表中的字段全量导出即可。 1、将要导出的字段建立一个新表e_inv_investment_new ,如要导出字段 eid、inv_eid、inv、subconam 建表: 2、利用sql将旧表 e_inv_inv 阅读全文
posted @ 2021-01-14 15:51 大数据程序员 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: left join、join、right join和inner join等等各种join的区别如下: 真的是一张图道清所有join的区别啊,可惜我还是看不懂,可能人比较懒,然后基本一个left join给我就是够用的了,所以就没怎么去仔细研究了,但是现实还是逼我去搞清楚,索性自己动手,总算理解图中的 阅读全文
posted @ 2021-01-14 11:03 大数据程序员 阅读(506) 评论(0) 推荐(0) 编辑
摘要: COALESCE()函数 主流数据库系统都支持COALESCE()函数,这个函数主要用来进行空值处理,其参数格式如下: COALESCE ( expression,value1,value2……,valuen) COALESCE()函数的第一个参数expression为待检测的表达式,而其后的参数个 阅读全文
posted @ 2021-01-13 19:21 大数据程序员 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 【上传的前提条件是启动集群的高可用、启动mysql、启动Hive】 1、在hive中建表(尽量与mysql字段对应) 2、将mysql中的表导出 txt格式 3、将导出的文件先放到虚拟机上,然后从虚拟机上再上传到HDFS上 3.1 将文件放到虚拟机上 3.2 将文件从虚拟机上再上传到HDFS 查看是 阅读全文
posted @ 2021-01-12 15:01 大数据程序员 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 1.类型映射关系 mysql和hive中的数据类型存在差异,在mysql集成数据到hive中这样的场景下,我们希望在hive中的数据是贴源的,所以在hive中希望创建和mysql结构一致的表。 mysql到hive数据类型映射参考如下: 2.问题注意 1.问题: 用公司的大数据平台(DataX)导数 阅读全文
posted @ 2021-01-12 10:18 大数据程序员 阅读(4345) 评论(0) 推荐(0) 编辑