大数据程序员

2021年3月4日

摘要：【1】数据文件 rowcolumnData 数据如下 username,item,price zhangsan,A,1 zhangsan,B,2 zhangsan,C,3 lisi,A,4 lisi,C,5 zhangsan,D,6 lisi,B,7 wangwu,C,8 【2】scala代码实现阅读全文

posted @ 2021-03-04 16:26 大数据程序员阅读(170) 评论(0) 推荐(0)

读取嵌套的json格式数据

摘要：直接正常读取json格式数据，然后某些下是嵌套的格式，直接使用 "列.属性" 就可以获取对应的值【1】数据文件 NestJsonFile 数据如下 {"name":"zhangsan","score":100,"infos":{"age":20,"gender":'man'}} {"name":" 阅读全文

posted @ 2021-03-04 16:19 大数据程序员阅读(838) 评论(0) 推荐(0)

读取json格式的字符串直接解析出json中属性对应的值

摘要： get_json_object(jsonstr,json属性)scala代码： 1 package com.it.baizhan.scalacode.sparksql.examples 2 3 import org.apache.spark.sql.SparkSession 4 5 /** 6 * 阅读全文

posted @ 2021-03-04 16:13 大数据程序员阅读(926) 评论(0) 推荐(0)

案例读取分析json格式的Array

摘要：【1】数据文件jsonArrayFile 数据如下 {"name":"zhangsan","age":18,"scores":[{"xueqi":1,"yuwen":98,"shuxue":90,"yingyu":100},{"xueqi":2,"yuwen":98,"shuxue":78,"yi 阅读全文

posted @ 2021-03-04 11:40 大数据程序员阅读(395) 评论(0) 推荐(0)

案例: 找出变化的行 (高频面试知识点）

摘要：开窗函数 + 表的自关联实现【1】数据文件test.csv数据如下 ID,CHANGE,NAME id1,1,a id1,1,b id1,1,c id1,2,d id1,2,e id1,1,f id2,2,g id2,2,h id2,1,i id2,1,j id2,2,k id3,1,l id3, 阅读全文

posted @ 2021-03-04 10:46 大数据程序员阅读(69) 评论(0) 推荐(0)

2021年1月14日

导出mysql数据库表中的部分字段

摘要：【思路】先把要导出的字段建立一张新表，然后将就表中要到处的字段数据复制到新表中，最后将新表中的字段全量导出即可。 1、将要导出的字段建立一个新表e_inv_investment_new ，如要导出字段 eid、inv_eid、inv、subconam 建表： 2、利用sql将旧表 e_inv_inv 阅读全文

posted @ 2021-01-14 15:51 大数据程序员阅读(1197) 评论(0) 推荐(0)

mySQL--left join、right join和join的区别

摘要： left join、join、right join和inner join等等各种join的区别如下：真的是一张图道清所有join的区别啊，可惜我还是看不懂，可能人比较懒，然后基本一个left join给我就是够用的了，所以就没怎么去仔细研究了，但是现实还是逼我去搞清楚，索性自己动手，总算理解图中的阅读全文

posted @ 2021-01-14 11:03 大数据程序员阅读(581) 评论(0) 推荐(0)

2021年1月13日

mysql--使用COALESCE()函数实现在多个值中选择一个值

摘要： COALESCE()函数主流数据库系统都支持COALESCE()函数，这个函数主要用来进行空值处理，其参数格式如下： COALESCE ( expression,value1,value2……,valuen) COALESCE()函数的第一个参数expression为待检测的表达式，而其后的参数个阅读全文

posted @ 2021-01-13 19:21 大数据程序员阅读(431) 评论(0) 推荐(0)

2021年1月12日

将mysql中数据导入到hive中，并用HQL验证是否导入成功

摘要：【上传的前提条件是启动集群的高可用、启动mysql、启动Hive】 1、在hive中建表（尽量与mysql字段对应） 2、将mysql中的表导出 txt格式 3、将导出的文件先放到虚拟机上，然后从虚拟机上再上传到HDFS上 3.1 将文件放到虚拟机上 3.2 将文件从虚拟机上再上传到HDFS 查看是阅读全文

posted @ 2021-01-12 15:01 大数据程序员阅读(377) 评论(0) 推荐(0)

mysql到hive数据类型转换

摘要： 1.类型映射关系 mysql和hive中的数据类型存在差异，在mysql集成数据到hive中这样的场景下，我们希望在hive中的数据是贴源的，所以在hive中希望创建和mysql结构一致的表。 mysql到hive数据类型映射参考如下： 2.问题注意 1.问题：用公司的大数据平台（DataX）导数阅读全文

posted @ 2021-01-12 10:18 大数据程序员阅读(4539) 评论(0) 推荐(0)

大数据程序员

公告