08 2023 档案

摘要:上周学习了hadoop和hive相关知识,最主要的就是通过hsql实现数据的清洗,从数仓中获得有用的数据,然后本周学习了spark以及用Python类库pyspark。 首先是需要在Windows本地和Linux上班均安装anaconda环境,在anaconda安装完成之后就是将spark的安装包上 阅读全文
posted @ 2023-08-26 20:10 cojames 阅读(14) 评论(0) 推荐(0) 编辑
摘要:本次基于陌陌数据案例实现可视化数据分析 数据准备:两个tsv文件,总计包含14w条数据,数据字段包括发送人,接收人 账号,性别,GPS坐标等20多个字段,这些字段利用制表符进行分隔开,其中有为null的杂乱数据,需要将这些数据过滤,时间数据格式为年月日时分秒,需要substr()进行截取,GPS坐标 阅读全文
posted @ 2023-08-21 19:01 cojames 阅读(12) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示