08 2023 档案
摘要:上周学习了hadoop和hive相关知识,最主要的就是通过hsql实现数据的清洗,从数仓中获得有用的数据,然后本周学习了spark以及用Python类库pyspark。 首先是需要在Windows本地和Linux上班均安装anaconda环境,在anaconda安装完成之后就是将spark的安装包上
阅读全文
摘要:本次基于陌陌数据案例实现可视化数据分析 数据准备:两个tsv文件,总计包含14w条数据,数据字段包括发送人,接收人 账号,性别,GPS坐标等20多个字段,这些字段利用制表符进行分隔开,其中有为null的杂乱数据,需要将这些数据过滤,时间数据格式为年月日时分秒,需要substr()进行截取,GPS坐标
阅读全文