08 2023 档案

pyspark学习

摘要：上周学习了hadoop和hive相关知识，最主要的就是通过hsql实现数据的清洗，从数仓中获得有用的数据，然后本周学习了spark以及用Python类库pyspark。首先是需要在Windows本地和Linux上班均安装anaconda环境，在anaconda安装完成之后就是将spark的安装包上阅读全文

posted @ 2023-08-26 20:10 cojames 阅读(14) 评论(0) 推荐(0) 编辑

hadoop开发案例

摘要：本次基于陌陌数据案例实现可视化数据分析数据准备:两个tsv文件，总计包含14w条数据，数据字段包括发送人，接收人账号，性别，GPS坐标等20多个字段，这些字段利用制表符进行分隔开，其中有为null的杂乱数据，需要将这些数据过滤，时间数据格式为年月日时分秒，需要substr()进行截取，GPS坐标阅读全文

posted @ 2023-08-21 19:01 cojames 阅读(12) 评论(0) 推荐(0) 编辑