今日总结
首先上午花费两小时完成了数据清洗和可视化的展示,在数据清洗过程中主要遇到两个问题,第一个问题是如何将ip地址转化为省份,我初步思路是通过现有的数据库加上javaApi封装一个自定义UDF函数,然后打成jar包导入至hive控制台就可以使用了,但是错误有很多,第一个就是需要和第三方库一并打包,二是hive似乎不能读取到我的数据库文件。
最后考虑到因为数据量只有三十万条,因此我直接通过buffer缓冲流去进行数据清洗。
第二个问题是将美国的时间戳转化为标准格式,现有的unixTimeStamp并不能解决问题,这次我定义了一个UDF函数并成功实现。
其次今天从下午开始一共学习5小时。还是准备软考。
学习了下午第三道题的解法。
学习了UML九种图的画法以及作用。
学习了上午题操作系统之同步,互斥以及使用PV操作进行进程管理。今日笔记如下所示: