hadoop学习(5)

1)本周学习自定义类型处理手机上网日志总结:

   本周我花了20小时学习如何在Hadoop中处理手机上网日志并创建自定义数据类型。学会如何通过map-reduce实现统计不同手机号用户的上网流量信息?通过上表可知,第6~9个字段是关于流量的信息,也就是说我们需要为每个用户统计其upPackNumdownPackNumupPayLoad以及downPayLoad这个四个字段的数量和   

在学习阶段,我用了12小时来阅读相关文档和教程,了解如何解析手机上网日志、创建自定义数据类型以及在Hadoop中使用它们。

   我还花了6小时编写和测试处理手机上网日志的代码,包括自定义数据类型的定义和使用。

   在解决问题方面,我花了2小时来处理在学习和编码过程中遇到的一些问题,主要涉及日志数据的格式、字段解析等问题。

 

2)下周计划:

   下周我计划进一步深入学习关于处理大规模手机上网日志数据的技术,包括数据清洗、转换和分析并且初步探索Combiner。

   我还打算研究如何使用MapReduce作业来处理这些数据,以及如何应用其他Hadoop生态系统组件来进行数据挖掘和可视化。

 

3)本周遇到的问题:

   在学习处理手机上网日志时,我遇到了一些有关日志格式的问题,不同日志可能有不同的字段和格式,需要进行灵活的处理。

   在编写自定义数据类型和解析日志字段时,我遇到了一些Java编程方面的问题,需要查找解决方案并进行调试。

   另外,我还需要解决如何处理大规模日志数据的性能和扩展性问题,以确保能够应对大数据量的处理需求。

posted @ 2023-08-12 09:07  旺旺大菠萝  阅读(6)  评论(0编辑  收藏  举报