数据分析工作的一点改进

最近老是用python要对各种csv做各种统计,工作不可谓不繁琐啊,通常在一次csv扫描中完成几种到几十种统计,因此重复代码多、可读性也差。

应该对不同统计做一些原型封装,以动态语言的灵活性不需要做代码生成器,只需要写不同的函数完成不同的功能即可,这样代码大大减少,可读性维护性都很好,唯一的问题会是对不同的工作都需要单独扫描一遍文件。

如果对性能有要求,要把不同的统计放在一遍扫描中,又要避免每次统计之前认真确定好如何执行,可能真需要一个代码生成器。

如果以后这部分工作切到hadoop上面,是不是有相应的类库或工具可以使用呢?

posted on 2013-08-30 17:55  新一  阅读(242)  评论(0编辑  收藏  举报

导航