数据分析工作的一点改进
最近老是用python要对各种csv做各种统计,工作不可谓不繁琐啊,通常在一次csv扫描中完成几种到几十种统计,因此重复代码多、可读性也差。
应该对不同统计做一些原型封装,以动态语言的灵活性不需要做代码生成器,只需要写不同的函数完成不同的功能即可,这样代码大大减少,可读性维护性都很好,唯一的问题会是对不同的工作都需要单独扫描一遍文件。
如果对性能有要求,要把不同的统计放在一遍扫描中,又要避免每次统计之前认真确定好如何执行,可能真需要一个代码生成器。
如果以后这部分工作切到hadoop上面,是不是有相应的类库或工具可以使用呢?