关于数据挖掘和数据分析的一点迷思!
关于数据分析和数据挖掘学习的一点迷思
可能有些数据挖掘工程师的工作就是研究算法研究数学,不需要他们去做数据清洗,做报表展示类的工作,这类就是大牛了,不需要再读下去了
关于数据这条路大家的一致认为业务和数学是很重要的,一切的分析思路和算法都要结合业务来做,算法(数学)是内功;
但是这两点对于普通人来说都不可能速成,业务能力靠的经验积累,在一个行业里摸爬滚打多年才能对行业有个清晰完整的认识;
数学这个我不是数学专业的,但是接触过一些感觉用数学解决实际问题也不是一朝一夕或者说本科硕士一毕业就行的。
这种巅峰状态,感觉很需要时间的磨砺。
但是我们平时又要做工作,还要去学习数学学习业务知识,我们怎么样能把我们的手头的工作又快又好的做完。
我们可以看看我们平时占据我们工作最大部分的是什么(除数学和业务理解外),是周报日报,各种分析报告,当然这就是我们的工作,那么我们继续拆分,
一份报告中最花时间的是什么,是数据清洗,是报告图表制作,而不是我们最后的分析总结;
尤其是我们每周发送的日报和周报,完全是重复的工作,但是有些整理的格式又特别变态,而且再整理的过程中还有可能发生错误。
so如果我们想又快又好的实现这些那我们该怎么办呢?那当然是自己写代码了,写代码的好处,一错全错,一对全对,过程好把控,灵活操作。
我们可以将数据清洗的问题进行抽象化总结,制作成文档,并形成自己的清洗思路,写数据清洗时直接查文档(当然全背会了最好),
将作图也进行整理这个更简单,常用图像就那么几种,直接可以枚举。
再就是生成报告总结,也是可以枚举的,报告形式无外乎 PDF HTML word Excel 这几种,直接将之整理好,使用时随时查阅。
为啥要说这些呢?因为这些是我们工作中最占时间的,这些是我们可以速成的,不需要数学,不需要对行业理解,这些是我们在任何行业任何公司都可以直接移植的。
一旦通了工作效率会大大提高,会有更多的时间去理解业务制定分析计划,学习算法(数学)。而且如果你将上面的都解决了以后,你会发现自己更有自信了。所以我觉得初学者或者想转到这个领域的人可以先主攻这方面。
还有一点,数据挖掘现在已经有了很多成型的包函数啥的,可以直接套用别人的写好的程序,这个也是可以总结的。
重申:行业(业务)很重要,算法内功。