代码改变世界

大数据分析师

2012-11-14 17:16  vlnk  阅读(376)  评论(0编辑  收藏  举报

在整个数据行业里面,ParAccel是久负名气的。他们通过了一些渠道获得不少犯罪数据,并对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。

ParAccel颠覆了Hadoop的神话。ParAccel的CEO Chuck Berger指出,太多创业公司陷入了“大数据=非结构化数据的大数据=Hadoop”的逻辑。除了非结构化数据和半结构化数据以外,结构化数据也在快速增长。

如果你只想做到中级分析师,可以不去理会。但是要成为一名高级分析师,那肯定得有一定深度的研究。一是为了知道针对特定的数据集,选用什么样的算法,如何抽取样本,抽取多大量的样本(样本出问题,整个项目都完蛋),算法适用条件是什么,比如线性回归的:独立性、常方差、正态性,怎么理解,哪些必须满足。这些使用如果不熟悉的话,很容易导致分析出问题。

你能写出针对特定问题的算法,现实中许多问题拥有其他问题一样的共性,也有它自己的个性,某些时候针对个性的东西越强,分析效果越好,这就需要你手写算法解决。获得Netflix 100万推荐算法大奖的绝不可能是封装好的现成算法不是么。另外还有一类商业智能问题,是封装算法解决不了的,这类问题大多见于与地理结合的GIS决策系统,这类系统就要求分析人员有图形算法功底。可见如果你想成为顶级的数据分析师,算法与数据结构的知识必不可少。搜索,排序,树,图之所以经典,是因为它们简单有效而且通用。如果你能把这些算法在数据库里实现,那么你分析技术这方面,确实达到很高的境界了。

作为分析师宽广的知识面必不可少,没事看看心理学、历史、地理、人口统计学(demography),浏览一下知乎,FT中文网什么的,也是不错的。
很多优秀的数据信息图、资料、报告只有英文的,例如:
数据信息图infosthetics.com/flowingdata.com/visual.ly/
资料radar.oreilly.com/businessinsider.com/...
报告vdisk.weibo.com/s/2YJeC
国外在数据规划使用展现比我们前行更远,这点是确认无疑的。所以英文阅读流畅的能力对于一个想当优秀分析师的人来说非常重要。我也曾经想过把一些比较不错的文档翻译过来,但因为相当耗时耗力,只能作罢。与其等待别人翻译,不如自己看。