On the road to____ Data Scientist (*°▽°*)

    今天又有点落枕了,差不多半年多一次,不过这次也许是练了瑜伽的缘故,感觉没那么严重,应该明天就会好了。以后要注意坐姿,继续练瑜伽。

 
    Week3的data science后面的部分有点听的云里雾里,但总算对Map和Reduce的实现有了初步了解。shared disc由于磁盘的寻道速度提升跟不上带宽的增加而受到限制,shared memory是现在很多四核、八核计算机可以做到的,也因此很多“大数据”的处理实际上没有必要用MR,而shared nothing正是Map Reduce施展身手的领域,记得HPC的老师说过截至去年11月最快的Titan运算能力是17.59 Petaflops有56万多个核,第二快的Sequoia有超过157万个核,但不管单台计算机的性能如何提高,也比不上几万或更多计算机加起来的运算能力。最后对09年的一篇文献的分析也挺有意思的,MR由于最开始不用将数据从raw form转换成内部的结构和建立索引等load time相对Vertica和DBMS-X快,但是在完成grep和selection方面Hadoop要花更多时间,在分析方面,完成aggregate和join效率也更低。不过由于作者是Vertica的designer,因而这篇文章实际上有一些blindsights,首先sequential scans有时候可以避免,比如一个关系比较大一个比较小那么join的时候直接将小的那个每份复制过去,就能省去shuffle的过程,另外现在已经可以在Hadoop建立索引了。Google的反击是列出了最大的database installation和最大的MR installation,eBay的Greenplum和Teradata都只有不到100个nodes,而Yahoo和Facebook的有3600+和600+个nodes。这还是在09年的时候,现在的MR肯定要大很多。
 
    这个课还剩两个编程作业,一个用R进行ml,很感兴趣,以前都是用matlab,还没见识过R的相关package。另外有两个optional assignments, 一个处理真实世界第三方的问题,另一个用Amazon的AWS处理1T的数据。两个peer assessments,一个用Tableau实现可视化,一个以kaggle competition的方式进行,都挺期待的。
posted @ 2013-05-17 21:12  Defightender  阅读(141)  评论(0编辑  收藏  举报