On the road to____ Data Scientist (°▽°)

今天又有点落枕了，差不多半年多一次，不过这次也许是练了瑜伽的缘故，感觉没那么严重，应该明天就会好了。以后要注意坐姿，继续练瑜伽。

Week3的data science后面的部分有点听的云里雾里，但总算对Map和Reduce的实现有了初步了解。shared disc由于磁盘的寻道速度提升跟不上带宽的增加而受到限制，shared memory是现在很多四核、八核计算机可以做到的，也因此很多“大数据”的处理实际上没有必要用MR，而shared nothing正是Map Reduce施展身手的领域，记得HPC的老师说过截至去年11月最快的Titan运算能力是17.59 Petaflops, 有56万多个核，第二快的Sequoia有超过157万个核，但不管单台计算机的性能如何提高，也比不上几万或更多计算机加起来的运算能力。最后对09年的一篇文献的分析也挺有意思的，MR由于最开始不用将数据从raw form转换成内部的结构和建立索引等load time相对Vertica和DBMS-X快，但是在完成grep和selection方面Hadoop要花更多时间，在分析方面，完成aggregate和join效率也更低。不过由于作者是Vertica的designer，因而这篇文章实际上有一些blindsights，首先sequential scans有时候可以避免，比如一个关系比较大一个比较小那么join的时候直接将小的那个每份复制过去，就能省去shuffle的过程，另外现在已经可以在Hadoop建立索引了。Google的反击是列出了最大的database installation和最大的MR installation，eBay的Greenplum和Teradata都只有不到100个nodes，而Yahoo和Facebook的有3600+和600+个nodes。这还是在09年的时候，现在的MR肯定要大很多。

这个课还剩两个编程作业，一个用R进行ml，很感兴趣，以前都是用matlab，还没见识过R的相关package。另外有两个optional assignments, 一个处理真实世界第三方的问题，另一个用Amazon的AWS处理1T的数据。两个peer assessments，一个用Tableau实现可视化，一个以kaggle competition的方式进行，都挺期待的。

posted @ 2013-05-17 21:12 Defightender 阅读(141) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Defightender

On the road to____ Data Scientist (*°▽°*)

公告

On the road to____ Data Scientist (°▽°)