摘要:
转自:http://www.cnblogs.com/hadoopdev/p/3528616.html一、前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在... 阅读全文
摘要:
转自:http://www.aboutyun.com/thread-11139-1-1.html答案:首先,这个题考的不是分布式7位数,至少要用int来保存,那么int为4字节,20MB内存 10^7*4/1024*1024=38.14697265625至少需要38MB,显然7位的数字不能全部保存保... 阅读全文
摘要:
转自:http://dongxicheng.org/big-data/select-ten-from-billions/1. 问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎... 阅读全文
摘要:
转自:http://blog.csdn.net/v_JULY_v/article/details/6279498海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试... 阅读全文
摘要:
转自:http://rangerwolf.iteye.com/blog/2119096题外话:《Hadoop in Action》 是一本非常不错的交Hadoop的入门书,而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~进入正题。 这个题... 阅读全文
摘要:
转自:http://www.aboutyun.com/thread-8421-1-1.html问题导读1.什么是spark?2.spark编程模型是什么?3.spark运维需要具有什么知识?4.spark如何监控?5.如何搭建开发spark?2014-05-30 Spark1.0.0 Relaeas... 阅读全文
摘要:
转自:http://www.cnblogs.com/hseagle/p/3664933.html楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读... 阅读全文
摘要:
转自:http://www.cnblogs.com/shishanyuan/p/4699644.html这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再... 阅读全文
摘要:
转自:http://blog.csdn.net/zhongwen7710/article/details/41251779我们为什么要搭建该系统Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的... 阅读全文
摘要:
转自:http://www.aboutyun.com/thread-7598-1-1.htmlhive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。此篇内容较多:看完之后需要达到的目标1.hive是什么2.... 阅读全文