五三中 - 博客园

2015年11月29日

摘要：转自：http://www.cnblogs.com/hadoopdev/p/3528616.html一、前言：非常感谢Hadoop专业解决方案群：313702010，兄弟们的大力支持，在此说一声辛苦了，经过两周的努力，已经有啦初步的成果，目前第1章大数据和Hadoop生态圈小组已经翻译完成，在... 阅读全文

posted @ 2015-11-29 00:58 五三中阅读(852) 评论(0) 推荐(0)

2015年11月25日

5G的7位电话号码，去重，内存20mb，代码实现。

摘要：转自：http://www.aboutyun.com/thread-11139-1-1.html答案：首先，这个题考的不是分布式7位数，至少要用int来保存，那么int为4字节，20MB内存 10^7*4/1024*1024=38.14697265625至少需要38MB，显然7位的数字不能全部保存保... 阅读全文

posted @ 2015-11-25 23:58 五三中阅读(1006) 评论(0) 推荐(0)

怎样从10亿查询词找出出现频率最高的10个

摘要：转自：http://dongxicheng.org/big-data/select-ten-from-billions/1．问题描述在大规模数据处理中，常遇到的一类问题是，在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常称为“top K”问题，如：在搜索引擎... 阅读全文

posted @ 2015-11-25 23:57 五三中阅读(3006) 评论(0) 推荐(0)

十道海量数据处理面试题与十个方法大总结

摘要：转自：http://blog.csdn.net/v_JULY_v/article/details/6279498海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试... 阅读全文

posted @ 2015-11-25 23:51 五三中阅读(265) 评论(0) 推荐(0)

TopK的一个简单实现

摘要：转自：http://rangerwolf.iteye.com/blog/2119096题外话：《Hadoop in Action》是一本非常不错的交Hadoop的入门书，而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~进入正题。这个题... 阅读全文

posted @ 2015-11-25 22:55 五三中阅读(434) 评论(0) 推荐(0)

Spark1.0.0 学习路线指导

摘要：转自：http://www.aboutyun.com/thread-8421-1-1.html问题导读1.什么是spark？2.spark编程模型是什么？3.spark运维需要具有什么知识？4.spark如何监控？5.如何搭建开发spark?2014-05-30 Spark1.0.0 Relaeas... 阅读全文

posted @ 2015-11-25 15:00 五三中阅读(249) 评论(0) 推荐(0)

Apache Spark源码走读之1 -- Spark论文阅读笔记

摘要：转自：http://www.cnblogs.com/hseagle/p/3664933.html楔子源码阅读是一件非常容易的事，也是一件非常难的事。容易的是代码就在那里，一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计，设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读... 阅读全文

posted @ 2015-11-25 09:45 五三中阅读(410) 评论(0) 推荐(0)

2015年11月24日

倾情大奉送--Spark入门实战系列

摘要：转自：http://www.cnblogs.com/shishanyuan/p/4699644.html这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再... 阅读全文

posted @ 2015-11-24 23:33 五三中阅读(249) 评论(0) 推荐(0)

2015年11月20日

分布式发布订阅消息系统 Kafka 架构设计

摘要：转自：http://blog.csdn.net/zhongwen7710/article/details/41251779我们为什么要搭建该系统Kafka是一个消息系统，原本开发自LinkedIn，用作LinkedIn的活动流（activity stream）和运营数据处理管道（pipeline）的... 阅读全文

posted @ 2015-11-20 12:15 五三中阅读(2780) 评论(0) 推荐(0)

2015年11月19日

hive入门学习线路指导

摘要：转自：http://www.aboutyun.com/thread-7598-1-1.htmlhive被大多数企业使用，学习它，利于自己掌握企业所使用的技术，这里从安装使用到概念、原理及如何使用遇到的问题，来讲解hive，希望对大家有所帮助。此篇内容较多：看完之后需要达到的目标1.hive是什么2.... 阅读全文

posted @ 2015-11-19 01:18 五三中阅读(510) 评论(0) 推荐(0)

cxzdy

公告