摘要:
本文章只针对“微型集群处理大数据”的场景。场景描述:硬件:5个节点,每个节点可用硬盘1块(700G、500G等)、8核cpu,实验室环境(有时候还要跑其他程序跟你抢占资源),16G内存。软件:hadoop-0.20.2-cdh3u2,hbase-0.90.4-cdh3u2。业务:sina微博12亿转发微博,700w用户信息。bzip压缩后共150G。要求就是将这些数据入库并且恢复关注和粉丝列表,建立userId与昵称映射,找出Message的转发关系等等。上述业务实际上比描述的复杂,后续需要做各种分析,再次略去,只说明一下跟入库效率相关的影响因素:1.批量导入数据,需要入库一定要均衡2.恢复关 阅读全文
摘要:
已经排好序了,所以我们可以借此同时对三个数组进行搜索来找到共同元素下面是java实现代码:import java.util.HashSet;import java.util.Set;public class threeListComm { /** * 3 soted array, find common elements */ static int [] a = {1,3,4,5,6,7,9}; static int [] b = {1,5,8,9,11}; static int [] c = {2,3,5,6}; static Set<Integer> s = new HashS 阅读全文