摘要: 题目说明:40亿个非负整数中找到没出现的数 题目要求:最多使用1GB内存 实现思路:32位无符号整数的范围是0~4294967295,现在有一个正好包含40亿个无符号整数的文件,所以在整个范围中必然有没出现过的数。可以使用最多1GB的内存,怎么找到所有没出现过的数? 如果用整数数组来保存出现过的数, 阅读全文
posted @ 2019-08-07 17:29 virus丶舒 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 题目说明 有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数。 题目要求 内存限制为2GB。 实现思路 想要在很多整数中找到出现次数最多的数,通常的做法是使用哈希表对出现的每 一个数做词频统计,哈希表的key是某一个整数,value是这个数出现的次数。就本题来说,一共有20亿个数, 阅读全文
posted @ 2019-08-07 17:28 virus丶舒 阅读(1287) 评论(0) 推荐(0) 编辑
摘要: 题目说明 不安全网页的黑名单包含100亿个黑名单网页,每个网页的URL最多占用64B。现在想要实现一种网页过滤系统,可以根据网页的URL判断该网页是否在黑名单上,请设计该系统。 要求 1. 该系统允许有万分之一以下的判断失误率。 2. 使用的额外空间不要超过30GB。 实现思路 如果把黑名单中所有的 阅读全文
posted @ 2019-08-07 17:20 virus丶舒 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 背景说明 Hash 函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。 其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。 Hash table(散列表,也叫哈希表),是根据哈希值(Key value)而直接进行访问的数据结构。也就是说,它通过把哈希 阅读全文
posted @ 2019-08-07 17:19 virus丶舒 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 实现步骤 1.准备三台虚拟机,01作为主节点,02、03作为从节点。(把每台虚拟机防火墙都关掉,配置免密码登录,配置每台的主机名和hosts文件。) 2.01节点上安装和配置:Hadoop+Hbase+JDK+Zookeeper 3.02、03节点上安装和配置:Hbase+JDK+Zookeeper 阅读全文
posted @ 2019-08-07 17:16 virus丶舒 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 概述 目前大数据存储有两种方案可供选择:行存储(Row-Based)和列存储(Column-Based)。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数 阅读全文
posted @ 2019-08-07 17:15 virus丶舒 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 单机模式安装 特点:不依赖于Hadoop的HDFS,配置完既可使用,好处是便于测试。坏处是不具备分布式存储数据的能力。 安装配置 1.安装JDK及配置环境变量 2.上传解压Hbase安装包 3.修改Hbase的配置文件,(修改安装目录下的conf/hbase-site.xml) 配置示例: <pro 阅读全文
posted @ 2019-08-07 17:15 virus丶舒 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-07 17:05 virus丶舒 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 安装步骤 0.永久关闭每台机器的防火墙 执行:service iptables stop 再次执行:chkconfig iptables off 1.为每台机器配置主机名以及hosts文件 配置主机名=》执行: vim /etc/sysconfig/network =》然后执行 hostname 主 阅读全文
posted @ 2019-08-07 16:58 virus丶舒 阅读(374) 评论(0) 推荐(0) 编辑
摘要: Hadoop1.0版本的单点问题 Hadoop 的namenode好比人的心脏,非常重要,绝对不可以停止工作,在hadoop1,只有一个namenode,如果该namenode数据丢失或停止工作,整个集群就不能恢复了。 hadoop2比hadoop1改进的地方:①高可用的解决方案 hadoop2中, 阅读全文
posted @ 2019-08-07 16:55 virus丶舒 阅读(368) 评论(0) 推荐(0) 编辑