virus丶舒 - 博客园

2019年8月7日

摘要：题目说明：40亿个非负整数中找到没出现的数题目要求：最多使用1GB内存实现思路：32位无符号整数的范围是0～4294967295，现在有一个正好包含40亿个无符号整数的文件，所以在整个范围中必然有没出现过的数。可以使用最多1GB的内存，怎么找到所有没出现过的数？如果用整数数组来保存出现过的数，阅读全文

posted @ 2019-08-07 17:29 virus丶舒阅读(167) 评论(0) 推荐(0) 编辑

找到出现次数最多的数

摘要：题目说明有一个包含20亿个全是32位整数的大文件，在其中找到出现次数最多的数。题目要求内存限制为2GB。实现思路想要在很多整数中找到出现次数最多的数，通常的做法是使用哈希表对出现的每一个数做词频统计，哈希表的key是某一个整数，value是这个数出现的次数。就本题来说，一共有20亿个数，阅读全文

posted @ 2019-08-07 17:28 virus丶舒阅读(1287) 评论(0) 推荐(0) 编辑

BoomFilter应用:网页黑名单

摘要：题目说明不安全网页的黑名单包含100亿个黑名单网页，每个网页的URL最多占用64B。现在想要实现一种网页过滤系统，可以根据网页的URL判断该网页是否在黑名单上，请设计该系统。要求 1. 该系统允许有万分之一以下的判断失误率。 2. 使用的额外空间不要超过30GB。实现思路如果把黑名单中所有的阅读全文

posted @ 2019-08-07 17:20 virus丶舒阅读(315) 评论(0) 推荐(0) 编辑

BloomFilter

摘要：背景说明 Hash 函数在计算机领域，尤其是数据快速查找领域，加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面（这些小的数据集叫做哈希值，或者散列值）。 Hash table（散列表，也叫哈希表），是根据哈希值(Key value)而直接进行访问的数据结构。也就是说，它通过把哈希阅读全文

posted @ 2019-08-07 17:19 virus丶舒阅读(371) 评论(0) 推荐(0) 编辑

HBASE完全分布式安装

摘要：实现步骤 1.准备三台虚拟机，01作为主节点，02、03作为从节点。（把每台虚拟机防火墙都关掉，配置免密码登录，配置每台的主机名和hosts文件。） 2.01节点上安装和配置：Hadoop+Hbase+JDK+Zookeeper 3.02、03节点上安装和配置：Hbase+JDK+Zookeeper 阅读全文

posted @ 2019-08-07 17:16 virus丶舒阅读(142) 评论(0) 推荐(0) 编辑

行存储 VS 列存储

摘要：概述目前大数据存储有两种方案可供选择：行存储（Row-Based）和列存储（Column-Based）。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数阅读全文

posted @ 2019-08-07 17:15 virus丶舒阅读(561) 评论(0) 推荐(0) 编辑

HBASE单机安装

摘要：单机模式安装特点：不依赖于Hadoop的HDFS，配置完既可使用，好处是便于测试。坏处是不具备分布式存储数据的能力。安装配置 1.安装JDK及配置环境变量 2.上传解压Hbase安装包 3.修改Hbase的配置文件，（修改安装目录下的conf/hbase-site.xml）配置示例： <pro 阅读全文

posted @ 2019-08-07 17:15 virus丶舒阅读(125) 评论(0) 推荐(0) 编辑

Flume总览

摘要：阅读全文

posted @ 2019-08-07 17:05 virus丶舒阅读(133) 评论(0) 推荐(0) 编辑

Hadoop2.0 HA集群搭建步骤

摘要：安装步骤 0.永久关闭每台机器的防火墙执行：service iptables stop 再次执行：chkconfig iptables off 1.为每台机器配置主机名以及hosts文件配置主机名=》执行： vim /etc/sysconfig/network =》然后执行 hostname 主阅读全文

posted @ 2019-08-07 16:58 virus丶舒阅读(374) 评论(0) 推荐(0) 编辑

Hadoop2.0高可用集群搭建方案

摘要： Hadoop1.0版本的单点问题 Hadoop 的namenode好比人的心脏，非常重要，绝对不可以停止工作，在hadoop1,只有一个namenode,如果该namenode数据丢失或停止工作，整个集群就不能恢复了。 hadoop2比hadoop1改进的地方：①高可用的解决方案 hadoop2中，阅读全文

posted @ 2019-08-07 16:55 virus丶舒阅读(368) 评论(0) 推荐(0) 编辑

公告