大数据处理 - 随笔分类 - 夏至冬末

深入解析：分布式系统的事务处理经典问题及模型(转载分享)

摘要：摘要：分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型，如：Master-Slave，Master-Master，2PC/3PC，经典的将军问题，Paxos，以及Dynamo的NRW和VectorClock的模型。编者按：数据服务的高可用是所有企业都想拥有... 阅读全文

posted @ 2014-01-21 15:22 夏至冬末阅读(398) 评论(0) 推荐(0)

Storm集群安装详解

摘要：storm有两种操作模式: 本地模式和远程模式。本地模式：你可以在你的本地机器上开发测试你的topology，一切都在你的本地机器上模拟出来;远端模式：你提交的topology会在一个集群的机器上执行。本文以Twitter Storm官方Wiki为基础，详细描述如何快速搭建一个Storm集群，其中... 阅读全文

posted @ 2013-07-25 19:58 夏至冬末阅读(978) 评论(0) 推荐(0)

6个用于大数据分析的最好工具

摘要：大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型... 阅读全文

posted @ 2013-07-01 00:09 夏至冬末阅读(358) 评论(0) 推荐(0)

用Redis bitmap统计活跃用户、留存

摘要：Spool的开发者博客，描述了Spool利用Redis的bitmaps相关的操作，进行网站活跃用户统计工作。原文：http://blog.getspool.com/2011/11/29/fast-easy-realtime-metrics-using-redis-bitmaps/ Red... 阅读全文

posted @ 2013-06-27 21:05 夏至冬末阅读(831) 评论(0) 推荐(0)

使用Storm实现实时大数据分析

摘要：摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了，Storm让大数据分析变得轻松加愉快。当... 阅读全文

posted @ 2012-12-31 10:12 夏至冬末阅读(210) 评论(0) 推荐(0)

大数据计算：如何仅用1.5KB内存为十亿对象计数

摘要：Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm), from Clearspring, ... 阅读全文

posted @ 2012-12-25 18:58 夏至冬末阅读(448) 评论(0) 推荐(0)

Trie树：应用于统计和排序

摘要：1. 什么是trie树 1.Trie树（特例结构树） Trie树，又称单词查找树、字典树，是一种树形结构，是一种哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比... 阅读全文

posted @ 2012-10-31 17:08 夏至冬末阅读(242) 评论(0) 推荐(0)

海量数据处理算法—Bit-Map

摘要：1. Bit Map算法简介来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。2、 Bit Map的基本思想我们先来看一个具体的例子，假设我们要对0-7内的... 阅读全文

posted @ 2012-08-21 16:14 夏至冬末阅读(265) 评论(0) 推荐(0)

海量数据处理算法—Bloom Filter

摘要：1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是... 阅读全文

posted @ 2012-08-14 18:40 夏至冬末阅读(239) 评论(0) 推荐(0)

海量数据处理算法总结

摘要：前面我们说海量数据处理提到，从算法的角度去考虑处理海量数据。1. Bloom Filter【Bloom Filter】Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。... 阅读全文

posted @ 2012-08-14 16:52 夏至冬末阅读(225) 评论(0) 推荐(0)

海量数据处理

摘要：海量数据处理是基于海量数据上的存储、处理、操作。所谓海量，就是数据量很大，可能是TB级别甚至是PB级别，导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据，我们想到的最简单方法即是分治法，即分开处理，大而化小，小而治之。我们也可以想到集群分布式处理。1 海量数据的存储：为大... 阅读全文

posted @ 2012-08-11 11:55 夏至冬末阅读(337) 评论(0) 推荐(0)

大数据下的数据分析平台架构

摘要：摘要：Admaster数据挖掘总监随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求。随着互联网、移动互联网和物联网的发展，谁也无法否认，我... 阅读全文

posted @ 2011-12-27 16:18 夏至冬末阅读(182) 评论(0) 推荐(0)

随笔分类 - 大数据处理