摘要:
Block Cache HBase提供了两种不同的BlockCache实现,用于缓存从HDFS读出的数据。这两种分别为: 默认的,存在于堆内存的(on-heap)LruBlockCache 存在堆外内存的(off-heap)BucketCache 下面我们会讨论每种方法的优点和缺点、如何对两种方式做 阅读全文
摘要:
Minor GC vs Major GC vs Full GC 垃圾回收的活动会清理对内存中的不同区域,这些事件一般被称为Minor,Major以及Full GC events。本章我们会讨论这些清理事件的不同之处,当然,这些差别对我们来说并不是最重要的。 通常来说,对我们更有意义的是:应用是否满足 阅读全文
摘要:
什么是垃圾回收? 垃圾回收是追踪所有正在被使用的对象,并标注剩余的为garbage。这里我们先从JVM的GC是如何实现的说起。 手动内存管理 在开始介绍垃圾回收之前,我们先复习一下手动内存管理。它是指你需要明确的为你的数据手动分配需要的空闲内存,但是如果用完后忘了free 掉这些内存,则之后也无法再 阅读全文
摘要:
Region 各个状态的转换 HBase 维护了每个 region 的一个状态信息,并保存在 hbase:meta 中。hbase:meta 本身region的状态信息被持久化到 ZooKeeper。也可以在 HBase Master Web UI 里查看到 regions 的转换状态。以下是一个 阅读全文
摘要:
HBase Architectural Components HBase 的主从结构主要由三部分组成。Region Server 用于服务数据的读写,当访问数据时,客户端直接与 HBase RegionServer 交互。Region 的分配(region assignment),DDL(creat 阅读全文
摘要:
8. 过滤噪声边 在当前的伴生关系中,边的权重是基于一对概念同时出现在一篇论文中的频率来计算的。这种简单的权重机制的问题在于:它并没有对一对概念同时出现的原因加以区分,有时一对概念同时出现是由于它们具有某种值得我们关注的语义关系,但有时一对概念同时出现只是因为都频繁地出现在所有文档中,同时出现只是碰 阅读全文
摘要:
1. 图论与GraphX 图论是一个数学学科,研究一组实体(称为顶点)之间两两关系(称为边)的特点。通过构建关系图谱,并对关系进行分析,可以实现更好的投放广告,推荐关系等。随着关系图谱越来越强大,计算量也越来越大,于是不断有新的并行图处理框架被开发出来。如谷歌的Pregel、雅虎的 Giraph 和 阅读全文
摘要:
1. 决策树和决策森林 决策树算法家族能自然地处理类别型和数值型特征 决策树算法容易并行化 它们对数据中的离群点(outlier)具有鲁棒性(robust),这意味着一些极端或可能错误的数据点根本不会对预测产生影响 2. Covtype数据集 https://archive.ics.uci.edu/ 阅读全文
摘要:
1. Audioscrobbler数据集 数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首Prince 的歌 阅读全文
摘要:
1. 问题描述 记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体。 每个实体有若干个属性,比如姓名、地址、生日。我们需要根据这些属性找到那些代表相同实体的记录。 不幸的是,有些属性值有问题:格式不一致,或有笔误,或信息缺失。如果简单 阅读全文