摘要:
阅读全文
摘要:
阅读全文
摘要:
在Hadoop中实现全排序有如下三种方法: 1. 只使用一个reducer 2. 自定义partitioner 3. 使用TotalOrderPartitioner 其中第一种方法显然违背了mapreduce分布式编程的初衷,在数据量大的情况下并不适用。第二种方法的问题在于开发人员需要预先知道输入数 阅读全文
摘要:
配置环境: 两台centos 6.4虚拟机,/etc/hosts配置如下 192.168.63.128 hadoop001 --master192.168.63.131 hadoop002 --slave 步骤(以直接使用root用户为例): 1. 在master上生成ssh密钥,一路回车即可 我们 阅读全文
摘要:
概述 本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型。新旧API主要区别在于新API(org.apache.hadoop.mapreduce)将原来的旧API(org.apache.hadoop.mapred)中的接口转换为了抽象类。 Ma 阅读全文
摘要:
package DecisionTree; import java.io.*; import java.util.*; public class ID3 { //节点类 public class DTNode { private String attribute; private HashMap<S 阅读全文
摘要:
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系。输入没有标签的新数据之后,将新数据的每个特征和样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签作为 阅读全文
摘要:
此文摘录自《数据仓库工具箱:维度建模的完全指南》 Mistake 10: Place text attributes used for constraining and grouping in a fact table. The process of creating a dimensional m 阅读全文