摘要: 阅读全文
posted @ 2016-04-20 10:37 finalboss1987 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-04-08 11:00 finalboss1987 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 在Hadoop中实现全排序有如下三种方法: 1. 只使用一个reducer 2. 自定义partitioner 3. 使用TotalOrderPartitioner 其中第一种方法显然违背了mapreduce分布式编程的初衷,在数据量大的情况下并不适用。第二种方法的问题在于开发人员需要预先知道输入数 阅读全文
posted @ 2016-03-30 14:40 finalboss1987 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 配置环境: 两台centos 6.4虚拟机,/etc/hosts配置如下 192.168.63.128 hadoop001 --master192.168.63.131 hadoop002 --slave 步骤(以直接使用root用户为例): 1. 在master上生成ssh密钥,一路回车即可 我们 阅读全文
posted @ 2016-03-28 11:12 finalboss1987 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 本文给出一个实现MapReduce二次排序的例子 阅读全文
posted @ 2016-03-24 14:38 finalboss1987 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 本文给出使用Java字节流实现文件拷贝的例子 阅读全文
posted @ 2016-03-24 14:36 finalboss1987 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 概述 本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型。新旧API主要区别在于新API(org.apache.hadoop.mapreduce)将原来的旧API(org.apache.hadoop.mapred)中的接口转换为了抽象类。 Ma 阅读全文
posted @ 2016-03-17 16:41 finalboss1987 阅读(327) 评论(0) 推荐(0) 编辑
摘要: package DecisionTree; import java.io.*; import java.util.*; public class ID3 { //节点类 public class DTNode { private String attribute; private HashMap<S 阅读全文
posted @ 2016-03-10 15:42 finalboss1987 阅读(463) 评论(0) 推荐(0) 编辑
摘要: k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系。输入没有标签的新数据之后,将新数据的每个特征和样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签作为 阅读全文
posted @ 2016-03-03 10:00 finalboss1987 阅读(2337) 评论(0) 推荐(0) 编辑
摘要: 此文摘录自《数据仓库工具箱:维度建模的完全指南》 Mistake 10: Place text attributes used for constraining and grouping in a fact table. The process of creating a dimensional m 阅读全文
posted @ 2016-02-24 13:48 finalboss1987 阅读(363) 评论(0) 推荐(0) 编辑