2012 年 5月 7 日随笔档案 - 跳刀的兔子

2012年5月7日

摘要：聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为，即所谓“物以类聚，人以群分”，核心的思想也就是聚类。人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人。同时，聚类分析已经广泛的应用在许多应用中，包括模式识别，数据分析，图像处理以及市场研究。通过聚类，人们能意识到密集和稀疏的区域，发现全局的分布模式，以及数据属性阅读全文

posted @ 2012-05-07 23:56 跳刀的兔子阅读(8524) 评论(0) 推荐(1) 编辑

Mahout算法集

摘要：在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Machines有限波尔兹曼机聚类算法Canopy ClusteringCanopy聚类K-means ClusteringK均值算法Fuzzy K-means模糊K均值Expectation MaximizationEM聚类（期望最大化聚类）Mean Shift Clustering均值漂移聚类Hiera 阅读全文

posted @ 2012-05-07 23:54 跳刀的兔子阅读(4060) 评论(0) 推荐(1) 编辑

主成分和因子分析

摘要：一、主成分分析概述：是否可以用较少的几个相互独立的指标代替原来的多个指标，使其既能减少指标个数，又能综合反映其原指标的信息？主成分分析结解决这个问题。有些变量不能或不易直接观察，他们只能通过其他多个可观察指标来间接反映。主成分分析：基本思想降维，将多个相互关联的数值指标转化为少数几个互不相关的综合指标，综合后的指标就是原来多指标的主要成分。举例：两个指标x1(年龄)和x2(身高)，x1和x2呈线性正相关，将该直线作为新坐标系的横轴z1，取一条与z1垂直的纵轴z2。在新坐标系中，n个点不再呈线性相关，即z1和z2两个新变量互相独立，且变异主要集中在z1方向，说明z1的方差较大，z2的方差较小。如阅读全文

posted @ 2012-05-07 22:06 跳刀的兔子阅读(4369) 评论(0) 推荐(0) 编辑

Annotated Hadoop: 第一节 Hadoop是什么

摘要： Hadoop原来是ApacheLucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点：1扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。2成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。3高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。4可靠性阅读全文

posted @ 2012-05-07 14:59 跳刀的兔子阅读(276) 评论(0) 推荐(0) 编辑

Annotated Hadoop: 第二节 MapReduce框架结构

摘要： 2MapReduce框架结构Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programming model），是一个用于处理和生成大规模数据集（processing and generating large data sets）的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中阅读全文

posted @ 2012-05-07 14:59 跳刀的兔子阅读(966) 评论(0) 推荐(0) 编辑

Hadoop分布式文件系统：架构和设计要点

摘要：原文：http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑数以千万计的文件。4、HDFS应用对文阅读全文

posted @ 2012-05-07 14:58 跳刀的兔子阅读(203) 评论(0) 推荐(0) 编辑

Hadoop安装部署

摘要：写的很好，对于第一次部署可以省去很多时间。以下为原文内容：本文主要是以安装和使用hadoop-0.12.0为例，指出在部署Hadoop的时候容易遇到的问题以及如何解决。硬件环境共有3台机器，均使用的FC5系统，Java使用的是jdk1.6.0。IP配置如下：dbrg-1：202.197.18.72dbrg-2：202.197.18.73dbrg-3：202.197.18.74这里有一点需要强调的就是，务必要确保每台机器的主机名和IP地址之间能正确解析。一个很简单的测试办法就是ping一下主机名，比如在dbrg-1上ping dbrg-2，如果能ping通就OK！若不能正确解析，可以修改/etc 阅读全文

posted @ 2012-05-07 14:56 跳刀的兔子阅读(262) 评论(0) 推荐(0) 编辑