跳刀的兔子 - 博客园

2012年6月7日

摘要：在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧几里得距离(Euclidean distance)-EuclideanDistanceMeasure.‍相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致，通常需要先对各分量进行标准化，使其与单位无关，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能.. 阅读全文

posted @ 2012-06-07 15:23 跳刀的兔子阅读(10461) 评论(0) 推荐(0)

2012年5月10日

logistic回归基本理论

摘要：一、概念多重线性回归模型：应变量为区间（定量）变量，且理论上要求其服从正态分布等LINE（线性、独立、正态、等方差）假定条件。Logistic回归：与多重线性回归类似，区别在于：应变量的类型不同，通过一组预报变量（自变量），采用Logistic回归，可以预测一个分类变量每一类发生的概率。应变量为分类变量，预报变量可以是区间变量、分类变量或区间和分类变量的混合。如果自变量均为区间变量也可以采用判别分析等方法进行分析。分类变量分为：有序分类变量（即有序多项分类变量）和无序分类变量(也称为名义变量)。无序分类变量分为二项分类变量和无序多项分类变量。例子：有效和无效（二项分类变量），很不满意、不满意、阅读全文

posted @ 2012-05-10 16:36 跳刀的兔子阅读(770) 评论(0) 推荐(1)

因子分析基本理论

摘要：一、主成分分析的几何意义(降维)：假定数据点是六维的；也就是说，每个观测值是 6 维空间中的一个点。我们希望把 6 维空间用低维空间表示。先假定只有二维，即只有两个变量，它们由横坐标和纵坐标所代表；因此每个观测值都有相应于这两个坐标轴的两个坐标值；如果这些数据形成一个椭圆形状的点阵（这在变量的二维正态的假定下是可能的），那么这个椭圆有一个长轴和一个短轴。在短轴方向上，数据变化很少；在极端的情况，短轴如果退化成一点，那只有在长轴的方向才能够解释这些点的变化了；这样，由二维到一维的降维就自然完成了。当坐标轴和椭圆的长短轴平行，那么代表长轴的变量就描述了数据的主要变化，而代表短轴的变量就... 阅读全文

posted @ 2012-05-10 00:34 跳刀的兔子阅读(7928) 评论(0) 推荐(0)

2012年5月8日

Apache Mahout 简介

摘要：在信息时代，公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息，还是从海量博客文章中推测用户的意图，都需要使用一些工具来组织和增强数据。这其中就蕴含着机器学习领域以及本文章所介绍项目的前景：Apache Mahout（见参考资料）。机器学习是人工智能的一个分支，它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数据挖掘密切相关，并且经常需要使用各种技巧，包括统计学、概率论和模式识别等。虽然机器学习并不是一个新兴领域，但它的发展速度是毋庸置疑的。许多大型公司，包括 IBM®、Google、Amazon、Yahoo 阅读全文

posted @ 2012-05-08 01:28 跳刀的兔子阅读(2009) 评论(0) 推荐(1)

2012年5月7日

Mahout聚类分析

摘要：聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为，即所谓“物以类聚，人以群分”，核心的思想也就是聚类。人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人。同时，聚类分析已经广泛的应用在许多应用中，包括模式识别，数据分析，图像处理以及市场研究。通过聚类，人们能意识到密集和稀疏的区域，发现全局的分布模式，以及数据属性阅读全文

posted @ 2012-05-07 23:56 跳刀的兔子阅读(8555) 评论(0) 推荐(1)

Mahout算法集

摘要：在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Machines有限波尔兹曼机聚类算法Canopy ClusteringCanopy聚类K-means ClusteringK均值算法Fuzzy K-means模糊K均值Expectation MaximizationEM聚类（期望最大化聚类）Mean Shift Clustering均值漂移聚类Hiera 阅读全文

posted @ 2012-05-07 23:54 跳刀的兔子阅读(4060) 评论(0) 推荐(1)

主成分和因子分析

摘要：一、主成分分析概述：是否可以用较少的几个相互独立的指标代替原来的多个指标，使其既能减少指标个数，又能综合反映其原指标的信息？主成分分析结解决这个问题。有些变量不能或不易直接观察，他们只能通过其他多个可观察指标来间接反映。主成分分析：基本思想降维，将多个相互关联的数值指标转化为少数几个互不相关的综合指标，综合后的指标就是原来多指标的主要成分。举例：两个指标x1(年龄)和x2(身高)，x1和x2呈线性正相关，将该直线作为新坐标系的横轴z1，取一条与z1垂直的纵轴z2。在新坐标系中，n个点不再呈线性相关，即z1和z2两个新变量互相独立，且变异主要集中在z1方向，说明z1的方差较大，z2的方差较小。如阅读全文

posted @ 2012-05-07 22:06 跳刀的兔子阅读(4634) 评论(0) 推荐(0)

Annotated Hadoop: 第一节 Hadoop是什么

摘要： Hadoop原来是ApacheLucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点：1扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。2成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。3高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。4可靠性阅读全文

posted @ 2012-05-07 14:59 跳刀的兔子阅读(278) 评论(0) 推荐(0)

Annotated Hadoop: 第二节 MapReduce框架结构

摘要： 2MapReduce框架结构Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programming model），是一个用于处理和生成大规模数据集（processing and generating large data sets）的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中阅读全文

posted @ 2012-05-07 14:59 跳刀的兔子阅读(982) 评论(0) 推荐(0)

Hadoop分布式文件系统：架构和设计要点

摘要：原文：http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑数以千万计的文件。4、HDFS应用对文阅读全文

posted @ 2012-05-07 14:58 跳刀的兔子阅读(215) 评论(0) 推荐(0)