Mengdong的技术博客

学习,记录,分享

导航

2011年7月14日 #

《集体智慧编程》第3章:浅谈文档聚类

摘要: 1 前言这篇读书笔记根据《集体智慧编程》第3章:聚类写成。本系列目录:http://www.cnblogs.com/mdyang/archive/2011/07/07/PCI-contents.html本文先对监督学习和无监督学习的概念进行简要介绍,引出聚类。然后给出聚类的一个经典问题:文档聚类的描述,并介绍构造特征向量和计算向量之间距离/相似度的方法。在此基础上给出使用两种基本聚类算法(层次聚类、K均值聚类)解决文档聚类问题的解法。2 监督学习与无监督学习简单地说,监督学习就是需要输入正确样例进行预训练的学习。预训练可以理解为告诉程序“怎么做”的过程。监督学习,例如神经网络、决策树、支持向量 阅读全文

posted @ 2011-07-14 17:41 mdyang 阅读(3036) 评论(1) 推荐(1) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章:MapReduce算法设计(2)

摘要: 本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.2 对(pairs)与带(stripes)本节用一个自然语言处理(Natural Language Processing, NLP)中的常见示例来说明pair和stripe两种数据组织模式的区别。这个示例是共现矩阵(Co-occurance Matrix)的计算。共现矩阵在NLP中,共现矩阵是一个n×n的方阵,n是所需处理的语料中的单词数(不同单词 阅读全文

posted @ 2011-07-14 10:49 mdyang 阅读(2168) 评论(2) 推荐(0) 编辑