2011 年 7月 14 日随笔档案 - mdyang

2011年7月14日 #

《集体智慧编程》第3章：浅谈文档聚类

摘要： 1 前言这篇读书笔记根据《集体智慧编程》第3章：聚类写成。本系列目录：http://www.cnblogs.com/mdyang/archive/2011/07/07/PCI-contents.html本文先对监督学习和无监督学习的概念进行简要介绍，引出聚类。然后给出聚类的一个经典问题：文档聚类的描述，并介绍构造特征向量和计算向量之间距离/相似度的方法。在此基础上给出使用两种基本聚类算法（层次聚类、K均值聚类）解决文档聚类问题的解法。2 监督学习与无监督学习简单地说，监督学习就是需要输入正确样例进行预训练的学习。预训练可以理解为告诉程序“怎么做”的过程。监督学习，例如神经网络、决策树、支持向量阅读全文

posted @ 2011-07-14 17:41 mdyang 阅读(3036) 评论(1) 推荐(1) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(2)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.2 对（pairs）与带（stripes）本节用一个自然语言处理（Natural Language Processing, NLP）中的常见示例来说明pair和stripe两种数据组织模式的区别。这个示例是共现矩阵（Co-occurance Matrix）的计算。共现矩阵在NLP中，共现矩阵是一个n×n的方阵，n是所需处理的语料中的单词数（不同单词阅读全文

posted @ 2011-07-14 10:49 mdyang 阅读(2168) 评论(2) 推荐(0) 编辑

Mengdong的技术博客

导航

公告

《集体智慧编程》第3章：浅谈文档聚类

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(2)