intergret

2013年6月30日

摘要：人工神经网络的产生一定程度上受生物学的启发，因为生物的学习系统是由相互连接的神经元相互连接的神经元组成的复杂网络。而人工神经网络跟这个差不多，它是一系列简单的单元相互密集连接而成的。其中每个单元有一定数量的输入(可能是其他单元的输出)，并产生单一的实数值输出(可能成为其他单元的输入)。常见的人工神经网络结果如下图： (1) 网络由三部分组成，输入层、隐藏层和输出层，往往隐藏层只有1层或2层；... 阅读全文

posted @ 2013-06-30 21:05 intergret 阅读(1177) 评论(0) 推荐(0)

潜语义分析(Latent Semantic Analysis)

摘要： LSI(Latent semantic indexing, 潜语义索引）和LSA（Latent semantic analysis,潜语义分析）这两个名字其实是一回事。我们这里称为LSA。LSA源自问题：如何从搜索query中找到相关的文档?当我们试图通过比较词来找到相关的文本时，就很机械、存在一定的局限性。在搜索中，文档的相似性并不应该由两个文本包含的词直接决定，而是应该去比较隐藏在词之后的意义和概念。但传统向量空间模型使用精确的词匹配，即精确匹配用户输入的词与向量空间中存在的词。比如用户搜索“automobile”，即汽车，传统向量空间模型仅仅会返回包含“automobile”单词的页面，阅读全文

posted @ 2013-06-30 17:20 intergret 阅读(3929) 评论(1) 推荐(0)

2013年6月6日

基于LDA对关注的微博用户进行聚类

摘要：最近看了LDA以及文本聚类的一些方法，写在这里算是读书笔记。文章最后进行了一个小实验，通过爬取本人在微博上关注的人的微博，利用微博的内容，尝试将我关注的人按主题进行进行聚类。文本聚类就是把一个文本集分成一定数量的簇(Cluster)，使每个簇内的文本之间具有较大的相似性，而使簇间的文本具有较大的差异性。传统的文本聚类方法一般基于向量空间模型(vector space model): 在对文本集中的每个文本进行预处理(分词、停用词过滤等)、特征选择和权重计算之后，将文档集表示成一个高纬、稀疏的文档-词矩阵，进而使用K-Means、凝聚的层次聚类、DBSCAN等聚类方法对文档进行聚类。在特征选择选阅读全文

posted @ 2013-06-06 19:55 intergret 阅读(2022) 评论(5) 推荐(1)

2013年5月13日

Hadoop实例：二度人脉与好友推荐

摘要：在新浪微博、人人网等社交网站上，为了使用户在网络上认识更多的朋友，社交网站往往提供类似“你可能感兴趣的人”、“间接关注推荐”等好友推荐的功能。一直很好奇这个功能是怎么实现的。其实，社交网站上的各个用户以及用户之间的相互关注可以抽象为一个图。以下图为例：顶点A、B、C到I分别是社交网站的用户，两顶点之间的边表示两顶点代表的用户之间相互关注。那么如何根据用户之间相互关注所构成的图，来向每个用户推荐好友呢？可能大家都听说过六度人脉的说法，所谓六度人脉是指：地球上所有的人都可以通过五层以内的熟人链和任何其他人联系起来。通俗地讲：“你和任何一个陌生人之间所间隔的人不会超过六个，也就是说，最多... 阅读全文

posted @ 2013-05-13 15:26 intergret 阅读(896) 评论(0) 推荐(0)

公告