2012年2月1日

《编程之美》第三章--结构之法

摘要: 字符串移位包含的问题若要判断s1=ABCDA是否通过循环移位包含字符串s2=CDAA,其实只需要判断字符串s1s1是否包含s2,一个小trick!相当于用空间换时间。电话号码对应英语单词手机上号码盘可以用来输入字母,如“2”可以输入A、B和C,这样给定一串数字,就可以通过循环给出这串数字所能表达的所有单词。书中主要介绍如何怎么遍历的问题,循环和递归两种方式。计算字符串的相似度对两个字符串进行修改、增加和删除操作,使之变得相同,通过此种方案计算它们的相似度。其实就是编辑距离啦~书中是以递归的形式进行的介绍,并且发现了递归程序中的重叠子问题,留给了读者后续完成---其实就是动态规划:-)从无头单链 阅读全文

posted @ 2012-02-01 11:28 darry 阅读(269) 评论(0) 推荐(0) 编辑

集体智慧编程(一)

摘要: 集体智慧(collective intelligence)编程第一章 集体智慧导言总而言之,集体智慧指为了创造新的想法,而将一群人的行为、偏好或思想组合在一起,而个体成员将被忽略。第二章 提供推荐如amazon的购物推荐系统。Collaborative filtering协同过滤:对一大群人进行搜索,从中找出与我们品味相似的一小群人。协同过滤始于David Goldberg 1992年的论文《Using collaborative filtering to weave an information tapestry》相似度评价体系: 1. 欧几里德距离:sim_distance = sqrt( 阅读全文

posted @ 2012-02-01 11:23 darry 阅读(376) 评论(0) 推荐(0) 编辑

Finding Deceptive Opinion Spam by Any Stretch of the Imagination (11 ACL)

摘要: 论文 Finding Deceptive Opinion Spam by Any Stretch of the Imagination(11 ACL)文章研究虚假的spam,第一个贡献就是标注了标准的虚假评论和真实评论各400篇,组成了800篇的gold-standard数据。数据的构造过程使用了AMT(Amazon Mechanical Turk),很严谨,很靠谱!作者是将spam识别看成一个二元分类问题,分别尝试了3种方法,并尝试了3种方法的融合(这个是第二个贡献)。第1种方法是通过文本的风格识别(Genre identification),特征是使用POS的频率;第2种方法是进行心理学的 阅读全文

posted @ 2012-02-01 11:20 darry 阅读(683) 评论(0) 推荐(0) 编辑

10年ACL,A Unified Graph Model for Sentence-based Opinion Retrieval

摘要: 论文 A Unified Graph Model for Sentence-based Opinion Retrieval (10 ACL, Binyang Li, Lanjun Zhou)文章的核心思想是提出了一种基于topic-sentiment word pair的结构进行句子级情感检索(个人理解其实就是评价搭配用到了情感检索上)。可以挖掘句内的target和opinion组成的pair,对于句间可以挖掘针对同一topic的不同opinion;最终使用一个无向图将两种信息融合起来。Introduction + Motivation(值得学习)以往的情感检索大多是2-stage的方法。第一 阅读全文

posted @ 2012-02-01 11:16 darry 阅读(311) 评论(0) 推荐(0) 编辑

导航