2012年8月22日

摘要: 1、从问题本身上来看,很容易认为这是一道很简单的0-1整数规划问题。其模型很好得到。三个约束条件,一个目标方程,最终要求解得到的是一个51*51的0-1矩阵,使面包的整体烘焙时间最短。约束条件为:一同烘焙的面包完成时间相差必须在5分钟内,面包箱的体积为40,51个面包都必须烘焙。2、而事实上,这道题并不简单。最开始以为他是一个背包问题的扩展,体积对应背包的容积,时间对于背包物品的价值。不过,这里的时间不累加,而是取其最大。但是后来我发现这样想是我太单纯了。。。。因为这个问题在求取最优中也包含了分组问题,是一个NP难问题,如果我们穷举所有可能性,这可是n的n次方啊,当然经过一些化简和减枝后,复杂 阅读全文
posted @ 2012-08-22 19:45 Vanior 阅读(492) 评论(0) 推荐(0) 编辑

2012年7月31日

摘要: 1、作者认为,一篇文章的被引用情况可以反映此文章的影响力,所以他产生的文摘是基于影响力的,他的模型在训练时,是使用了原始文本和文本的引用句子作为数据集,但是最终抽取句子形成文摘,缺是只从原始文本中抽取,引用句子的影响度用原文来表示(这也就是为什么他要寻找分布最相似的)。2、他不用引用句子的原因是,引用句子大多会夹杂一些其他非我们关注的信息。3、这里面他建立的一个语言语言模型。不同的是,它是以一个句子为单位。在这,这里他看的不是句子的频率(有词频得到),而是句子的影响力(这也是一个概率)。3、他建立了两个语言模型,一个是针对整个样本集(原文,和Citation窗口句子),一个则是针对备选句子。然 阅读全文
posted @ 2012-07-31 22:00 Vanior 阅读(253) 评论(0) 推荐(0) 编辑

2012年7月15日

摘要: 1、在进行关键词搜索的时候,如何分词,我们不可能用语料库进行匹配,已没有语料可以学习。2、关于转折点的寻找。目前我们使用高级搜索,从当前时间往前推,根据搜索到微博的条数变化,确定时间发生具体时间(天),在二分寻找发展时间的具体小时,对此小时的搜索结果按发布时间进行排序。3、对于相似结果。新浪会将相似结果进行合并,导致搜索结果信息的丢失,我们还木有具体搞清楚他的合并规则,是否需要将所有信息展开。4、对于微博事件的关键词的演变该如何处理,现在,如从“青山爆炸”到“青山氯气泄漏”到“武钢爆炸”等等,搜索关键词只能得到一组关键词的结果,如何得到后续的关键词,通过词频统计的话,必然会造成噪声点过多,即使 阅读全文
posted @ 2012-07-15 20:20 Vanior 阅读(219) 评论(0) 推荐(0) 编辑

2012年7月6日

摘要: 当我们要建立贝叶斯网络时,需要首先通过因果关系得到贝叶斯的网络结构,再训练得到贝叶斯网的参数集。这里,参数集往往是通过给定数据集进行统计计算得到,但是,有的时候,给定的数据集不一定是完整的,可能某一条或多条的数据缺失一个或两个数据。这是需要我们在数据缺失的情况下计算参数集,当然最简单的方法是去掉具有缺失数据的行,这样显然在数据集较小的时候会造成参数集的严重不准确。在贝叶斯引论那本书中提到要用EM算法来解决这个问题。其实EM算法就是最大化期望值算法,这个过程中我们计算在某随机参数情况下的最大似然值,然后根据此似然值对参数值进行了修正,再次计算极大似然值,不断迭代,知道计算得到的值在可接受的阀值范 阅读全文
posted @ 2012-07-06 20:48 Vanior 阅读(4054) 评论(2) 推荐(0) 编辑

2012年7月3日

摘要: 这篇文章也是关于aspect的,他基于aspect在连贯性上做了突破。1、他认为现在大部分的文摘系统对于获取关键信息都是采用的统计的方法,但是当我们要获取某些特定信息时这种方法并不奏效,比如让我要知道一场灾难的原因,很多描述原因的句子中并不一定会出现cause这个词,这时统计便可能会漏掉这些重要信息。因此就出现aspect了撒~~2、aspect分为verb aspect 和products aspect。3、此论文生成的文摘的特点:a、侧重于用户需求。b、文摘连贯(这里的连贯指的是内容上的连贯,不是表法方式上的连贯)。4、对于基于aspect的文摘,他觉得用以往的监督或者无监督的学习算法,聚 阅读全文
posted @ 2012-07-03 14:52 Vanior 阅读(188) 评论(0) 推荐(0) 编辑

2012年7月2日

摘要: 需求:在微博中找到一个发布某条消息的人。问题分析:在微博中通过关键词搜索信息时,得到的信息只显示最近1000条,至于他是不是真的是最近我的我也不知道。这样的话,我们并不能得到最原始的那条微博。现在的想法:1、微博中的高级搜索可以设定时间段和是否为原创帖。时间段以天为单位,最原始的微博一定是原创。通过这两个信息,可以缩短我们的搜索范围,并锁定原始微博的一个时间范围。2、以一个句子作为关键词进行搜索(比如一些很热的门事件),然后对搜索得到的结果与原始搜索句计算相似度,进行打分。选择相似度较高的句子作为二次搜索的搜索句。进行迭代搜索。3、这里,对于句子想速度的计算,他不像自动文摘那样篇幅很长信息很多 阅读全文
posted @ 2012-07-02 23:06 Vanior 阅读(785) 评论(0) 推荐(0) 编辑

2012年6月28日

摘要: 这篇文章明天要开会讨论,还是先看吧。。1、文章讨论的是基于话题的多文档文摘,作者首先借助LDA主题模型对句子进行聚类,然后使用LexRank算法对各个聚簇中的句子进行排序,最后应用线性判选取句子。这里面比较特别的是,他在对句子进行打分以后,对于候选句子进行一次修剪工作,并且他用的不是句子语法树,而是对这个方法进行了一些细致的改进。2、文章的三个功能:a、相似意义语句的聚簇。b、基于随机游走模型的句子排序(LexRank不懂)c、提出一种新的句子压缩算法,有别于句法树。3、局域话题文摘的三个应用:a、生成类似于维基百科那样的东东,给出一个东东各个方面的简介。b、对于一个问题不同人有不同的观点,抽 阅读全文
posted @ 2012-06-28 20:00 Vanior 阅读(313) 评论(0) 推荐(0) 编辑

2012年6月26日

摘要: 边读边总结疑问,英语差的惹不起。。1、本文研究的是基于背景语料形成文摘。他认为背景语料分为两种,即引用信息明确和引用信息不明确两种,其中不不明确往往是因为内容果断等原因,因此需要将这些引用句进行扩展,得到上下文,确定引用的真正意图。2、问题:他说将每个句子视为一个随机变量,这个随机变量的值取决于目标文章的状态。然后他说用图模型产生这些随机变量。。。对自然语言接触太短,这个不懂!!!3、用的数据是来自于ACL,十篇关于NLP的文章,包含203个参考文献,数据给出编号、坐着、title、年份、引用数、引用句子数等。其中引用分为引用文献在AAn中和不在AAN中。4、对于背景预料的研究,首先,开始关注 阅读全文
posted @ 2012-06-26 21:21 Vanior 阅读(228) 评论(0) 推荐(0) 编辑

导航