君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 78 79 80 81 82 83 84 85 86 ··· 106 下一页

2012年6月7日 #

摘要: 本文内容遵从CC版权协议转载请注明出自matrix67.com 记得第一次了解中文分词算法是在Google 黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”?人来判断很容易,要交给计算 阅读全文
posted @ 2012-06-07 12:21 刺猬的温驯 阅读(463) 评论(0) 推荐(0) 编辑

摘要: 改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。 TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。TrustRank算法基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威性。 TrustRank算法应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的T.. 阅读全文
posted @ 2012-06-07 11:16 刺猬的温驯 阅读(816) 评论(0) 推荐(0) 编辑

摘要: HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。 HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定被链接网页的权重值。 Hilltop算法定义一个网站.. 阅读全文
posted @ 2012-06-07 11:15 刺猬的温驯 阅读(247) 评论(0) 推荐(0) 编辑

摘要: HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。 用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网页越多,网页的链接权威度越高。 一个好中心网页应该指向很多权威性网页,而一个好的权威性网页则应该被很多好的中心性网页所指向。对整个Web集合而言,Authority和Hub是相互依赖、相互加强、相互优化.. 阅读全文
posted @ 2012-06-07 11:14 刺猬的温驯 阅读(325) 评论(0) 推荐(0) 编辑

摘要: TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,. 阅读全文
posted @ 2012-06-07 11:13 刺猬的温驯 阅读(529) 评论(0) 推荐(0) 编辑

摘要: Google的Lawrence Page和Sergey Brin为PageRank(PR)算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。 网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。 因此,一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且,阻尼系数d减低了这个概率。阻尼系数d的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面。 阻尼系数d定义为用户不断随机点击链... 阅读全文
posted @ 2012-06-07 11:11 刺猬的温驯 阅读(305) 评论(0) 推荐(0) 编辑

摘要: 聚集索引介绍 在聚集索引中,表中各行的物理顺序与键值的逻辑(索引)顺序相同。表只能包含一个聚集索引。 如果不是聚集索引,表中各行的物理顺序与键值的逻辑顺序不匹配。聚集索引比非聚集索引有更快的数据访问速度。 聚集索引通常可加快 UPDATE 和 DELETE 操作的速度,因为这两个操作需要读取大量的数据。创建或修改聚集索引可能要花很长时间,因为执行这两个操作时要在磁盘上对表的行进行重组。 可考虑将聚集索引用于: 1.包含数量有限的唯一值的列,如 state 列只包含 50 个唯一的州代码。 2.使用下列运算符返回一个范围值的查询:BETWEEN、>、>=、< 和 <=。 阅读全文
posted @ 2012-06-07 11:10 刺猬的温驯 阅读(228) 评论(0) 推荐(0) 编辑

摘要: 一个网页的重要性分析的算法,是根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。 通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。 在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Auth.. 阅读全文
posted @ 2012-06-07 11:06 刺猬的温驯 阅读(354) 评论(0) 推荐(0) 编辑

摘要: 一、传统搜索引擎排序算法概述 1. 1 搜索引擎排序算法概述 搜索引擎查询的结果是按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. PageRank 是著名搜索引擎Google 使用的排序算法, 利用了网页的链接结构进行计算网页的PR 值进行排序. 竞价排名服务是一些网站购买关键字排名, 搜索引擎按照点击( 也有按照时间段) 进行计费的一种.. 阅读全文
posted @ 2012-06-07 11:05 刺猬的温驯 阅读(356) 评论(0) 推荐(0) 编辑

摘要: 搜索引擎算法每一次的变动都会牵动着广大站长的心,每个站长都非常想知道搜索引擎的算法是怎样的?如果彻底了解到了搜索引擎的排序准则,那么一定能够让你非常快速的将自己的网站优化到前面,可是搜索引擎的算法却是非常的繁难,对于一名普通的个人站长要想窥探出其中的奥秘,那比登天还难,不过没有关系,我们可以从其他的途径来了解搜索引擎,下面我就将我的经验写出来跟大家分享一下! 一:从网站的结构 搜索引擎的工作原理大体分为爬行,抓取,索引和排序四个步骤,因为搜索引擎需要遍历你的网站所有页面,就好像一个蜘蛛能够迅速的遍历自己织的网一样,所以我们又把搜索引擎成为蜘蛛,而我们打造的网站就是网,而网站的结构就是网,如.. 阅读全文
posted @ 2012-06-07 11:02 刺猬的温驯 阅读(366) 评论(0) 推荐(0) 编辑

上一页 1 ··· 78 79 80 81 82 83 84 85 86 ··· 106 下一页