君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2012年6月7日 #

摘要: 随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,使用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基 阅读全文
posted @ 2012-06-07 22:41 刺猬的温驯 阅读(135) 评论(0) 推荐(0) 编辑

摘要: 表征状态转移(英文:Representational State Transfer,简称REST)是Roy Fielding博士在2000年他的博士论文中提出来的一种软件架构风格。目前在三种主流的Web服务实现方案中,因为REST模式的Web服务与复杂的SOAP和XML-RPC对比来讲明显的更加简洁,越来越多的web服务开始采用REST风格设计和实现。例如,Amazon.com提供接近REST风格的Web服务进行图书查找;雅虎提供的Web服务也是REST风格的。宗旨REST 从资源的角度来观察整个网络,分布在各处的资源由URI确定,而客户端的应用通过URI来获取资源的表征。获得这些表征致使这些 阅读全文
posted @ 2012-06-07 22:19 刺猬的温驯 阅读(293) 评论(0) 推荐(0) 编辑

摘要: 转载http://www.ibm.com/developerworks/cn/web/wa-restful/index.htmlSpring,构建 Java™ 平台和 Enterprise Edition (Java EE) 应用程序的著名框架,现在在其模型-视图-控制器(Model-View-Controller ,MVC)层支持具象状态传输 (REST)。RESTful web 服务根据客户端请求生成多个具象(representations)很重要。在本篇文章中,学习使用 HttpMessageConverter 生成多个具象。代码示例展示如何使用 RestTemplate 和 HttpM 阅读全文
posted @ 2012-06-07 17:19 刺猬的温驯 阅读(1367) 评论(0) 推荐(0) 编辑

摘要: 跟随 Web Service 一路走来, 记忆中的 Apache SOAP, Apache Axis, XFire, 标准化的JAX-RPC, JAX-WS, 到后来半路杀出的的 Spring-WS, CXF一切刚刚开始,一切望尘莫及,短命是纯技术的特征。RPC 的平台局限性,SOAP 的类型 bind 的易脆性, JAX-WS 工具的信赖度, Spring-WS contract first 使一个小时可以完成(甚至在IDE中十分钟可以完成)的工作,要整一天,还要到看到 JUnit 的 Green bar 才算数。已经标准化的JAX-RS,证明 RESTful 已经成为SOA加架的主流,以至 阅读全文
posted @ 2012-06-07 16:46 刺猬的温驯 阅读(8068) 评论(0) 推荐(0) 编辑

摘要: 1. Controller 代码非常简单Java代码packageorg.pprun.hjpetstore.web.rest;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.pprun.hjpetstore.persistence.jaxb.Products;importorg.pprun.hjpetstore.service.rest.HjpetstoreService;importorg.springframework.beans.factory.annot 阅读全文
posted @ 2012-06-07 16:44 刺猬的温驯 阅读(611) 评论(0) 推荐(0) 编辑

摘要: 一个简单的基于注解的 Controller使用过低版本 Spring MVC 的读者都知道:当创建一个 Controller 时,我们需要直接或间接地实现 org.springframework.web.servlet.mvc.Controller 接口。一般情况下,我们是通过继承 SimpleFormController 或 MultiActionController 来定义自己的 Controller 的。在定义 Controller 后,一个重要的事件是在 Spring MVC 的配置文件中通过 HandlerMapping 定义请求和控制器的映射关系,以便将两者关联起来。来看一下基于注 阅读全文
posted @ 2012-06-07 15:36 刺猬的温驯 阅读(278) 评论(0) 推荐(0) 编辑

摘要: lucene特点及作用文章里就不说了,网上有的是。我就简单说下个人理解,正常 sql 查询时:name like '%继中%' 想必大家一定明白这样不会走索引的,然后就在多行数据级别查询相应时间会很慢,对吧,因为数据库在一行行扫呢。所以我们自然会想到怎样能让它走索引?解决方案之一:lucene出来了。其实它就是帮你把文章拆分成若干个关键词,这样以便按关键词查询时能通过关键词直接查询来锁定哪些文章匹配该关键词并快速返回。说再直白点,就是 sql语句的查询不用like ,而是 name ='继中',这样就走索引了,所以就快了而已。下面来说正题,spring框架下配置 阅读全文
posted @ 2012-06-07 15:33 刺猬的温驯 阅读(4063) 评论(0) 推荐(0) 编辑

摘要: 本文内容遵从CC版权协议转载请注明出自matrix67.com这篇文章是漫话中文分词算法的续篇。在这里,我们将紧接着上一篇文章的内容继续探讨下去:如果计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思吗?这两篇文章的关系十分紧密,因此,我把前一篇文章改名为了《漫话中文自动分词和语义识别(上)》,这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了,在这里我想把它们写下来,和更多的人一同分享。什么叫做句法结构呢?让我们来看一些例子。“白天鹅在水中游”,这句话是有歧义的,它可能指的是“白天有一只鹅在水中游”,也可能指的是“有一只白天鹅在水中游”。不 阅读全文
posted @ 2012-06-07 12:22 刺猬的温驯 阅读(788) 评论(0) 推荐(0) 编辑

摘要: 本文内容遵从CC版权协议转载请注明出自matrix67.com 记得第一次了解中文分词算法是在Google 黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”?人来判断很容易,要交给计算 阅读全文
posted @ 2012-06-07 12:21 刺猬的温驯 阅读(463) 评论(0) 推荐(0) 编辑

摘要: 改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。 TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。TrustRank算法基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威性。 TrustRank算法应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的T.. 阅读全文
posted @ 2012-06-07 11:16 刺猬的温驯 阅读(816) 评论(0) 推荐(0) 编辑

摘要: HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。 HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定被链接网页的权重值。 Hilltop算法定义一个网站.. 阅读全文
posted @ 2012-06-07 11:15 刺猬的温驯 阅读(247) 评论(0) 推荐(0) 编辑

摘要: HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。 用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网页越多,网页的链接权威度越高。 一个好中心网页应该指向很多权威性网页,而一个好的权威性网页则应该被很多好的中心性网页所指向。对整个Web集合而言,Authority和Hub是相互依赖、相互加强、相互优化.. 阅读全文
posted @ 2012-06-07 11:14 刺猬的温驯 阅读(325) 评论(0) 推荐(0) 编辑

摘要: TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,. 阅读全文
posted @ 2012-06-07 11:13 刺猬的温驯 阅读(529) 评论(0) 推荐(0) 编辑

摘要: Google的Lawrence Page和Sergey Brin为PageRank(PR)算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。 网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。 因此,一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且,阻尼系数d减低了这个概率。阻尼系数d的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面。 阻尼系数d定义为用户不断随机点击链... 阅读全文
posted @ 2012-06-07 11:11 刺猬的温驯 阅读(305) 评论(0) 推荐(0) 编辑

摘要: 聚集索引介绍 在聚集索引中,表中各行的物理顺序与键值的逻辑(索引)顺序相同。表只能包含一个聚集索引。 如果不是聚集索引,表中各行的物理顺序与键值的逻辑顺序不匹配。聚集索引比非聚集索引有更快的数据访问速度。 聚集索引通常可加快 UPDATE 和 DELETE 操作的速度,因为这两个操作需要读取大量的数据。创建或修改聚集索引可能要花很长时间,因为执行这两个操作时要在磁盘上对表的行进行重组。 可考虑将聚集索引用于: 1.包含数量有限的唯一值的列,如 state 列只包含 50 个唯一的州代码。 2.使用下列运算符返回一个范围值的查询:BETWEEN、>、>=、< 和 <=。 阅读全文
posted @ 2012-06-07 11:10 刺猬的温驯 阅读(228) 评论(0) 推荐(0) 编辑

摘要: 一个网页的重要性分析的算法,是根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。 通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。 在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Auth.. 阅读全文
posted @ 2012-06-07 11:06 刺猬的温驯 阅读(354) 评论(0) 推荐(0) 编辑

摘要: 一、传统搜索引擎排序算法概述 1. 1 搜索引擎排序算法概述 搜索引擎查询的结果是按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. PageRank 是著名搜索引擎Google 使用的排序算法, 利用了网页的链接结构进行计算网页的PR 值进行排序. 竞价排名服务是一些网站购买关键字排名, 搜索引擎按照点击( 也有按照时间段) 进行计费的一种.. 阅读全文
posted @ 2012-06-07 11:05 刺猬的温驯 阅读(356) 评论(0) 推荐(0) 编辑

摘要: 搜索引擎算法每一次的变动都会牵动着广大站长的心,每个站长都非常想知道搜索引擎的算法是怎样的?如果彻底了解到了搜索引擎的排序准则,那么一定能够让你非常快速的将自己的网站优化到前面,可是搜索引擎的算法却是非常的繁难,对于一名普通的个人站长要想窥探出其中的奥秘,那比登天还难,不过没有关系,我们可以从其他的途径来了解搜索引擎,下面我就将我的经验写出来跟大家分享一下! 一:从网站的结构 搜索引擎的工作原理大体分为爬行,抓取,索引和排序四个步骤,因为搜索引擎需要遍历你的网站所有页面,就好像一个蜘蛛能够迅速的遍历自己织的网一样,所以我们又把搜索引擎成为蜘蛛,而我们打造的网站就是网,而网站的结构就是网,如.. 阅读全文
posted @ 2012-06-07 11:02 刺猬的温驯 阅读(366) 评论(0) 推荐(0) 编辑

摘要: 91. 集成邮件服务JavaMail API为Java应用程序提供了邮件发送和接受的服务。JavaMail提供了一个平台无关和协议无关的框架,可以在JavaMail API的基础上构建一套电子邮件应用。JavaMail支持常见的电子邮件协议,包括SMTP、IMAP和POP3。在JavaEE应用程序中,我们关心的是如何通过SMTP协议发送电子邮件,因此,本节仅讨论如何发送电子邮件,如果需要接受电子邮件使用POP3协议,同样非常简单。9.11发送纯文本邮件如果使用JavaMailAPI发送邮件,即使发送最简单的纯文本邮件,也不得不编写如下代码:publicstaticvoidsend(Proper 阅读全文
posted @ 2012-06-07 00:59 刺猬的温驯 阅读(351) 评论(0) 推荐(0) 编辑

摘要: 对于spring mvc来说2.0以后大量使用注解确实简单很多,最近在一个项目使用spring mvc遇到上传文件问题,由于使用了注解所以网上没有找到相关使用注解上传文件的。官方文档又没有更新都是老的,看了一些源码这才解决。使用注解很简单。写个例子:控制器类 FileUploadController.java[java]view plaincopyprint?packageorg.upload.test;importorg.springframework.stereotype.Controller;importjava.io.FIle;importorg.springframework.web 阅读全文
posted @ 2012-06-07 00:39 刺猬的温驯 阅读(411) 评论(0) 推荐(0) 编辑