上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 46 下一页
摘要: 1. 开源项目1.Lucene全文检索系统 http://lucene.apache.org和http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全... 阅读全文
posted @ 2012-09-29 11:10 夏至冬末 阅读(117) 评论(0) 推荐(0) 编辑
摘要: Google Android手机的软件为了安全性和稳定性都是默认安装到手机内存里,但是手机内存有限,所以我们会做app2sd操作,来让我们安装的软件放到sd卡上,这个操作是需要rom的支持的。 Android 2.2 可以将手机程序安装在外置的sd卡上,也就是我们平常所说的app2sd。但是,... 阅读全文
posted @ 2012-09-26 21:48 夏至冬末 阅读(298) 评论(0) 推荐(0) 编辑
摘要: SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明... 阅读全文
posted @ 2012-09-25 17:04 夏至冬末 阅读(484) 评论(0) 推荐(0) 编辑
摘要: HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Cent... 阅读全文
posted @ 2012-09-24 19:53 夏至冬末 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 前面的讨论提到。PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画。理想情况下,应该为每个用户维护一... 阅读全文
posted @ 2012-09-23 13:11 夏至冬末 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模... 阅读全文
posted @ 2012-09-21 17:02 夏至冬末 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 1. 链接分析 搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素: 网页和查询的相关性:是用户发出的查询与网页内容的内容相似性得分。 网页的重要性:通过链接分析方法计算获得的得分。 搜索引擎融合两者,共同拟合出相似性评分函数,来对搜索结果进行排序。常见的链接分析算法除了鼎鼎有名的Page... 阅读全文
posted @ 2012-09-19 18:12 夏至冬末 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。 第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。第二代技术,利用互联网的超文本结构,有效地计算网页的相关度与重要度,代表的算法有 PageRank 等。第三代技术,有效利用日志数据与统计学习方法,使... 阅读全文
posted @ 2012-09-18 16:00 夏至冬末 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 来自:http://blog.chinaunix.net/uid-20691722-id-3154640.html=======================================================这个故事中使用的是2.6.10的内核代码.Linux内核代码目录中, 所有去... 阅读全文
posted @ 2012-09-17 19:19 夏至冬末 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 1. 检索模型概述 搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。 判断网页内容是否与用户査询相关,这依赖于搜索引擎... 阅读全文
posted @ 2012-09-17 14:12 夏至冬末 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 博客已迁移,新地址----------------------------------------------------------------------------------------在实际工作中,需要对shell脚本进行正确性测试。如何用最快最有效的方式进行测试?很多开发的习惯是,二话不... 阅读全文
posted @ 2012-09-15 20:56 夏至冬末 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 这几天做.NET版的机房收费系统的时候遇到了一个级别查询的问题关于DAL层我不怎么会写昨晚问了一下正权我终于会了,下面就贴出代码来UI层:'用来级别查询Private SubcboOperatorLevel_SelectedIndexChanged(ByVal sender As System.... 阅读全文
posted @ 2012-09-14 21:30 夏至冬末 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 我们从用户的角度来看,用户不关心什么索引结构是倒排还是签名文件,也不需要知道相关排序算法。用户提交了查询,就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。1.查询流程查询流程图:1)用户提交查询2)分析查询 查询预处理: 1. 一般过滤掉助词或者标点符号之类,如中文的“的”,... 阅读全文
posted @ 2012-09-14 18:19 夏至冬末 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 1.概述 在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求:1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。 2)数据操作简单:搜索引擎使... 阅读全文
posted @ 2012-09-12 16:47 夏至冬末 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 著名的开源网站1、http://code.ijinshan.com/2、http://search.csdn.net/3、http://snippets.org/简单实用的代码收集网站,强力推荐。比如你要找个DES加密,要找个数据压缩,找个INI文件操作的C代码等,均能手到擒来。4、http://w... 阅读全文
posted @ 2012-09-12 15:16 夏至冬末 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 搜索引擎的索引1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。 图3-1 单词-文档矩阵 从纵向即文档这个维度来看,每列代表文档包含... 阅读全文
posted @ 2012-09-11 19:49 夏至冬末 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。 浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页... 阅读全文
posted @ 2012-09-10 21:05 夏至冬末 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 1. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外... 阅读全文
posted @ 2012-09-07 17:30 夏至冬末 阅读(212) 评论(0) 推荐(0) 编辑
摘要: ====================================================http://blog.csdn.net/meshless/article/details/6941499=============================================... 阅读全文
posted @ 2012-09-05 21:43 夏至冬末 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 官网:ChangeLog-5.php#5.4.0原文Oracle:LAMP 体系有了新的竞争,但此版本中的特性使 PHP 再次挑战极限。稍微做了修改。:概述总结:1. 内存和性能改进:大型 PHP 应用程序中可节省 20-50% 的内存。通过各种优化使性能提高 10-30%2. 支持特性Trait3... 阅读全文
posted @ 2012-09-05 14:53 夏至冬末 阅读(243) 评论(0) 推荐(0) 编辑
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 46 下一页