郑文亮 - 博客园

2012年2月20日

摘要：在搜索引擎技术中，分词对于影响搜索引擎结果排序有着至关重要的作用。与英文不同的是，中文之间没有空格，并且由于中国文字的博大精深，常常一句话可以分出很多不同效果的词汇，这里就不做举例了，想必大家都有所体会。所以对于一个中文搜索引擎来说，中文分词技术是十分重要的，也是十分讲究的。在搜索引擎运行的机制中，有很多种中文分词的办法，例如正向最大匹配分词，逆向最大分析，基于统计的分词，基于词库的分词等。但是在实际的搜索引擎运行过程中，分词的办法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性，还需要考虑到对于分不出来的词的处理。所以能写出一个好的分词算法是很不容易的，由于水平有限，这里主要阅读全文

posted @ 2012-02-20 16:43 郑文亮阅读(323) 评论(0) 推荐(0) 编辑

利用Lucene.net搭建站内搜索(1)---了解Lucene.net

摘要：提到Lucene，想必园子中的老鸟们都有所耳闻，已经是数年前就出现的开源技术。很多站点都是利用它搭建自己网站的站内搜索。由于最近也在做数据检索方面的东西，也学习了下Lucene.net的使用。先来看下最终的效果：看上去还算是那么回事，我将利用几篇文章，和大家学习下Lucene.net创建索引，分词，检索等方面的知识。由于初学，有什么问题还望指教。此文先来和大家了解下Lucene.net，介绍给没有接触过的新手。Lucene：一个开源的使用Java语言编写的全文搜索引擎开发包。Lucene.net是使用在.NET平台下的搜索引擎开发工具，利用Lucene.net我们可以比较容易的搭建自己的数据检阅读全文

posted @ 2012-02-20 16:42 郑文亮阅读(372) 评论(0) 推荐(0) 编辑

Lucene.net索引文件的并发访问和线程安全性

摘要：通常，Lucene的初学者们对Lucene.net索引文件的并发访问、IndexReader和IndexWriter的线程安全性存在一定的误解。而准确地理解这些内容是十分重要的。此文简单的论述下这两个问题。并发访问的规则Lucene提供了一些修改索引的方法，例如索引新文档、更新文档和删除文档；在执行这些操作时，为了避免对索引文件造成损坏，需要遵循一些特定的规则。这类问题通常会在web应用程序中突显出来。因为web应用程序是同时为多个请求而服务的。Lucene的并发性规则虽然比较简单，但我们必须严格遵守：1.任意数量的只读操作都可以同时执行。例如，多个线程或进程可以并行地对同一个索引进行搜索。2 阅读全文

posted @ 2012-02-20 16:41 郑文亮阅读(341) 评论(0) 推荐(0) 编辑

影响Lucene索引速度原因以及提高索引速度技巧

摘要：在网上看了一篇外文文章，里面介绍了提高Lucene索引速度的技巧，分享给大家。先来看下影响索引的主要因素：MaxMergeDocs该参数决定写入内存索引文档个数，到达该数目后就把该内存索引写入硬盘，生成一个新的索引segment文件。所以该参数也就是一个内存buffer，一般来说越大索引速度越快。MaxBufferedDocs这个参数默认是disabled的，因为Lucene中还用另外一个参数（RAMBufferSizeMB）控制这个bufffer的索引文档个数。其实MaxBufferedDocs和RAMBufferSizeMB这两个参数是可以一起使用的，一起使用时只要有一个触发条件满足就写入阅读全文

posted @ 2012-02-20 16:40 郑文亮阅读(443) 评论(0) 推荐(0) 编辑

HubbleDotNet 简介 (转)

摘要：系统简介HubbleDotNet 是一个基于.net framework 的开源免费的全文搜索数据库组件。开源协议是 Apache 2.0。HubbleDotNet提供了基于SQL的全文检索接口，使用者只需会操作SQL，就可以很快学会使用HubbleDotNet进行全文检索。 HubbleDotNet可以实现全文索引和查询、多域检索和排序、分组统计、消重、分类、聚类、多表关联查询等等一系列全文检索和数据挖掘功能。 HubbleDotNet提供开放的数据库适配器接口，可以和各种数据库完美整合，为各种数据库系统附加全文检索和数据挖掘功能。 HubbleDotNet设计了较为完善的并发控制程序，数据阅读全文

posted @ 2012-02-20 16:28 郑文亮阅读(378) 评论(0) 推荐(0) 编辑

lucene性能优化(转)

摘要：优化搜索性能虽然建立索引的操作非常耗时，但是那毕竟只在最初创建时才需要，平时只是少量的维护操作，更何况这些可以放到一个后台进程处理，并不影响用户搜索。我们创建索引的目的就是给用户搜索，所以搜索的性能才是我们最关心的。下面就来探讨一下如何提高搜索性能。 1 将索引放入内存这是一个最直观的想法，因为内存比磁盘快很多。Lucene提供了RAMDirectory可以在内存中容纳索引： Directory fsDir = FSDirectory.getDirectory(“/data/index/”, false); Directory ramDir = new RAMDirectory(fsDir 阅读全文

posted @ 2012-02-20 15:45 郑文亮阅读(769) 评论(0) 推荐(0) 编辑

IE9新特性 (转)

摘要： IE9新特性2011-03-09 20:53:51|分类： IT/Net |标签：ie9javascript特性 |字号大中小订阅IE9已经越来越近，我们曾为大家介绍过IE7、IE8和IE9的差别，如果这还不足以让你对IE9有直观的认识，那么今天大家再一起来看九幅漫画，共同了解一下IE9的九大特性：1、新JavaScript引擎IE9全新内置的“Chakra JavaScript引擎”充分利用当下主流计算机配置的多核心CPU，优化协同运算能力，编译、执行速度更快。同时与DOM的紧密集成，使得网络应用运行更顺畅，反应更迅速。 2、GPU硬件加速IE9将全面支持HTML5 GPU硬件加速，借助GP 阅读全文

posted @ 2012-02-20 14:31 郑文亮阅读(265) 评论(0) 推荐(0) 编辑

window.event.srcElement (转)

摘要： srcElement event.srcElement指向触发事件的node元素用于确定事件源是事件初始目标的html元素对象引用,因为事件通过元素容器层次冒泡,可以在任一层进行处理,所以由一个属性指向产生初始事件的元素是很有帮助的.有了元素的引用,就可以读/写改元素的属性,并调用他的任何方法. Html代码 <HTML> <HEAD> <TITLE>srcElementProperty</TITLE> <STYLETYPE="text/css"> .bold{font-weight:bold} .ital{f 阅读全文

posted @ 2012-02-20 13:55 郑文亮阅读(264) 评论(0) 推荐(0) 编辑

getElementById getElementsByName的用法与区别(转)

摘要：标签：getElementByIdgetElementsByNamegetElementsByTagNamegetElementById:语法： document.getElementByIdx(id)参数：id :必选项为字符串(String)返回值：对象;返回相同id对象中的第一个,如果无符合条件的对象，则返回 nullexample：document.getElementByIdx("id1").value;getElementsByName:语法： document.getElementsByName(name)参数：name :必选项为字符串(String)返回值阅读全文

posted @ 2012-02-20 13:53 郑文亮阅读(678) 评论(0) 推荐(0) 编辑

onbeforeunload与onunload事件 (转)

摘要： Onunload，onbeforeunload都是在刷新或关闭时调用，可以在<script>脚本中通过 window.onunload来指定或者在<body>里指定。区别在于onbeforeunload在onunload之前执行，它还可以阻止onunload的执行。 Onbeforeunload也是在页面刷新或关闭时调用，Onbeforeunload是正要去服务器读取新的页面时调用，此时还没开始读取；而onunload则已经从服务器上读到了需要加载的新的页面，在即将替换掉当前页面时调用。Onunload是无法阻止页面的更新和关闭的。而 Onbeforeunload 阅读全文

posted @ 2012-02-20 13:36 郑文亮阅读(363) 评论(0) 推荐(0) 编辑

公告