随笔档案「2009年2月」 - eaglet

.Net 下未捕获异常的处理

摘要：随着.Net技术的发展，.Net技术被逐渐应用到很多大型的应用软件项目中。这些项目的规模越来越大，很多项目中除了自己的代码外还引用了很多第三方的.net组件。同时很多项目又被应用到很多关键的部门，软件系统的稳定性越来越至关重要。由于.Net 框架提供了非常强大的异常处理机制，同时对一些非托管代码很难控制的系统问题比如指针越界，内存泄漏等提供了很好的解决方案。相比非托管代码构建的系统，.Net构建的系统更加稳定。不过这并不是说.Net构建的系统就完全无懈可击，很多由于代码的不严谨或者系统问题引发的故障将会导致.Net应用程序产生未捕获异常，从而导致应用程序异常终止。本文将对三种最常见的.Net应用的未捕获异常处理进行阐述。阅读全文

posted @ 2009-02-17 09:53 eaglet 阅读(19610) 评论(27) 推荐(2)

Lucene 源码剖析-转载

摘要：这是一篇公司的内部培训教材，其中中的内容涵盖LUCENE的方方面面，从源代码角度深入剖析LUCENE，如果要对LUCENE有更加深入的了解（专家级别），这篇技术文档必不可少。前提：对LUCENE有一定程度的了解,否则会让你云里雾里阅读全文

posted @ 2009-02-16 14:53 eaglet 阅读(6179) 评论(3) 推荐(0)

Lucene 源代码剖析-12 如何给文档评分

摘要：如何给文档评分阅读全文

posted @ 2009-02-16 14:45 eaglet 阅读(2551) 评论(1) 推荐(1)

Lucene 源代码剖析-11 文档内容是如何分析的

摘要：文档内容是如何分析的阅读全文

posted @ 2009-02-16 14:37 eaglet 阅读(2271) 评论(0) 推荐(0)

Lucene 源代码剖析-10 索引是如何存储的

摘要：5 索引是如何存储的阅读全文

posted @ 2009-02-16 14:33 eaglet 阅读(2213) 评论(0) 推荐(0)

Lucene 源代码剖析-9 索引创建过程

摘要：4.3 索引创建过程文档的索引过程是通过DocumentsWriter的内部数据处理链完成的，DocumentsWriter可以实现同时添加多个文档并将它们写入一个临时的segment中，完成后再由IndexWriter和SegmentMerger合并到统一的segment中去。DocumentsWriter支持多线程处理，即多个线程同时添加文档，它会为每个请求分配一个DocumentsWriterThreadState对象来监控此处理过程。处理时通过DocumentsWriter初始化时建立的DocFieldProcessor管理的索引处理链来完成的，依次处理为DocFieldConsumers、DocInverter、TermsHash、FreqProxTermsWriter、TermVectorsTermsWriter、NormsWriter以及StoredFieldsWriter等。阅读全文

posted @ 2009-02-16 14:27 eaglet 阅读(2257) 评论(1) 推荐(0)

Lucene 源代码剖析-8 索引是如何创建的

摘要：4 索引是如何创建的为了使用Lucene来索引数据，首先你比把它转换成一个纯文本（plain-text）tokens的数据流（stream），并通过它创建出Document对象，其包含的Fields成员容纳这些文本数据。一旦你准备好些Document对象，你就可以调用IndexWriter类的addDocument(Document)方法来传递这些对象到Lucene并写入索引中。当你做这些的时候，Lucene首先分析（analyzer）这些数据来使得它们更适合索引。详见《Lucene In Action》阅读全文

posted @ 2009-02-16 14:23 eaglet 阅读(3699) 评论(1) 推荐(0)

Lucene 源代码剖析-7 索引文件结构(4)

摘要：3.3.6 Term向量文件 Term向量（vector）的支持是field基本组成中对一个field来说的可选项，它包含如下4种文件：阅读全文

posted @ 2009-02-16 14:00 eaglet 阅读(1948) 评论(0) 推荐(0)

Lucene 源代码剖析-6 索引文件结构(3)

摘要：3.3.3 Term频率数据（.frq） Term频率数据文件（.frq文件）存储容纳了每一个term的文档列表，以及该term出现在该文档中的频率（出现次数frequency，如果omitTf设置为fals时才存储）。阅读全文

posted @ 2009-02-13 14:56 eaglet 阅读(3244) 评论(0) 推荐(0)

Lucene 源代码剖析-5 索引文件结构(2)

摘要：3.3 每个Segment包含的文件阅读全文

posted @ 2009-02-13 14:49 eaglet 阅读(2434) 评论(0) 推荐(0)

Lucene 源代码剖析-4 索引文件结构(1)

摘要：Lucene使用文件扩展名标识不同的索引文件，文件名标识不同版本或者代（generation）的索引片段（segment）。如.fnm文件存储域Fields名称及其属性，.fdt存储文档各项域数据，.fdx存储文档在fdt中的偏移位置即其索引文件，.frq存储文档中term位置数据，.tii文件存储term字典，.tis文件存储term频率数据，.prx存储term接近度数据，.nrm存储调节因子数据，另外segments_X文件存储当前最新索引片段的信息，其中X为其最新修改版本，segments.gen存储当前版本即X值，这些文件的详细介绍上节已说过了。阅读全文

posted @ 2009-02-13 14:37 eaglet 阅读(4141) 评论(0) 推荐(0)

Lucene 源代码剖析-3 索引文件概述

摘要：为了使用Lucene来索引数据，首先你得把它转换成一个纯文本（plain-text）tokens的数据流（stream），并通过它创建出Document对象，其包含的Fields成员容纳这些文本数据。一旦你准备好些Document对象，你就可以调用IndexWriter类的addDocument(Document)方法来传递这些对象到Lucene并写入索引中。当你做这些的时候，Lucene首先分析（analyzer）这些数据来使得它们更适合索引。详见《Lucene In Action》阅读全文

posted @ 2009-02-13 14:28 eaglet 阅读(3478) 评论(2) 推荐(0)

Lucene 源代码剖析-2 Lucene是什么

摘要：Apache Lucene是一个高性能（high-performance）的全能的全文检索（full-featured text search engine）的搜索引擎框架库，完全（entirely）使用Java开发。它是一种技术（technology），适合于（suitable for）几乎（nearly）任何一种需要全文检索（full-text search）的应用，特别是跨平台（cross-platform）的应用。阅读全文

posted @ 2009-02-13 14:05 eaglet 阅读(5506) 评论(0) 推荐(1)

大规模超文本web搜索引擎剖析-转载

摘要：这是google 的两位创始人2000年左右在斯坦福大学发表的论文，文章讲述了google最初的设计目标和系统特性。转眼这么多年过去了，google 已经从一个很小的初创公司成长为世界上最大的互联网公司。今天偶然从互联网上搜到这篇文章，感慨良多，让我们一起来回顾这个互联网巨头的青涩时代吧。转载了文章的原文阅读全文

posted @ 2009-02-13 09:19 eaglet 阅读(2375) 评论(2) 推荐(1)

eaglet

公告

02 2009 档案