架构深渊

慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 37 下一页

2009年1月2日

摘要: 第四章 4.3 分词原理 Chinese Word Parsing Algorithm 对索引网页信息的预处理包括网页分析和倒排文件索引两个部分,中文自动分次是网页分析的前提。文档由被称作特征项的索引词组成,网页分析是将一个文档表示 为特征项的过程。在提取特征项时,中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词 与词之间没有天... 阅读全文

posted @ 2009-01-02 00:25 chen eric 阅读(620) 评论(0) 推荐(0) 编辑

摘要: 第四章 4.2 倒排索引基本原理 Principle of Inverted Index Trie是效率最高的索引形式,下图表示由文本到的前缀树的创建过程。 插入操作的时间复杂度O(l),其中l = max(length of word); 查询的操作的时间复杂度O(l); 删除操作的复杂度为O(n),其中n = length of dictionary Trie有消耗了大量内存且难以分... 阅读全文

posted @ 2009-01-02 00:24 chen eric 阅读(863) 评论(0) 推荐(0) 编辑

摘要: 第四章 4.1 准备工作 Prepare for Indexing 网页的内容经过爬虫爬取之后,按照不同的类型进行分析,成为相对“清洁”的文本之后就可以开始建立全文索引了。分析的过程包括大小写转换,过滤标点符号、没有意义的虚词和网页的格式代码。可以把分析看成是一个过滤的过程。 阅读全文

posted @ 2009-01-02 00:23 chen eric 阅读(185) 评论(0) 推荐(0) 编辑

摘要: 第四章 索引 Full Text Indexing 在学习搜索引擎技术之前最好有一定的知识储备,Modern Information Retrieval 是本经典IR的教材,本文默认读者已经具有相应的基础。 数据需要分不同的类型进行相应处理,一般的网页内容文本大致可以分为四部分: Keyword: 不做分析,逐字/词建索引并存储.例如URL,文件系统路径,日期,人名,社会保险帐号,电话号码等。... 阅读全文

posted @ 2009-01-02 00:22 chen eric 阅读(473) 评论(0) 推荐(0) 编辑

摘要: 第三章 3.4 缓存 Search Engine Caching 缓存优化的核心思想是从避免无谓和重复的CPU计算、I/O调度来提高查询器的吞吐量。传统的缓存有两级:一是对结果集的缓存,纪录了查询的关键词和返回结果。如果相同的关键词被再次访问将得到快速地响应,同时过滤导致重复查询的计算量,提高系统的吞吐量。另外一个是对倒排索引的缓存,索引通常只保留最近、频繁被访问的索引段在内存中。这样的两级体... 阅读全文

posted @ 2009-01-02 00:22 chen eric 阅读(389) 评论(0) 推荐(0) 编辑

摘要: 第三章 3.2 文件共享入门简介 Introduction of File Sharing System 1) Remote sync (rsync) 是一种简单的文件共享实现方式。集群中的每个节点都至少有一份数据复本,复本间使用rsync进行同步。因为节点需要的数据就在本地,所以这种方法具有很高的可用性,不会出现单点失效现象。适合的场景:数据量很小,而且更新不频繁,可以采用这种方式。索引文件... 阅读全文

posted @ 2009-01-02 00:21 chen eric 阅读(240) 评论(0) 推荐(0) 编辑

摘要: 第三章 3.3 排队系统的优化 Application of Queueing Theory 排队系统的优化在集群计算中有着举足轻重的地位。此类优化问题分为两类:系统的最优设计和最优控制,前者称为静态最优问题,目的在于是系统达到最大效益,或者说在一定指标下是系统最为经济;后者为动态最优问题,是指对一给定的系统,如何运营可使给定的目标函数达到最优。 只对静态优化分析,对动态优化超出了目前以有的固... 阅读全文

posted @ 2009-01-02 00:21 chen eric 阅读(595) 评论(0) 推荐(0) 编辑

摘要: 第三章 3.1 I/O调度方式 Choose I/O Schedule Completely Fair Queuing 机制和其字面的意思一致,完全公平的调度形式。每个进程产生的I/O请求都会被分配一个序号,进程之间的I/O请求队列独立,每次执行相同序号的请求。算法的实现,cfq会先考虑进程的优先级(0-20),从高的优先进程选择执行序号比较优先的I/O请求。Analysis and Simu... 阅读全文

posted @ 2009-01-02 00:20 chen eric 阅读(506) 评论(0) 推荐(0) 编辑

摘要: 第三章 并行分布式文件系统 Parallel Distributed File System 搜索的引擎的存储规模至少都是TB级别,如何有效地管理和组织这些资源呢?并且在极短的时间内得出结果?MapReduce: Simplified Data Processing on Large Clusters 给出了很好的分析。 分布式文件系统的实施必须实现两种临界资源的接口,一个是文件名到命名空间... 阅读全文

posted @ 2009-01-02 00:20 chen eric 阅读(339) 评论(0) 推荐(0) 编辑

摘要: 第二章 2.1 书籍推荐 Spidering Hacks 标题其实一本经典的爬虫学习书,历史地、全面地介绍了spider。 阅读全文

posted @ 2009-01-02 00:19 chen eric 阅读(396) 评论(0) 推荐(0) 编辑

上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 37 下一页