chen eric - 博客园

第二章 2.1 书籍推荐 Spidering Hacks

摘要：第二章 2.1 书籍推荐 Spidering Hacks 标题其实一本经典的爬虫学习书，历史地、全面地介绍了spider。阅读全文

posted @ 2009-01-02 00:19 chen eric 阅读(401) 评论(0) 推荐(0)

第一章 1.2 声明 Declaration

摘要：第一章 1.2 声明 Declaration 本文的主旨是提供学习的基本导向，并对一些重要的技术细节进行剖析，舍去很多拖沓的描述，力图给读者深度和广度全面的理解web搜索的基本机制。 /**********本文并不申明为权威工程应用指南************/ 阅读全文

posted @ 2009-01-02 00:18 chen eric 阅读(240) 评论(0) 推荐(0)

摘要：第二章爬虫 Spider 简单地说，爬虫负责按照url列表爬取网页的内容，实际中需要针对不同的协议设计爬虫程序并优化。写一个优秀的爬虫不是件容易的事情，仅列举部分设计必须考虑到的问题。 1.严格按照robots.txt 来爬取内容，优先按照sitemap来抓取。 2.控制抓取的深度，量力而行。这个和人吃饭一次吃多少的道理是一样的。 3.网络上动态网页数量巨大，而爬虫一般是多线程的，如果爬虫对... 阅读全文

posted @ 2009-01-02 00:18 chen eric 阅读(568) 评论(0) 推荐(0)

第一章 1.1 兴趣的开始 Game Is Now Beginning

摘要：第一章 1.1 兴趣的开始 Game Is Now Beginning Web上数十亿张网页，认真地在网络上乱逛发现最大的需求是：哪里有好东西？我们能用它们来做什么？每个人对他们自己认为的有效信息有不同的看法，且大多数人当他们一旦找到好东西的时候，总是有一些创造性的电子。在某些web的角落，鼓励用有趣的方式来重新组织和运用这些资讯，而这些不平凡的资讯组合不容怀疑地向前流动，他们相信信息时代的到... 阅读全文

posted @ 2009-01-02 00:17 chen eric 阅读(339) 评论(0) 推荐(0)

第一章概述 Summarization of Search Engine Architecture

摘要：第一章概述 Summarization of Search Engine Architecture 搜索引擎的架构是编写一个搜索引擎所需要考虑的第一个问题，The Anatomy of a Large-Scale Hypertextual Web Search Engine 一文对此问题做了全面的阐述。最大的功能模块可以分为：爬虫、存储、索引和web服务。爬虫负责不间断地爬取目标网站的内容... 阅读全文

posted @ 2009-01-02 00:16 chen eric 阅读(380) 评论(0) 推荐(0)

全文检索中近义词、关联词的解决方案

摘要：一直想找到一个好的同义词解决方案，在百度和google查找，大家对于这个问题都只是寥寥数语，不愿讲清，我在javaeye搜此类信息也求不到,后来发了个提问贴也只有浏览数而无回复，不知道这是什么原因，无奈之下我只有自己研究。因为没有其它的解决方案可以借鉴，以下纯为我个人的见解。我认为所谓近义词、关联词检索不外乎以下三种形式： 1.类似google suggest,用户... 阅读全文

posted @ 2009-01-02 00:07 chen eric 阅读(1654) 评论(1) 推荐(0)

[转]Lucene倒排索引原理

摘要： Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下： 0）设有两篇文章1和2 文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为：He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的，首先我们要取... 阅读全文

posted @ 2009-01-02 00:06 chen eric 阅读(231) 评论(0) 推荐(0)

倒排文件的组织与最佳归并分析

摘要：倒排文件的组织与最佳归并分析赵长林（西南民族学院数学系）摘要对倒排文件的组织与最佳归并进行较系统的分析，提出了倒排文件的存储结构与实现的方法，倒排文件上的算法分析，最佳归并顺序的分析与论证。关键词倒排文件，倒排表，最佳归并，最佳归并树中图法分类号ＴＰ３１在数据库应用系统中，一项主要的工作是对文件的组织与操作，概括地讲，操作主要分两类，一类是检索，一类是修改，修改的前提是查找，成批查找记录就是检索... 阅读全文

posted @ 2009-01-01 23:56 chen eric 阅读(396) 评论(0) 推荐(0)

中文的全文索引算法

摘要：自动分词是基于字符串匹配的原理进行的；所谓自动分词方法，指的是汉字字符串匹配的进行方式。 1. 最大匹配法亦称MM法；其基本思想是这样的，假设自动分词词典（或词库）中的最长词条是i个字，则取被处理材料当前字符串序列中的前i个字作为匹配字段，查找词典，若词典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来；如果在词典中找不到这样一个i字词，则匹配失败，匹配字段去掉... 阅读全文

posted @ 2009-01-01 23:54 chen eric 阅读(700) 评论(0) 推荐(0)

Request获取url信息的各种方法比较

摘要： Code Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->Request获取url信息的各种方法比较测试的url地址是http://www.test.com/testweb/default.aspx, 结果如下： Request.Appli... 阅读全文

posted @ 2008-12-29 11:23 chen eric 阅读(315) 评论(0) 推荐(0)

架构深渊

公告