架构深渊

慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 37 下一页

2009年1月2日

摘要: 第二章 2.2 宏观看爬虫 Key Points of Spider Web上的信息具有异质性和动态性,由于受时间和存储、带宽的限制,不可能把所有的网页都搜集起来,一个好的搜集策略是有限搜集重要的网页。对于网页的重要程度的评定,要依据搜集信息所针对的不同应用而定,从而信息的搜集可以采取不同的策略。而目前这个问题尚无定论,一般按照如下几种指标来共同确定网页的重要性: 1)网页的入度大,也就是被引... 阅读全文

posted @ 2009-01-02 00:19 chen eric 阅读(266) 评论(0) 推荐(0) 编辑

摘要: 第二章 爬虫 Spider 简单地说,爬虫负责按照url列表爬取网页的内容,实际中需要针对不同的协议设计爬虫程序并优化。写一个优秀的爬虫不是件容易的事情,仅列举部分设计必须考虑到的问题。 1.严格按照robots.txt 来爬取内容,优先按照sitemap来抓取。 2.控制抓取的深度,量力而行。这个和人吃饭一次吃多少的道理是一样的。 3.网络上动态网页数量巨大,而爬虫一般是多线程的,如果爬虫对... 阅读全文

posted @ 2009-01-02 00:18 chen eric 阅读(558) 评论(0) 推荐(0) 编辑

摘要: 第一章 1.2 声明 Declaration 本文的主旨是提供学习的基本导向,并对一些重要的技术细节进行剖析,舍去很多拖沓的描述,力图给读者深度和广度全面的理解web搜索的基本机制。 /**********本文并不申明为权威工程应用指南************/ 阅读全文

posted @ 2009-01-02 00:18 chen eric 阅读(234) 评论(0) 推荐(0) 编辑

摘要: 第一章 1.1 兴趣的开始 Game Is Now Beginning Web上数十亿张网页,认真地在网络上乱逛发现最大的需求是:哪里有好东西?我们能用它们来做什么?每个人对他们自己认为的有效信息有不同的看法,且大多数人当他们一旦找到好东西的时候,总是有一些创造性的电子。在某些web的角落,鼓励用有趣的方式来重新组织和运用这些资讯,而这些不平凡的资讯组合不容怀疑地向前流动,他们相信信息时代的到... 阅读全文

posted @ 2009-01-02 00:17 chen eric 阅读(329) 评论(0) 推荐(0) 编辑

摘要: 第一章 概述 Summarization of Search Engine Architecture 搜索引擎的架构是编写一个搜索引擎所需要考虑的第一个问题,The Anatomy of a Large-Scale Hypertextual Web Search Engine 一文对此问题做了全面的阐述。最大的功能模块可以分为:爬虫、存储、索引和web服务。爬虫负责不间断地爬取目标网站的内容... 阅读全文

posted @ 2009-01-02 00:16 chen eric 阅读(329) 评论(0) 推荐(0) 编辑

摘要: 一直想找到一个好的同义词解决方案,在百度和google查找,大家对于这个问题都只是寥寥数语,不愿讲清,我在javaeye搜此类信息也求不到,后来发了个提问贴也只有浏览数而无回复,不知道这是什么原因,无奈之下我只有自己研究。 因为没有其它的解决方案可以借鉴,以下纯为我个人的见解。 我认为所谓近义词、关联词检索不外乎以下三种形式: 1.类似google suggest,用户... 阅读全文

posted @ 2009-01-02 00:07 chen eric 阅读(1599) 评论(1) 推荐(0) 编辑

摘要: Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取... 阅读全文

posted @ 2009-01-02 00:06 chen eric 阅读(224) 评论(0) 推荐(0) 编辑

2009年1月1日

摘要: 倒排文件的组织与最佳归并分析赵长林(西南民族学院数学系)摘要对倒排文件的组织与最佳归并进行较系统的分析,提出了倒排文件的存储结构与实现的方法,倒排文件上的算法分析,最佳归并顺序的分析与论证。关键词倒排文件,倒排表,最佳归并,最佳归并树中图法分类号TP31在数据库应用系统中,一项主要的工作是对文件的组织与操作,概括地讲,操作主要分两类,一类是检索,一类是修改,修改的前提是查找,成批查找记录就是检索... 阅读全文

posted @ 2009-01-01 23:56 chen eric 阅读(385) 评论(0) 推荐(0) 编辑

摘要: 自动分词是基于字符串匹配的原理进行的;所谓自动分词方法,指的是汉字字符串匹配 的进行方式。 1. 最大匹配法 亦称MM法;其基本思想是这样的,假设自动分词词典(或词库)中的最 长词条是i个字,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找词 典,若词典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来; 如果在词典中找不到这样一个i字词,则匹配失败,匹配字段去掉... 阅读全文

posted @ 2009-01-01 23:54 chen eric 阅读(688) 评论(0) 推荐(0) 编辑

2008年12月29日

摘要: Code Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->Request获取url信息的各种方法比较 测试的url地址是http://www.test.com/testweb/default.aspx, 结果如下: Request.Appli... 阅读全文

posted @ 2008-12-29 11:23 chen eric 阅读(304) 评论(0) 推荐(0) 编辑

上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 37 下一页