摘要: 网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用... 阅读全文
posted @ 2006-03-16 19:46 xzcastle 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: RSS 是一种站点内容聚合的格式。 它的名字是Really Simple Syndication 的的简写。 RSS是XML的一种。所有的RSS文档都遵循 XML 1.0规范, 该规范发布在W3C网站上。 这里是RSS版本历史的一个概要。 在一个RSS文档中,最外层是一个元素,这个元素必须规定version属性,该属性明确了本文档遵从何种RSS版本规范。如果一个RSS文档以这个规范来表示,那么它的... 阅读全文
posted @ 2006-03-16 17:18 xzcastle 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 简介 随着办公室和家庭上网在线时间的延长,以及 Web 站点和可访问的互联网应用程序呈持续爆炸性增长,应用程序之间能数据共享变得越来越重要。在异构平台之间共享数据需要一种平台中立的数据格式,这种数据格式要求能易于通过标准的互联网协议来传输,而这正是XML的用武之地。因为XML文件本质上只是一个文本文件,其编码格式众所周知,而且现有的XML解析器能为所有主流编程语言所用,所以XML数据能被任何... 阅读全文
posted @ 2006-03-16 15:13 xzcastle 阅读(367) 评论(1) 推荐(0) 编辑
摘要: RSS 是一种站点内容聚合的格式。 它的名字是Really Simple Syndication 的的简写。 RSS是XML的一种。所有的RSS文档都遵循 XML 1.0规范, 该规范发布在W3C网站上。 这里是RSS版本历史的一个概要。 在一个RSS文档中,最外层是一个元素,这个元素必须规定version属性,该属性明确了本文档遵从何种RSS版本规范。如果一个RSS文档以这个规范来表示,那么它的... 阅读全文
posted @ 2006-03-16 15:05 xzcastle 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 1 联合两个索引查询,已解决: IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_outindexpath); MultiSearcher multiSearcher = ... 阅读全文
posted @ 2006-03-16 12:33 xzcastle 阅读(488) 评论(0) 推荐(0) 编辑