代码改变世界

IronPython

2006-09-14 00:03 by cppguy, 508 阅读, 0 推荐, 收藏, 编辑
摘要:IronPython是Pyhon在.NET环境下新的实现 阅读全文

Plugin中心(翻译)

2006-09-07 12:33 by cppguy, 852 阅读, 0 推荐, 收藏, 编辑
摘要:plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。 为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordParser这个插件是用来分析wordwendang的,它... 阅读全文

Nutch 0.8最近更新的邮件列表

2006-09-05 01:41 by cppguy, 396 阅读, 0 推荐, 收藏, 编辑
摘要:怎样向Nutch中添加筛取Http流的正则表达式的业务逻辑?你应该写一个新的plugin,使用src/plugin/creativecommons作为模版创建适用自己的pluginYou can start from here.. http://wiki.apache.org/nutch/ About writing plugin http://wiki.apache.org/nutch/Plug... 阅读全文

C#中的字符串

2006-09-04 21:08 by cppguy, 302 阅读, 0 推荐, 收藏, 编辑
摘要:在做网页信息抽取的时候,需要对一些编码搞清楚,这里罗列一些 c#内部是使用16位的unicode编码(utf-16)来表示的字符串,因此无论中文还是英文都是2字节的。 System.Char结构中一个最有用的方法是GetUnicodeCategory().这个静态的方法将传输给他的字符类型分为30种。一些判断的方法是:Char.IsWhiteSpace(mString,5),Char.IsPun... 阅读全文

javascript学习笔记

2006-09-01 03:47 by cppguy, 226 阅读, 0 推荐, 收藏, 编辑
摘要:javascript是一种轻型的.解释型的程序设计语言.而且具有面向对象的能力.该语言的通用核心已经嵌入了Netscape.Internet Explorer和其他的Web浏览器中,而且它能用表示Web浏览器窗口及其内容的对象使Web程序设计增色不少.javascript的 客户端版本把可执行的 内容添加 到了网页中,这样一来,网页就不再是静态的HTML了,而是包含于用户进行交互的程序,控制浏览器... 阅读全文

使用XSLT进行XML的解析

2006-08-31 04:15 by cppguy, 320 阅读, 0 推荐, 收藏, 编辑
摘要:XSLT(XSL Transformations)是把某一XML文档转换成其他格式的实际语言. 最简单的应用情况首先涉及到两个文档: 包含原始数据的XML文档和用来转换该文档的XSLT风格表单. XSLT处理器把XSLT风格表单的规则应用到XML文档从而新建XHTML,WML.SVG或者几乎其他任何的XML格式的第三方文挡 XSLT是XML的外观显示器. 阅读全文

Nutch 0.8在windows下使用的说明

2006-08-31 01:22 by cppguy, 665 阅读, 0 推荐, 收藏, 编辑
摘要:Nutch 0.8在2006.7.25在其官方网站上正式发布,此版本在以前的基础上做了很大的改进.因此在进行爬行的时候不能完全按照各版本的方法进行.本人已经成功安装和使用,具体使用如下:辅助软件1、Java 1.4.x ;2、Apache's Tomcat 4.x ;3、Cygwin ; 使用 1、新建环境变量或添加环境变量新值PATH= F:\nutch-0.8\bin;(NUTCH-0.8的安... 阅读全文

剖析NUTCH爬虫[转贴]

2006-08-31 00:37 by cppguy, 1724 阅读, 0 推荐, 收藏, 编辑
摘要:针对整个爬行抓取过程做了简要的分析 阅读全文

介绍Nutch(翻译)

2006-08-28 23:14 by cppguy, 1343 阅读, 1 推荐, 收藏, 编辑
摘要: 介绍Nutch(1)(翻译)[原创] 原文地址:http://today.java.net/pub/a/today/2006/01/10/intro... Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引. 抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立... 阅读全文

应用lucene.net进行搜索测试

2006-08-27 14:23 by cppguy, 2087 阅读, 1 推荐, 收藏, 编辑
摘要:已经应用lucene.net建立了全文索引,接下来演示用它来对关键字进行搜索 阅读全文