代码改变世界

Nutch中metadata的分析

2006-10-20 00:30 by cppguy, 859 阅读, 0 推荐, 收藏, 编辑
摘要:Nutch中metadata的分析,以及.net实现的建议 阅读全文

Nutch中Crawl的分析

2006-10-19 23:54 by cppguy, 313 阅读, 0 推荐, 收藏, 编辑
摘要: 阅读全文

Nutch中Fetcher的分析

2006-10-19 23:23 by cppguy, 489 阅读, 0 推荐, 收藏, 编辑
摘要:todo 阅读全文

UTF8的认识(转载)

2006-10-19 23:15 by cppguy, 491 阅读, 0 推荐, 收藏, 编辑
摘要:UTF-8是一种在web里很常用的编码方式 阅读全文

CcSearch的介绍

2006-10-19 22:04 by cppguy, 620 阅读, 0 推荐, 收藏, 编辑
摘要:cc授权机制和搜索引擎 阅读全文

且听风吟

2006-10-19 00:15 by cppguy, 317 阅读, 0 推荐, 收藏, 编辑
摘要:柱杖芒鞋轻胜马 阅读全文

Transition On Seasons

2006-10-13 12:17 by cppguy, 258 阅读, 0 推荐, 收藏, 编辑
摘要:一点浩然气,千里快哉风 阅读全文

Nutch最近的邮件列表

2006-10-12 17:38 by cppguy, 447 阅读, 0 推荐, 收藏, 编辑
摘要:一: 问:我在linux(FC3)上安装了Nutch 0.8.1,虚拟机环境是:java 1.5.0_07.当我运行crawl命令的时候,出现了以下错误: 2006-10-11 15:39:16,234 FATAL api.RobotRulesParser - Agent we advertise(null) not listed first in 'http.robots.agents' pro... 阅读全文

Nutch代码分析之1(Hadoop和creative commons)

2006-09-25 17:38 by cppguy, 842 阅读, 0 推荐, 收藏, 编辑
摘要:Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。 就如同java程序员可以不考虑内存泄露一样,MapReduce程序员也不许要关心海量数据如何被分配到多台机器上,不需要考虑机器失效的处理,不需要考虑这些机器间如何协作共同完成工作... 阅读全文

Nutch的自动运行

2006-09-14 01:00 by cppguy, 2627 阅读, 0 推荐, 收藏, 编辑
摘要:1:在Windows下调用nutch的脚本,可实现自动运行,这样做可以不用crywin来模拟linux,下面式win xp调用nutch的脚本nutch.bat@cmd /V:on /c %~dp0nutch1.bat %* nutch1.bat@echo onrem ****************************************************************... 阅读全文