2012年2月1日

cygwin下使用nutch的一个注意点

摘要: 对于像我一样的新手,应该都是按照网上的列子边配置边练习的吧。既然如此,就很可能会遇到一些一篇文章的错误,结果满网络都是错误的时候。我照着一个作者的文章一步一步往下走,就出错了。作者说“cygwin所示的当前目录为:/cygdrive/d/nutch/nutch-0.9在此目录下执行命令:bin/nutch,如果正确的话,会有Usage:nutch COMMAND提示”结果,我无论如何都提示“-bash: bin/nutch: No such file or directory”。百度谷歌之,发现到处都是这个错误,只有“跪求”和“同问”,却没有人回答。后来仔细一想,也许是目录有错?输入“cd s 阅读全文

posted @ 2012-02-01 17:09 好学无止境 阅读(282) 评论(0) 推荐(0) 编辑

nutch学习第一天

摘要: 首先看了nutch的基本定义和用法。1 创建一个新的WebDb admin db -create2 将抓取起始urls写入WebDb inject3 根据WebDb生成fetchlist并写入相应的segment generate4 fetcher根据fetchlist中的url抓取网页 fetch5 根据抓取的网页更新WebDb updatedb6 循环执行3-5步直至达到预先设定的抓取深度7 根据WebDb中的网页评分和links更新segments updatesegs8 将网页建立索引 index9 丢弃索引中有重复内容的网页和重复的urls dedup10 将segments中的索引 阅读全文

posted @ 2012-02-01 17:03 好学无止境 阅读(174) 评论(0) 推荐(0) 编辑

要时刻努力

摘要: 还在学校的时候,常常听到一句话“在学校学的东西都是lj,工作上一点用处都没有,还得重新学新知识”。那时候的理解,仅仅局限于字面意思,因此常常“好读书不求甚解”。踏入社会,最先想起的又是这句话。不过已经开始理解它的深刻含义了。不是说lj就不要学了,而是正因为是lj,才更要好好学,学的更多。不要幻想着,进入公司再慢慢学起。国内的企业,注重新人培养的很少,一发招聘,就是“有2年以上工作经验的同学”。我去应聘的那些公司,一听说是应届生,客套寒暄几句,面试就基本结束。今天咨询了一个前辈,他说,看简历,你没有什么亮点。可以自学一下hadoop、hbase、nutch,再熟悉一下linux,这样的话,你的简 阅读全文

posted @ 2012-02-01 14:59 好学无止境 阅读(119) 评论(0) 推荐(0) 编辑

导航