君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2013年6月7日 #

摘要: 转载自 http://my.oschina.net/xyly624/blog/122743今天在做個測試時,發現在 pom 文件內添加了一個新 jar 包的配置後報錯。第一反應是拼寫格式錯。但目測格式都正確,不得已只能從Maven 中央庫直接複製配置,錯誤還是存在。第二反應是 Maven 下載依賴失敗。進本地庫目錄查看果然只有 pom 文件存在,jar 包不存在。果斷架起梯子再次更新還是不更新 jar 包。映像中若目錄下存在"lastUpdated"後綴的文件代表更新失敗,但該目錄下沒有此類文件啊!奇怪了。翻開印象筆記找了下之前記錄下來的腳本,嘗試了下竟然成功了,說明有相關 阅读全文
posted @ 2013-06-07 22:20 刺猬的温驯 阅读(2359) 评论(0) 推荐(0) 编辑

摘要: 网上了解到Aperture框架能够实现从文件系统中抽取数据,Aperture的介绍如下:Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如... 阅读全文
posted @ 2013-06-07 08:50 刺猬的温驯 阅读(583) 评论(0) 推荐(0) 编辑

摘要: 首先需要安装Ubuntu SVN。Ubuntu下的SVN安装十分简单,sudo apt-get install subversion,然后根据提示一步一步,就完成了Ubuntu SVN的安装;想知道到Ubuntu SVN系统的真相么,想知道Ubuntu SVN系统中藏有的内在奥义么,只有我来给大家全面讲解介绍Ubuntu SVN系统,Ubuntu SVN作为日常开发中不可缺少的工具,今天终于开始在Ubuntu下使用了。1、首先需要安装Ubuntu SVN。Ubuntu下的SVN安装十分简单,sudo apt-get install subversion,然后根据提示一步一步,就完成了Ubunt 阅读全文
posted @ 2013-06-07 06:55 刺猬的温驯 阅读(244) 评论(0) 推荐(0) 编辑

摘要: 转载自http://www.ruanyifeng.com/blog/Unix(包含Linux)的初学者,常常会很困惑,不明白目录结构的含义何在。举例来说,根目录下面有一个子目录/bin,用于存放二进制程序。但是,/usr子目录下面还有/usr/bin,以及/usr/local/bin,也用于存放二进制程序;某些系统甚至还有/opt/bin。它们有何区别?长久以来,我也感到很费解,不明白为什么这样设计。像大多数人一样,我只是根据《Unix文件系统结构标准》(Filesystem Hierarchy Standard),死记硬背不同目录的区别。昨天,我读到了Rob Landley的简短解释,这才恍 阅读全文
posted @ 2013-06-07 05:12 刺猬的温驯 阅读(149) 评论(0) 推荐(0) 编辑

摘要: 转载自 http://www.ruanyifeng.com/blog/TCP/IP模型是互联网的基础。想要理解互联网,就必须理解这个模型。但是,它不好懂,我就从来没有搞懂过。前几天,BetterExplained上有一篇文章,很通俗地解释了这个模型。我读后有一种恍然大悟的感觉,第一次感到自己理解了互... 阅读全文
posted @ 2013-06-07 05:03 刺猬的温驯 阅读(158) 评论(0) 推荐(0) 编辑

摘要: 转载自 http://www.ruanyifeng.com/blog/有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由人完成的摘要叫"人工摘要",由机器完成的就叫"自动摘要"。许多网站都需要它,比如论文网站、新闻网站、搜索引擎等等。 阅读全文
posted @ 2013-06-07 05:00 刺猬的温驯 阅读(252) 评论(0) 推荐(0) 编辑

摘要: 转载自 http://www.ruanyifeng.com/blog/上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看电影。 句子B:我不喜欢看电视,也不喜欢看电影。请问怎样才能计算上面 阅读全文
posted @ 2013-06-07 04:59 刺猬的温驯 阅读(316) 评论(0) 推荐(0) 编辑

摘要: 转载自 http://www.ruanyifeng.com/blog/这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的 阅读全文
posted @ 2013-06-07 04:57 刺猬的温驯 阅读(730) 评论(0) 推荐(0) 编辑

摘要: 先讲两个很老的小故事。第一个故事。有一家日本最大的化妆品公司,收到了用户的投诉。用户抱怨买来的肥皂盒是空的。这家公司为了防止再发生这样的事故,很辛苦地发明了一台X光检查器,能够透视每一个出货的肥皂盒。同样的事故,发生在一家小公司。他们的解决方法是买一台强力的工业电扇,对着肥皂盒猛吹,被吹走的就是空肥皂盒。第二个故事。美国太空总署(NASA)发现在太空失重状态下,航天员无法用墨水笔写字。于是,他们花了大量经费,研发出了一种可以在失重状态下写字的太空笔。猜猜看,俄国人是怎么解决的?(答案在本文结尾处。)=====================这几天,我在看Unix,发现很多人在谈“Unix哲学” 阅读全文
posted @ 2013-06-07 04:54 刺猬的温驯 阅读(191) 评论(0) 推荐(0) 编辑