摘要: 为了在真实环境下试验分类器,也为了演示其不同的用途,我们可以将分类器应用于来自某个博客或RSS订阅源的内容项。为此,我们需要用到曾在第3章中介绍过的 Universal Feed Parser。如果你还没有下载相应的函数库,则可以通过访问http://feedparser.org进行下载。有关安装Feed Parser的更多信息请见附录A。 尽管博客的内容中未必会包含垃圾信息,但是在众多博客所包含的文章中,并非所有的文章都是我们感兴趣的。这也许是因为我们只希望阅读属于某个分类的文章,或者某位作者所撰写的文章,不过通常而言实际情况要比这更为复杂。同样地,我们也可以针对自己感兴趣和不感兴趣的内容定义一些专门的规则——也许我们阅读了一个有关小件装置(gadget)的博客,并且对其中包含单词“cell phone”的内容不感兴趣——但是,假如利用前面已经构造好的分类器来为我们得出上述这些规则,其所需的工作量相对而言会更少一些。 阅读全文
posted @ 2009-03-27 13:34 博文视点 阅读(335) 评论(0) 推荐(0) 编辑