2009 年 3月 27 日随笔档案 - 博文视点

2009年3月27日

摘要：为了在真实环境下试验分类器，也为了演示其不同的用途，我们可以将分类器应用于来自某个博客或RSS订阅源的内容项。为此，我们需要用到曾在第3章中介绍过的 Universal Feed Parser。如果你还没有下载相应的函数库，则可以通过访问http://feedparser.org进行下载。有关安装Feed Parser的更多信息请见附录A。尽管博客的内容中未必会包含垃圾信息，但是在众多博客所包含的文章中，并非所有的文章都是我们感兴趣的。这也许是因为我们只希望阅读属于某个分类的文章，或者某位作者所撰写的文章，不过通常而言实际情况要比这更为复杂。同样地，我们也可以针对自己感兴趣和不感兴趣的内容定义一些专门的规则——也许我们阅读了一个有关小件装置（gadget）的博客，并且对其中包含单词“cell phone”的内容不感兴趣——但是，假如利用前面已经构造好的分类器来为我们得出上述这些规则，其所需的工作量相对而言会更少一些。阅读全文

posted @ 2009-03-27 13:34 博文视点阅读(337) 评论(0) 推荐(0) 编辑

博文视点官方博客

技术凝聚实力专业创新出版与向上的心合作共同成长！

公告

博文视点官方博客

技术凝聚实力 专业创新出版 与向上的心合作 共同成长！

公告

技术凝聚实力专业创新出版与向上的心合作共同成长！