摘要: (文章为本人原创,转载请注明出处) 做团队项目的过程中,有一个工作就是要从文本中提取关键词。 我们接收到的文档的样子可能就是一个html的文档,对于这个html文档,有什么样的提取其关键词的策略呢? 因为初期做的是一个alpha版本,也就没有足够的时间实现一个好的方法,大概说一下这个版本中我的基本解决方案是: 1)、文档中已经存在关键词 对于一个html网页,有些网页实际上是已经提供了关键词了的。但是通常情况下还是存在一些问题的,要么是关键词不是很准确,要么就是关键词数量不够,不能完全概括文章内容。但是话又说回来,提取关键词这一步,谁又能够保证自己的算法做到完全的准确呢?所以,我... 阅读全文
posted @ 2012-11-09 13:57 shoumu 阅读(4643) 评论(0) 推荐(0) 编辑