自动提取文章关键字,也谈“相关文章”
在不久前的网站改版中遇到一个相关文章选取的问题。以前的相关文章都是调取的同一分类下的最近几篇文章,新闻数量少还好说,但随着新闻数量的增加,相关程度越来越差,所以我们打算换一种方法,也就是通常的根据文章关键字来调取相关文章。可这里我们遇到困难了,以前的上万篇文章基本上编辑都没填写关键字啊!难道我们要一篇篇的去手动填?
有人提议下学期的新人,每人分配多少篇,不过还是觉得不太可取。
最终,我们采取了自动提取关键字的做法,当然没有手动的更贴切,但也算是一种偷懒的做法吧。最主要的还是用到了中科院的ICTCLAS分词系统。
相关文章: