摘要: 比如这次改版后的百度新闻,那就必须揉合多种算法,而且必须从本质做大的提升。姑且不说强度很高的文本相似性算法,就说分类,必须提升现在常见的分类算法。因为它分类分得非常细。 这时候,必须自己研发。 单纯就百度新闻的互联网频道,就好几个子类。十几个大频道,每个都有各种各样很细小的分类,语言特征很模糊。 我问过他们,这都是机器自动的,几乎接近于传统媒体网站一大堆编辑的水平了,语义能到这种可商用的强度就难了。 算法不是一朝一夕能偷师的。 所以,技术门槛还是比较高的。 阅读全文
posted @ 2008-02-29 02:34 老兵笔记 阅读(658) 评论(1) 推荐(0) 编辑