摘要: 对于千万行级别的数据,处理起来非常麻烦,例如有一个文件a.txt,大小超过2GB,共2000多万行,每行是一个新闻的相关信息,其中有一列为新闻标题,字符串型,新闻标题较长,现需要对新闻标题进行聚类,将类似标题的新闻归为一类,并将其中代表性的标题作为这一组新闻的标题。 例如"海量数据处理经验交流会今天 阅读全文
posted @ 2016-03-09 13:07 morein2008 阅读(584) 评论(0) 推荐(0) 编辑