Mixture

身未动,心已远

导航

2014年3月28日 #

关键词分类项目总结

摘要: 仔细看了关键词分类项目的冠军队HadoopEagleEye的代码,这里做个总结。项目的目标是对搜索关键词进行分类(共33类),可以利用的辅助信息包括每个关键词的搜索结果(前10条搜索结果的标题),以及广告主与其购买的搜索关键词的对应关系(多对多的关系,并且并非每个关键词都被购买)。已标注的数据约100W条,需要进行预测的数据约1000W。HadoopEagleEye只用到了关键词文件(keyword_class.txt,仅包含关键词keyword以及标注结果label),大致处理流程如下:1.数据预处理分词它采用了两种分词方式,分别用nchar和perm代替,这两种方式是这样的nchar: 对 阅读全文

posted @ 2014-03-28 13:46 parapax 阅读(334) 评论(0) 推荐(0) 编辑