摘要: 文本特征提取方法研究一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、... 阅读全文
posted @ 2015-09-08 15:11 欣欣点灯 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 天池微博大赛攻略进阶分享者:新浪微博互动预测大赛冠军紫净一.训练目标本次比赛制胜的最关键点就是搞清楚训练目标。如果使用XLAB或其它算法包上的已有算法,一般的大致思路是这样的:构造各种特征,使用GBDT,RF等分别预测每条微博的转发,评论与点赞数量,然后作为答案。但很遗憾,如果你预测的是连续值,XL... 阅读全文
posted @ 2015-09-08 14:01 欣欣点灯 阅读(2402) 评论(0) 推荐(0) 编辑