摘要: 首先是爬取了我们学校贴吧的贴吧数据,每个帖子都有是否是精品贴的标签。 根据帖子标题信息,实现了贴吧精品贴和普通贴的分类。错误率在10%左右。 切词用的是jieba吧,没有过滤点停用词和标点符号,因为标点符号其实也是可以算是区分帖子是否是精品贴的而一个重要特征;其实还可以增加几个特征,比如第一页是否含 阅读全文
posted @ 2016-11-03 23:37 coskaka 阅读(658) 评论(0) 推荐(0) 编辑