构建短文本分类模型需要注意的几点

一、深度学习模型

　　1.CNN

　　2.LSTM

　　3.Attention

　　1.SVM

　　2.LR

　　3.GBDT

　　4.XGBoost

　　5.RandomForest

　　6.LightGBM

　　1.一般短文本的长度在200字符左右，需要更加精巧的模型来判别

　　2.对于网络群聊短文本，包含各种特殊字符，表情符，@符号等。那么这些字符在预处理的时候是否需要去掉？还是将所有的字符都扔进模型中？这是需要考虑的问题

　　3.语言模型是nlp领域处理的基础，特征抽取时需要注意不要丢掉语言学信息

　　4.预训练词向量的选择，是否使用预训练词向量，需要做结果对比。如果引入预训练词向量带来的效果不大，可以使用随机初始。预训练词向量的选择：腾讯开源，自身构建

　　5.结合单词词向量、分词位置词向量、词性信息三者提取文本特征，通过concat构建新的特征向量

　　6.在文本表示上，可以使用RNN最后一个时刻的输出作为文本的表示，也可以综合考虑每个时刻的输出

posted @ 2018-12-20 16:07 今夜无风阅读(958) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

历史上的今天：
2017-12-20 类和数据库的扫盲
2017-12-20 深入理解SQL的四种连接-左外连接、右外连接、内连接、全连接（经典）

昵称：今夜无风
园龄： 11年7个月
粉丝： 47
关注： 2

2025年3月

日

一

二

三

四

五

六