构建短文本分类模型需要注意的几点
一、深度学习模型
1.CNN
2.LSTM
3.Attention
二、与传统机器学习模型的比较
1.SVM
2.LR
3.GBDT
4.XGBoost
5.RandomForest
6.LightGBM
三、文本特征选择
1.一般短文本的长度在200字符左右,需要更加精巧的模型来判别
2.对于网络群聊短文本,包含各种特殊字符,表情符,@符号等。那么这些字符在预处理的时候是否需要去掉?还是将所有的字符都扔进模型中?这是需要考虑的问题
3.语言模型是nlp领域处理的基础,特征抽取时需要注意不要丢掉语言学信息
4.预训练词向量的选择,是否使用预训练词向量,需要做结果对比。如果引入预训练词向量带来的效果不大,可以使用随机初始。预训练词向量的选择:腾讯开源,自身构建
5.结合单词词向量、分词位置词向量、词性信息三者提取文本特征,通过concat构建新的特征向量
6.在文本表示上,可以使用RNN最后一个时刻的输出作为文本的表示,也可以综合考虑每个时刻的输出
时刻记着自己要成为什么样的人!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2017-12-20 类和数据库的扫盲
2017-12-20 深入理解SQL的四种连接-左外连接、右外连接、内连接、全连接(经典)