词袋模型:词语统计方法的文本向量化
原文:
文本向量化表示——词袋模型 - 知乎 (zhihu.com)
通过阅读原文后,总结如下:
词袋模型就是:
对文本分词;
对每个词语进行独热编码;
统计词语出现的次数,加入到词语对应的维度上。
最终得到的向量便是这个文本的向量。
词袋模型的缺点:
只用词语出现的频率来突出文本主题(或者说是代表文本),却忽略了词语之间语法和语序对文本意思的影响,这里举一个语序对文本意思带来的180度的影响的例子:
文本一:
我是你爸爸
VS
文本二:
你是我爸爸
这两句话用词袋模型表示的向量是一样的,但是两句话的意思截然不同。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话