词袋模型:词语统计方法的文本向量化

原文:

       文本向量化表示——词袋模型 - 知乎 (zhihu.com)

 

通过阅读原文后,总结如下:

  词袋模型就是:

    对文本分词;

    对每个词语进行独热编码;

    统计词语出现的次数,加入到词语对应的维度上。

    最终得到的向量便是这个文本的向量。

 

  词袋模型的缺点:

    只用词语出现的频率来突出文本主题(或者说是代表文本),却忽略了词语之间语法和语序对文本意思的影响,这里举一个语序对文本意思带来的180度的影响的例子:

      文本一:

         我是你爸爸

      VS  

      文本二:

         你是我爸爸

      这两句话用词袋模型表示的向量是一样的,但是两句话的意思截然不同。

    

posted @   Hisi  阅读(241)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话
点击右上角即可分享
微信分享提示