摘要: 将文本数据表示成计算机能够运算的数字或向量 离散表示 独热编码(One-hot) 思想: 将语料库中所有的词拉成一个向量,给每个词一个下标,就得到对应的词典。每个分词的文本表示为该分词的比特位为1,其余位为0的矩阵表示。 词袋模型(Bag of Words) 思想: 把每篇文章看成一袋子词,并忽略每 阅读全文
posted @ 2021-01-18 23:41 知亦行 阅读(570) 评论(0) 推荐(0) 编辑