摘要:
1. one-hot 向量 我们先了解一下 \(\text{one-hot}\) 向量。\(\text{one-hot}\) 编码是表示分类变量的常见方法,尤其在数据预处理和机器学习的特征工程中。一个 \(\text{one-hot}\) 向量是一个其中只有一个元素是 1,其余为 0 的向量。 假设 阅读全文
摘要:
1. 单词与向量 1.1 Term-document 矩阵 Term-document 矩阵是信息检索和文本挖掘中常用的一种表示方法,这种矩阵是一个二维表格,用来表示词(term)在文档(document)集合中的分布情况。在这个矩阵中,行通常代表词汇(terms),列代表文档。矩阵中的每一个元素, 阅读全文