随笔分类 - 自然语言处理(NLP)
摘要:将一系列核心特征转换成分类器可接收的特征向量。即输入 x 两种方案 独热编码(one-hot) 每个特征都用单独一维来表示(其中只有一维值为1,其余维为0) 特点:维度高、且很稀疏,向量维度与不同特征的数目相同,特征空间完全相互独立 稠密编码 每个核心特征都被嵌入到 d 维空间中,并用空间中的一个向
阅读全文
摘要:学习笔记 基于深度学习的自然语言处理(中文版)-- 车万翔 等译 基本概念 在语言处理中,向量 x 来源于文本数据,能够反映文本数据所具有的多种语言学特征 从文本数据到具体向量的映射称为 “特征提取” 和 “特征表示”,通过 “特征方程” 所完成 对语言数据,其以一些列离散的符号形式存在,这个序列需
阅读全文
摘要:文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上
阅读全文
摘要:1. 词嵌入算法 基于神经网络的表示一般称为词向量、词嵌入(word embedding)或分布式表示(distributed representation)。其核心是上下文的表示以及上下文与目标词之间的关系映射,主要通过神经网络对上下文,以及上下文和目标词之间的关系进行建模。 2. 词向量 最常见
阅读全文
摘要:NLP基础技术 关键词提取 应用: 文本聚类、分类、自动摘要等 有监督: 构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式来提取关键词 优点:较高的精度 缺点:大批量的标注数据,人工成本高(每天有大量新信息,固定词表难以表达) 无监督: 不需要词表,目前
阅读全文