随笔分类 - nlp基础
摘要:##词向量 ###One-Hot Encoding 要点 词汇表的大小|V|=N, 用N维的向量表示一个词,每个词的one-hot中1 11的位置就对应了该词在词汇表的索引。 缺点 无法反映词之间的相似度,因为使用one-hot方法表示的词向量,任意两个向量的积是相同的都为0 ###word2vec
阅读全文
摘要:word2vec 详解 传统的word2vec 神经网络将词表中的词语作为输入(一般输入哑编码的单词),输出一个低维度的向量表示这个词语,然后用反向传播的方法不断优化参数。输出的低维向量是神经网络第一层的输出,这一层通常也称作Embedding Layer。 缺点: 使用的是全连接的方法,造成计算量
阅读全文
摘要:word2vec实战:获取处理中文维基百科(Wikipedia)语料库,训练成word2vec模型,并实现词云的应用 背景 word2vec 谷歌开源项目,主要理论有Tomas Mikolov团队2篇论文组成,下载链接如下: https://arxiv.org/pdf/1301.3781.pdf h
阅读全文
摘要:神经网络 Embedding 背景知识 Embedding 层理解 作用: 1 高位稀疏 特征向量 到低维稠密特征向量的转换; 2 嵌入层将正整数(下标)转换为具有固定大小的向量; 3 把一个one hot 向量变为一个稠密向量; Embedding 实质是一种映射, 从语义空间到向量的映射,同时尽
阅读全文
摘要:Natural Language Processing(NLP, 自然语言处理) 目的:让计算机处理或“理解”自然语言,以执行语言翻译和问题回答等任务 常见应用: • 关键词提取、概要抽取 • 命名实体识别(提取价格、日期、人员、公司等) • 关系抽取 • 分类:文本分类、情感分析等 • 机器翻译
阅读全文
摘要:window换将下安装,配置neo4j并服务化 neo4j依赖jdk开发环境,不同版本neo4j,对jdk开发版本要求不同 一、JDK安装 1、jdk下载 下载地址:https://www.cnblogs.com/qc-id-01/p/10396089.html ! 找到对应系统的版本号,并下载 2
阅读全文