摘要:一、DeepWalk (2014KDD) 1、思想 随机游走+Word2vec 该算法使用随机游走(Random Walk)的方式在图中进行序列的采样. 在获得足够数量的满足一定长度的节点序列之后,就使用word2vec类似的方式,将每一个点看做单词,将点的序列看做是句子,进行训练. Random
阅读全文
摘要:概念: 知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。 表示方法:传统+向量 传统的知识图谱表示方法是采用OWL、RDF、RDFS(改进)等本体语言进行描述; RDF:(Re
阅读全文
摘要:目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-product attention \ multi-head attention) 3. self-attent
阅读全文
摘要:一. 原理 哈弗曼树推导: https://www.cnblogs.com/peghoty/p/3857839.html 负采样推导: http://www.hankcs.com/nlp/word2vec.html https://github.com/kmkolasinski/deep-learn
阅读全文
摘要:SpanBert:对 Bert 预训练的一次深度探索 SpanBERT: Improving Pre-training by Representing and Predicting Spans 解读SpanBERT:《Improving Pre-training by Representing an
阅读全文
摘要:转载:https://www.cnblogs.com/jiangxinyang/p/10219709.html 1 概述 虽说现在深度学习在文本分类上取得了很大的进步,但是很多时候在工业界没有与之匹配的数据量,在少量数据的情况下,使用深度学习很容易出现过拟合,而此时使用传统的TF-IDF加机器学习又
阅读全文
摘要:一、BERT模型: 前提:Seq2Seq模型 前提:transformer模型 bert实战教程1 使用BERT生成句向量,BERT做文本分类、文本相似度计算 bert中文分类实践 用bert做中文命名实体识别 BERT相关资源 BERT相关论文、文章和代码资源汇总 1、WordEmbedding到
阅读全文
摘要:https://www.jianshu.com/p/9fe0a7004560 一、简单介绍 LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;不同的是,LSA 将词和文档
阅读全文
摘要:一、简介: 1、概念:glove是一种无监督的Word representation方法。 Count-based模型,如GloVe,本质上是对共现矩阵进行降维。首先,构建一个词汇的共现矩阵,每一行是一个word,每一列是context。共现矩阵就是计算每个word在每个context出现的频率。由
阅读全文
摘要:实战:https://github.com/jiangxinyang227/NLP-Project 一、简介: 1、传统的文本分类方法:【人工特征工程+浅层分类模型】 (1)文本预处理: ①(中文) 文本分词 正向/逆向/双向最大匹配; 基于理解的句法和语义分析消歧; 基于统计的互信息/CRF方法;
阅读全文
摘要:一、简介 https://cloud.tencent.com/developer/article/1058777 1、LDA是一种主题模型 作用:可以将每篇文档的主题以概率分布的形式给出【给定一篇文档,推测其主题分布】。我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布。 从而通过分析一些文
阅读全文
摘要:一、简介:TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之间相关性的算法。通俗地说:主要就是计算一个query里面所有词q和文档的相关度,然后再把分数做累加操
阅读全文
摘要:一、import 包 import os import pandas as pd import csv import time import datetime import numpy as np import tensorflow as tf import re import sys from _
阅读全文
摘要:四、self-attention 1、是什么? attention机制通常用在encode与decode之间,但是self-attention则是输入序列与输出序列相同,寻找序列内部元素的关系即 K=V=Q。l例如《Attention Is All You Need》在编码器中使用self-atte
阅读全文
摘要:一、Attention与其他模型 1、LSTM、RNN的缺点:输入的Memory长度不能太长,否则参数会很多。 采用attention可以输入长Memory,参数不会变多。 2、Sequence to Sequence Learning : 输入和输出的句子长度可以不一样,常用来做句子翻译。 比如:
阅读全文