随笔分类 -  NLP

Graph embedding(2)----- DeepWalk、Node2vec、LINE
摘要:一、DeepWalk (2014KDD) 1、思想 随机游走+Word2vec 该算法使用随机游走(Random Walk)的方式在图中进行序列的采样. 在获得足够数量的满足一定长度的节点序列之后,就使用word2vec类似的方式,将每一个点看做单词,将点的序列看做是句子,进行训练. Random 阅读全文

posted @ 2020-04-20 16:59 吱吱了了 阅读(5957) 评论(3) 推荐(1) 编辑

知识图谱表示
摘要:概念: 知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。 表示方法:传统+向量 传统的知识图谱表示方法是采用OWL、RDF、RDFS(改进)等本体语言进行描述; RDF:(Re 阅读全文

posted @ 2019-12-04 23:33 吱吱了了 阅读(2650) 评论(0) 推荐(0) 编辑

NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
摘要:目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-product attention \ multi-head attention) 3. self-attent 阅读全文

posted @ 2019-08-27 11:52 吱吱了了 阅读(1965) 评论(0) 推荐(1) 编辑

NLP学习(4)----word2vec模型
摘要:一. 原理 哈弗曼树推导: https://www.cnblogs.com/peghoty/p/3857839.html 负采样推导: http://www.hankcs.com/nlp/word2vec.html https://github.com/kmkolasinski/deep-learn 阅读全文

posted @ 2019-08-26 11:12 吱吱了了 阅读(408) 评论(0) 推荐(0) 编辑

改进Bert----spanBERT
摘要:SpanBert:对 Bert 预训练的一次深度探索 SpanBERT: Improving Pre-training by Representing and Predicting Spans 解读SpanBERT:《Improving Pre-training by Representing an 阅读全文

posted @ 2019-08-19 19:08 吱吱了了 阅读(1740) 评论(0) 推荐(0) 编辑

少量数据文本分类避免过拟合的方法
摘要:转载:https://www.cnblogs.com/jiangxinyang/p/10219709.html 1 概述 虽说现在深度学习在文本分类上取得了很大的进步,但是很多时候在工业界没有与之匹配的数据量,在少量数据的情况下,使用深度学习很容易出现过拟合,而此时使用传统的TF-IDF加机器学习又 阅读全文

posted @ 2019-07-31 11:47 吱吱了了 阅读(616) 评论(0) 推荐(0) 编辑

NLP学习(3)---Bert模型
摘要:一、BERT模型: 前提:Seq2Seq模型 前提:transformer模型 bert实战教程1 使用BERT生成句向量,BERT做文本分类、文本相似度计算 bert中文分类实践 用bert做中文命名实体识别 BERT相关资源 BERT相关论文、文章和代码资源汇总 1、WordEmbedding到 阅读全文

posted @ 2019-07-25 17:38 吱吱了了 阅读(1553) 评论(0) 推荐(0) 编辑

NLP传统基础(3)---潜在语义分析LSA主题模型---SVD得到降维矩阵
摘要:https://www.jianshu.com/p/9fe0a7004560 一、简单介绍 LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;不同的是,LSA 将词和文档 阅读全文

posted @ 2019-07-17 18:46 吱吱了了 阅读(1482) 评论(0) 推荐(0) 编辑

NLP学习(1)---Glove模型---词向量模型
摘要:一、简介: 1、概念:glove是一种无监督的Word representation方法。 Count-based模型,如GloVe,本质上是对共现矩阵进行降维。首先,构建一个词汇的共现矩阵,每一行是一个word,每一列是context。共现矩阵就是计算每个word在每个context出现的频率。由 阅读全文

posted @ 2019-07-17 18:30 吱吱了了 阅读(10980) 评论(0) 推荐(1) 编辑

NLP学习(2)----文本分类模型
摘要:实战:https://github.com/jiangxinyang227/NLP-Project 一、简介: 1、传统的文本分类方法:【人工特征工程+浅层分类模型】 (1)文本预处理: ①(中文) 文本分词 正向/逆向/双向最大匹配; 基于理解的句法和语义分析消歧; 基于统计的互信息/CRF方法; 阅读全文

posted @ 2019-07-11 13:38 吱吱了了 阅读(9275) 评论(0) 推荐(1) 编辑

NLP传统基础(2)---LDA主题模型---学习文档主题的概率分布(文本分类/聚类)
摘要:一、简介 https://cloud.tencent.com/developer/article/1058777 1、LDA是一种主题模型 作用:可以将每篇文档的主题以概率分布的形式给出【给定一篇文档,推测其主题分布】。我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布。 从而通过分析一些文 阅读全文

posted @ 2019-07-08 11:47 吱吱了了 阅读(3235) 评论(0) 推荐(0) 编辑

NLP传统基础(1)---BM25算法---计算文档和query相关性
摘要:一、简介:TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之间相关性的算法。通俗地说:主要就是计算一个query里面所有词q和文档的相关度,然后再把分数做累加操 阅读全文

posted @ 2019-07-08 11:00 吱吱了了 阅读(3236) 评论(0) 推荐(0) 编辑

tensorflow实战笔记(18)----textCNN
摘要:一、import 包 import os import pandas as pd import csv import time import datetime import numpy as np import tensorflow as tf import re import sys from _ 阅读全文

posted @ 2019-07-04 17:15 吱吱了了 阅读(1336) 评论(0) 推荐(0) 编辑

Self-Attetion
摘要:四、self-attention 1、是什么? attention机制通常用在encode与decode之间,但是self-attention则是输入序列与输出序列相同,寻找序列内部元素的关系即 K=V=Q。l例如《Attention Is All You Need》在编码器中使用self-atte 阅读全文

posted @ 2019-06-01 22:28 吱吱了了 阅读(681) 评论(0) 推荐(0) 编辑

Attention-based Model
摘要:一、Attention与其他模型 1、LSTM、RNN的缺点:输入的Memory长度不能太长,否则参数会很多。 采用attention可以输入长Memory,参数不会变多。 2、Sequence to Sequence Learning : 输入和输出的句子长度可以不一样,常用来做句子翻译。 比如: 阅读全文

posted @ 2019-05-27 00:40 吱吱了了 阅读(1348) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示