摘要: 基于seq2seq文本生成的解码/采样策略 基于Seq2Seq模型的文本生成有各种不同的decoding strategy。文本生成中的decoding strategy主要可以分为两大类: Argmax Decoding: 主要包括beam search, class-factored softm 阅读全文
posted @ 2021-04-22 18:35 MissHsu 阅读(1216) 评论(0) 推荐(0) 编辑
摘要: NLP数据增强 1. UDA (Unsupervised Data Augmentation)【推荐】 一个半监督的学习方法,减少对标注数据的需求,增加对未标注数据的利用。 UDA使用的语言增强技术——Back-translation:回译能够在保存语义不变的情况下,生成多样的句式。 UDA关键解决 阅读全文
posted @ 2021-04-22 18:29 MissHsu 阅读(300) 评论(0) 推荐(0) 编辑
摘要: Teacher forcing是什么? RNN 存在两种训练模式(mode): free-running mode: 上一个state的输出作为下一个state的输入。 teacher-forcing mode: 使用来自先验时间步长的输出作为输入。 teacher forcing要解决什么问题? 阅读全文
posted @ 2021-04-22 18:21 MissHsu 阅读(12123) 评论(0) 推荐(6) 编辑
摘要: NLP三大特征抽取器(CNN/RNN/TF)比较 参考知乎张俊林:https://zhuanlan.zhihu.com/p/54743941 1. NLP任务 1.1 NLP任务特点 输入是一个线性序列 输入是不定长的 单词或句子的相对位置关系很重要,两个词位置互换可能导致完全不同的意思 句子中的长 阅读全文
posted @ 2021-04-19 09:47 MissHsu 阅读(1122) 评论(0) 推荐(0) 编辑
摘要: 相似度计算方法 1. 文本距离 1.1 编辑距离(Edit Distance) 编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。**如果两个字符串的编辑距离越大,说明它们越是不同。**许可的编辑操作包括将一 阅读全文
posted @ 2021-04-19 09:42 MissHsu 阅读(1348) 评论(0) 推荐(0) 编辑
摘要: 多分类文本处理与特征工程 1. 语言模型 语言模型(LM,Language Model)就是用来判断某个句子是否语义通顺。首先对句子进行分词,句子的概率可以表示为各个词的联合概率:$ P(s)=P(w_1,w_2,...,w_n)$。 根据Chain rule: P(A,B,C,D)=P(A)P(B 阅读全文
posted @ 2021-04-19 09:28 MissHsu 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 数据不平衡处理 常见处理方法 1. 欠采样(下采样、Under-sampling、US) 减少分类中多数类样本的样本数量实现样本均衡。 随机删除 随机删除一些多量样本。 PG算法(Prototype Generation) 在原有样本的基础上生成新的样本来实现样本均衡。 2. 过采样(上采样、ove 阅读全文
posted @ 2021-04-19 00:05 MissHsu 阅读(664) 评论(0) 推荐(0) 编辑
摘要: 动态规划 参考网站:https://people.cs.clemson.edu/~bcdean/dp_practice/ 引入:Fibonacci Sequence 对于Fibonacci Sequence:斐波那契数,通常用 F(n) 表示,形成的序列称为斐波那契数列。该数列由 0 和 1 开始, 阅读全文
posted @ 2021-04-18 23:54 MissHsu 阅读(87) 评论(0) 推荐(0) 编辑
摘要: gensim中常用的Word2Vec,Phrases,Phraser,KeyedVectors gensim API 1. Phrases 和Phraser gensim.models.phrases.Phrases 和gensim.models.phrases.Phraser的用处是从句子中自动检 阅读全文
posted @ 2021-04-18 23:51 MissHsu 阅读(1772) 评论(0) 推荐(0) 编辑
摘要: WMD Paper: From Word Embeddings To Document Distances 2015年,提出词移距离WMD(Word Mover's Distance):词移距离是在词向量的基础上发展而来的用来衡量文档相似性的度量, 是一种计算句子之间距离的方法,距离越小,相似度越高 阅读全文
posted @ 2021-04-18 23:47 MissHsu 阅读(1096) 评论(0) 推荐(0) 编辑