2021 年 4月 19 日随笔档案 - MissHsu

2021年4月19日

摘要： NLP三大特征抽取器（CNN/RNN/TF）比较参考知乎张俊林：https://zhuanlan.zhihu.com/p/54743941 1. NLP任务 1.1 NLP任务特点输入是一个线性序列输入是不定长的单词或句子的相对位置关系很重要，两个词位置互换可能导致完全不同的意思句子中的长阅读全文

posted @ 2021-04-19 09:47 MissHsu 阅读(1122) 评论(0) 推荐(0) 编辑

计算文本相似度

摘要：相似度计算方法 1. 文本距离 1.1 编辑距离（Edit Distance）编辑距离，英文叫做 Edit Distance，又称 Levenshtein 距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。**如果两个字符串的编辑距离越大，说明它们越是不同。**许可的编辑操作包括将一阅读全文

posted @ 2021-04-19 09:42 MissHsu 阅读(1348) 评论(0) 推荐(0) 编辑

多分类文本处理与特征工程1

摘要：多分类文本处理与特征工程 1. 语言模型语言模型（LM，Language Model）就是用来判断某个句子是否语义通顺。首先对句子进行分词，句子的概率可以表示为各个词的联合概率：$ P(s)=P(w_1,w_2,...,w_n)$。根据Chain rule: P(A,B,C,D)=P(A)P(B 阅读全文

posted @ 2021-04-19 09:28 MissHsu 阅读(225) 评论(0) 推荐(0) 编辑

数据不平衡处理

摘要：数据不平衡处理常见处理方法 1. 欠采样（下采样、Under-sampling、US）减少分类中多数类样本的样本数量实现样本均衡。随机删除随机删除一些多量样本。 PG算法（Prototype Generation）在原有样本的基础上生成新的样本来实现样本均衡。 2. 过采样（上采样、ove 阅读全文

posted @ 2021-04-19 00:05 MissHsu 阅读(665) 评论(0) 推荐(0) 编辑

SOULXU

公告