摘要:
NLP三大特征抽取器(CNN/RNN/TF)比较 参考知乎张俊林:https://zhuanlan.zhihu.com/p/54743941 1. NLP任务 1.1 NLP任务特点 输入是一个线性序列 输入是不定长的 单词或句子的相对位置关系很重要,两个词位置互换可能导致完全不同的意思 句子中的长 阅读全文
摘要:
相似度计算方法 1. 文本距离 1.1 编辑距离(Edit Distance) 编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。**如果两个字符串的编辑距离越大,说明它们越是不同。**许可的编辑操作包括将一 阅读全文
摘要:
多分类文本处理与特征工程 1. 语言模型 语言模型(LM,Language Model)就是用来判断某个句子是否语义通顺。首先对句子进行分词,句子的概率可以表示为各个词的联合概率:$ P(s)=P(w_1,w_2,...,w_n)$。 根据Chain rule: P(A,B,C,D)=P(A)P(B 阅读全文
摘要:
数据不平衡处理 常见处理方法 1. 欠采样(下采样、Under-sampling、US) 减少分类中多数类样本的样本数量实现样本均衡。 随机删除 随机删除一些多量样本。 PG算法(Prototype Generation) 在原有样本的基础上生成新的样本来实现样本均衡。 2. 过采样(上采样、ove 阅读全文