摘要:
(1)Gaussian 满足mean=0,std=1的高斯分布x∼N(mean,std2) (2)Xavier 满足x∼U(−a,+a)x∼U(−a,+a)的均匀分布, 其中 a = sqrt(3/n) (3)MSRA 满足x∼N(0,σ2)x∼N(0,σ2)的高斯分布,其中σ = sqrt(2/n 阅读全文
摘要:
#!/usr/bin/env python # -*- coding: utf-8 -*- # author:ShidongDu time:2020/6/3 import time import pandas as pd import re # 结点类 class node: def __init_ 阅读全文
摘要:
ner(命名实体识别)一般是词典和模型方式结合,词典负责已有词识别,模型负责未知词识别。 在不需发现未知词的情况下基于词典的实体识别已足够 基于字典的ner也有两种做法:字符串多模匹配 和 切词(词典加入自定义词库) 字符串多模匹配多模匹配有两种基本算法:trie树 和 记录长度集合的最长匹配 tr 阅读全文
摘要:
python 实现 def edit_distance(word1, word2): len1 = len(word1) len2 = len(word2) dp = np.zeros((len1 + 1,len2 + 1)) for i in range(len1 + 1): dp[i][0] = 阅读全文
摘要:
点互信息算法(PMI) 基本思想:是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。 PMI > 0;两个词语是相关的;值越大,相关性越强。 PMI = 0;两个词语是统计独立的,不相关也不互斥。 PMI < 0;两个词语是不相关的,互斥的。 从概率思想理解: 如果两 阅读全文