摘要: 在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型能更好地预测样本。 困惑度越小,句子概率越大,语言模型越好。 wiki上列举了三种perplexit 阅读全文
posted @ 2019-05-07 18:50 山竹小果 阅读(4006) 评论(0) 推荐(1) 编辑
摘要: 1 vector内部实现: 数组 // 就是没有固定大小的数组,vector直接翻译是向量的意思支持操作:begin(), //取首个元素,返回一个iteratorend(), //取末尾(最后一个元素的下一个存储空间的地址)size(), //就是数组大小的意思clear(), //清空empty 阅读全文
posted @ 2019-04-29 12:41 山竹小果 阅读(1761) 评论(0) 推荐(0) 编辑
摘要: 贪心搜索(greedy search) 贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。 集束搜索(beam search) 集束搜索可以认为是维特比算法的贪心形式,在维特比所有中由于利用动态规划导致当字典较大时效率低,而集束搜索使用beam size参数来限制在每一步保 阅读全文
posted @ 2019-04-28 18:04 山竹小果 阅读(946) 评论(0) 推荐(0) 编辑
摘要: 1、语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式 阅读全文
posted @ 2019-04-28 16:27 山竹小果 阅读(1975) 评论(0) 推荐(0) 编辑
摘要: 1. J48原理 2. 举例 3. 总结 1. J48原理 基于从上到下的策略,递归的分治策略,选择某个属性放置在根节点,为每个可能的属性值产生一个分支,将实例分成多个子集,每个子集对应一个根节点的分支,然后在每个分支上递归地重复这个过程。当所有实例有相同的分类时,停止。 问题:如何选择根节点属性, 阅读全文
posted @ 2019-04-24 20:04 山竹小果 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision、Recall、F-score(F1-measure)TPR、FPR、TNR、FNR、AUCAccuracy 真实结果 1 0 预测结果 1 TP(真阳性) FP(假阳性) 0 FN(假阴性) TN(真阴性) TP(True 阅读全文
posted @ 2019-04-24 19:22 山竹小果 阅读(9722) 评论(0) 推荐(2) 编辑
摘要: sys.argv[]就是一个从程序外部获取参数的桥梁,这个“外部”很关键。因为我们从外部取得的参数可以是多个,所以获得的是一个列表(list),也就是说sys.argv其实可以看作是一个列表,所以才能用[]提取其中的元素。其第一个元素是程序本身,随后才依次是外部给予的参数。 下面我们通过一个极简单的 阅读全文
posted @ 2019-04-16 15:18 山竹小果 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 这些情况我们都经历过。你精通机器学习的相关概念,并能将其应用于机器学习模型。打开浏览器搜索相关数据,很可能会找到一系列数据以及上百幅相关照片。 你会想起大部分流行的数据集拥有数以千计的图片(甚至更多)。你也会想起有人曾说过拥有大规模的数据集对性能至关重要。你会感到失望,非常想知道:在有限的数据量下, 阅读全文
posted @ 2019-04-16 14:38 山竹小果 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 特征分解(eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。 方阵 A 的 特征向量(eigenvector)是指与 A 相乘后相当于对该向量进行缩放的非零向量 v: 标量 λ 被称为这个特征向量对应的 特征值(eigenvalue)。(类似地, 阅读全文
posted @ 2019-04-16 13:27 山竹小果 阅读(11926) 评论(0) 推荐(5) 编辑
摘要: 标量(scalar):一个标量就是一个单独的数。通常小写变量。 向量(vector):一个向量是一列数。这些数是有序排列的。通常粗体的小写变量名称。 矩阵(matrix):二维数组。通常大写粗体。 张量(tensor):一个数组中的元素分布在若干维坐标的规则网络中,称之为张量。我们使用 字体 A 来 阅读全文
posted @ 2019-04-15 19:05 山竹小果 阅读(1252) 评论(0) 推荐(0) 编辑