摘要: 首先,回顾一元模型,然后引出贝叶斯学派的一元模型; 如图示: 一元模型中,不存在潜在主题,我们产生word的过程,相当于投骰子(V面);那么整个文档集的分布是:(文档直接独立,word之间独立)p(W)=∏dD∏iNp(wi)=∏dD∏vVp(wv)cvp(W)=∏dD∏iNp(wi)=∏dD∏vV 阅读全文
posted @ 2020-01-04 19:17 123李晓婷 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 吉布斯采样 (Gibbs Sampling) 首先选取概率向量的一个维度,给定其他维度的变量值当前维度的值,不断收敛来输出待估计的参数。具体地 1.随机给每一篇文档的每一个词 ww,随机分配主题编号 zz2.统计每个主题 zizi 下出现字 ww 的数量,以及每个文档 nn 中出现主题 zizi 中 阅读全文
posted @ 2019-12-31 16:59 123李晓婷 阅读(1712) 评论(0) 推荐(0) 编辑
摘要: 本节主要介绍文本分类中的一种算法即向量空间模型,这个算法很经典,包含文本预处理、特征选择、特征权值计算、分类算法、这是VSM的几个主要步骤,在宗老师的书里都有详细的讲解,这里也会进行深入的讲解,浅显易懂的是目的,深入理解是目标,下面给出这个VSM模型的方框流程图: 其中分词和词袋的建立我们在前两节进 阅读全文
posted @ 2019-12-25 17:21 123李晓婷 阅读(2546) 评论(0) 推荐(0) 编辑
摘要: 支持向量机(support vector machines)是一个二分类的分类模型(或者叫做分类器)。如图: 它分类的思想是,给定给一个包含正例和反例的样本集合,svm的目的是寻找一个超平面来对样本根据正例和反例进行分割。各种资料对它评价甚高,说“ 它在解决小样本、非线性及高维模式识别中表现出许多特 阅读全文
posted @ 2019-12-25 15:38 123李晓婷 阅读(1576) 评论(0) 推荐(0) 编辑
摘要: 随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。 LDA有着很完美的理论支撑,而且有着维度小等一系列优点。本文对LDA算法进行介绍,欢迎批评指正。 本文目录: 1、Gamma函数 2 阅读全文
posted @ 2019-12-22 14:47 123李晓婷 阅读(1786) 评论(1) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-12-19 21:34 123李晓婷 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-12-18 17:31 123李晓婷 阅读(2) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-12-11 21:44 123李晓婷 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 本文提出了一种基于迁移量的迁移学习解决方法,对从训练集中构造出的模型进行修正,减少训练集与测试集模型中存在的差异,最终提高文本的分类精度。最后在中文垃圾邮件过滤、中文网页分类和英文网页分类中对提出的方法进行验证。文本分类中的迁移学习问题还有很大的研究空间,例如部分词语所含的信息量会随着时间的发展而变 阅读全文
posted @ 2019-11-29 17:03 123李晓婷 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 1. sigmod函数 函数公式和图表如下图 在sigmod函数中我们可以看到,其输出是在(0,1)这个开区间内,这点很有意思,可以联想到概率,但是严格意义上讲,不要当成概率。sigmod函数曾经是比较流行的,它可以想象成一个神经元的放电率,在中间斜率比较大的地方是神经元的敏感区,在两边斜率很平缓的 阅读全文
posted @ 2019-11-15 15:38 123李晓婷 阅读(248) 评论(0) 推荐(0) 编辑