摘要:
原文地址:https://www.jianshu.com/p/2f2d5d5e03f8 一、文本特征 (一)基本文本特征提取 + 词语数量 常,负面情绪评论含有的词语数量比正面情绪评论更多。 + 字符数量 常,负面情绪评论含有的字符数量比正面情绪评论更多。 + 平均词汇长度 平均词汇长度=所有单词长 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/ca2272addeb0 (四)GloVe GloVe本质是加权最小二乘回归模型,引入了共现概率矩阵。 1、基本思想 GloVe模型的目标就是获取每个词的向量表示$w$。GloVe认为,$w_i$、$w_j$、$w_k$通过某种函数$F$ 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/5a896955abf0 2)基于迭代的方法直接学 相较于基于SVD的方法直接捕获所有共现值的做法,基于迭代的方法一次只捕获一个窗口内的词间共现值。 好的语言模型中,有意义的句子高概率,无意义的句子即使语法正确也低概率。 在得到输入词向量 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/c1e4f42b78d7 一、基于知识的表征 参见图1.1,WordNet中包含同义词集(synonym sets)和上位词(hypernyms, is a关系)。 其存在的问题为: + 作为资源来说是好的,但是它失去了词间的细微差别; 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/3f7d4aa6a7cf 问题描述 程序实现 运行结果 13 14 15 16 17 18 19 20 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/eb098d187ffe 三个理论上界: 三个线性模型: 三个关键工具: 三条学习规则: + 奥卡姆剃刀定律 先从简单模型开始,训练后出现欠拟合,再尝试复杂点模型。 + 采样误差 训练、验证、测试数据尽量同分布。 + 数据偷看 找到折中方 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/d12c98c1525d 一、模型选择 如何选择? + 视觉上 NO 不是所有资料都能可视化;人脑模型复杂度也得算上。 + 通过$E_{in}$ NO 容易过拟合,泛化能力差。 + 通过$E_{test}$ NO 能保证好的泛化,不过往往 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/e3116693e5c3 一、正则化的假设集合 通过从高次多项式的$H$退回到低次多项式的$H$来降低模型复杂度,以减小过拟合的可能性。如何退回? 通过加上约束条件: 如果加了严格的约束条件,就没有必要从$H_{10}$退回到$H_{2} 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/f9de73aecd22 引起过拟合的原因有: + 过度VC维(模型复杂度高) 确定性噪声; + 随机噪声; + 有限的样本数量$N$。 通过具体实验来看模型复杂度$Q_f$/确定性噪声、随机噪声$\sigma^2$、样本数量$N$对过拟 阅读全文
摘要:
原文地址:http://www.jianshu.com/p/311141f2047d 问题描述 程序实现 13 15 运行结果及分析 13 15 18 20 对比18和18.1,可知迭代步长较小时,需要较多迭代次数才能达到较优效果。 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/11c00e290c22 一、二次假设 实际上线性假设的模型复杂度是受到限制的,需要高次假设打破这个限制。 假设数据不是线性可分的,但是可以被一个圆心在原点的圆分开,需要我们重新设计基于该圆的PLA等算法吗? 不用,只需要通过非线性转换将 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/6f86290e70f9 一、二元分类的线性模型 线性回归后的参数值常用于PLA/PA/Logistic Regression的参数初始化。 二、随机梯度下降 两种迭代优化模式: 若利用全部样本 利用随机的单个样本,则梯度下降 随机梯度下 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/a110a4e96d58 线性分类中的是非题变为逻辑分类中的概率题。在逻辑回归中,设置概率阈值后,大于等于该值的为O,小于改值的为X。 O为1,X为0: 逻辑函数/S型函数:光滑,单调。自变量趋于负无穷时,因变量趋于0;自变量趋于正无穷时 阅读全文
摘要:
原文地址:https://www.jianshu.com/p/4f5a151fb633 最小化线性回归的样本内代价函数值: 线性回归算法泛化可能的保证: 根据矩阵的迹的性质:$trace(A+B)=trace(A)+trace(B)$,得: $\begin{equation}\begin{align 阅读全文