光彩照人

2019年3月29日

摘要：一、流程图 domain模型：共分10类，样本量每个类别2万。 intent模型：共有10个intent模型，每个分为3~6类，样本量也在2万左右。孪生神经网络用于处理两个输入"比较类似"的情况。比如，我们要计算两个句子或者词汇的语义相似度，使用siamese network比较适合阅读全文

posted @ 2019-03-29 16:09 光彩照人阅读(711) 评论(0) 推荐(0) 编辑

2019年3月28日

词向量的发展

摘要：一、n-gram-model 谈到词向量则必须要从语言模型讲起，传统的统计语言模型是对于给定长度为m的句子，计算其概率分布P(w1, w2, ..., wm)，以表示该句子存在的可能性。该概率可由下列公式计算得到：但实际过程中句子的长度稍长便会为估计带来很大难度，因此n-gram 模型对上述计算进阅读全文

posted @ 2019-03-28 21:55 光彩照人阅读(621) 评论(0) 推荐(0) 编辑

2019年3月13日

拉格朗日对偶理解

摘要：在约束最优化问题中，常常利用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。这是因为： 1）对偶问题的对偶是原问题； 2）无论原始问题与约束条件是否是凸的，对偶问题都是凹问题，加个负号就变成凸问题了，凸问题容易优化。 3）对偶问题可以给出阅读全文

posted @ 2019-03-13 10:44 光彩照人阅读(18747) 评论(5) 推荐(3) 编辑

2019年2月25日

EM算法理解

摘要：一、概述概率模型有时既含有观测变量，又含有隐变量，如果概率模型的变量都是观测变量，那么给定数据，可以直接利用极大似然估计法或者贝叶斯估计法估计模型参数。但是，当模型同时又含有隐变量时，就不能简单地使用这些方法。EM算法适用于带有隐变量的概率模型的参数估计，利用极大似然估计法逐步迭代求解。二、je 阅读全文

posted @ 2019-02-25 17:24 光彩照人阅读(731) 评论(0) 推荐(0) 编辑

2019年2月21日

Xgboost理解

摘要：一、xgboost模型函数形式 xgboost也是GBDT的一种，只不过GBDT在函数空间进行搜索最优F的时候，采用的是梯度下降法也就是一阶泰勒展开；而xgboost采用的是二阶泰勒展开也就是牛顿法，去每次逼近最优的F，泰勒展开越多与原函数形状越接近，比如在x0处进行展开，其展开越多，x0附近与原函阅读全文

posted @ 2019-02-21 15:01 光彩照人阅读(5799) 评论(0) 推荐(0) 编辑

2019年2月20日

GBDT理解

摘要：一、提升树提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树，boosting tree。对分类问题的决策树是二叉分类树，对回归问题的决策树是二叉回归树。提升树算法是AdaBoost算法的特殊情况。我的理解提升树分为普通提升树与梯度提升树，普通提升树阅读全文

posted @ 2019-02-20 16:15 光彩照人阅读(1405) 评论(0) 推荐(0) 编辑

2019年2月7日

深入理解KS

摘要：一、概述 KS（Kolmogorov-Smirnov）评价指标，通过衡量好坏样本累计分布之间的差值，来评估模型的风险区分能力。 KS、AUC、PR曲线对比： 1）ks和AUC一样，都是利用TPR、FPR两个指标来评价模型的整体训练效果。 2）不同之处在于，ks取的是TPR和FPR差值的最大值，能够找阅读全文

posted @ 2019-02-07 12:15 光彩照人阅读(21969) 评论(3) 推荐(0) 编辑

2019年2月2日

PCA主成分分析理解

摘要：一、理论概述 1）问题引出先看如下几张图：从上述图中可以看出，如果将3个图的数据点投影到x1轴上，图1的数据离散度最高，图3其次，图2最小。数据离散性越大，代表数据在所投影的维度上具有越高的区分度，这个区分度就是信息量。如果我们用方差来形容数据的离散性的话，就是数据方差越大，表示数据的区分度越高阅读全文

posted @ 2019-02-02 14:49 光彩照人阅读(6662) 评论(0) 推荐(0) 编辑

2019年1月16日

SVM理解

摘要：一、概念支持向量机是学习策略的间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。二、问题类型 1）训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，叫线性可分支持向量机，又称硬间隔支持向量机。 2 阅读全文

posted @ 2019-01-16 12:02 光彩照人阅读(861) 评论(0) 推荐(0) 编辑

2019年1月13日

最优化问题总结

摘要：在优化理论中，目标函数 f(x) 会有多种形式：如果目标函数和约束条件都为变量 x 的线性函数, 称该问题为线性规划；如果目标函数为二次函数, 约束条件为线性函数, 称该最优化问题为二次规划; 如果目标函数或者约束条件均为非线性函数, 称该最优化问题为非线性规划。阅读全文

posted @ 2019-01-13 16:35 光彩照人阅读(657) 评论(0) 推荐(0) 编辑

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

公告