machine learning - 随笔分类 - 合唱团abc

softmax函数python实现

摘要：import numpy as np def softmax(x): """ 对输入x的每一行计算softmax。该函数对于输入是向量（将向量视为单独的行）或者矩阵（M x N）均适用。代码利用softmax函数的性质: softmax(x) = softmax(x + c) 参数: x -- 一个N维向量，或者M x N维nu... 阅读全文

posted @ 2019-05-29 16:09 合唱团abc 阅读(1130) 评论(0) 推荐(0) 编辑

todo提纲

摘要：deep&wide为啥work，如何优化特征；详述attention，attention在ctr预估中如何使用，din为啥work？详述transformer，如何应用于ctr预估;item2vec为啥work，如何优化？dssm的原理，如何应用推荐系统中？推荐系统的流量分层如何优化？强化学习如何用阅读全文

posted @ 2019-05-06 14:54 合唱团abc 阅读(154) 评论(0) 推荐(0) 编辑

机器学习面试100题

摘要：机器学习面试100题： https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/78960039 阅读全文

posted @ 2019-01-15 16:03 合唱团abc 阅读(467) 评论(0) 推荐(0) 编辑

机器学习面经【重要】

摘要：https://www.nowcoder.com/discuss/102895?type=0&order=0&pos=6&page=1 https://www.cnblogs.com/huanyi0723/p/8470866.html https://www.jianshu.com/p/99e8f2 阅读全文

posted @ 2018-09-04 09:57 合唱团abc 阅读(176) 评论(0) 推荐(0) 编辑

关于矩阵

摘要：共轭复数：一个复数的复共轭为：矩阵

A

$A$ 的共轭转置

A^{*}

$A^*$ （又称埃尔米特共轭、埃尔米特转置）定义为：其中

(\cdot)_{i, j}

$(\cdot )_{i,j}$ 表示矩阵i行j列上的元素，

\bar{(\cdot)}

${\bar{(\cdot )}}$ 表示标量的复共轭。这一定义也可以写作：其中

A^{T}

$A^T$ 是矩阵A的转置， $ 阅读全文

posted @ 2017-09-03 14:24 合唱团abc 阅读(751) 评论(0) 推荐(0) 编辑

cart树剪枝

摘要：当前子树的损失函数：

C_{a} (T) = C (T) + a | T |

$C_a(T) = C(T) + a|T|$ , 其中

C (T)

$C(T)$ 为对训练数据的预测误差，

| T |

$|T|$ 为树的叶子结点数目，反映模型的复杂度。对固定的

a

$a$ ,一定存在使损失函数

C_{a} (T)

$C_a(T)$ 最小的子树，将其表示为

T_{a}

$T_a$ , 极端情况，当

a = 0

$a = 0$ 时，整体树是最优的，当$a 阅读全文

posted @ 2017-09-01 19:50 合唱团abc 阅读(823) 评论(1) 推荐(1) 编辑

LSA、LDA

摘要：Latent semantic analysis (LSA) is a technique in natural language processing, in particular distributional semantics, of analyzing relationships betwe 阅读全文

posted @ 2017-08-29 20:53 合唱团abc 阅读(423) 评论(0) 推荐(0) 编辑

vc维

摘要：阅读全文

posted @ 2017-08-28 07:40 合唱团abc 阅读(114) 评论(0) 推荐(0) 编辑

最大熵推导LR

摘要：http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf https://www.zhihu.com/question/24094554

π (x (i))_{v}

$\pi(x(i))_v$ 表示模型输出的样本

x_{i}

$x_i$ 属于类别

v

$v$ 的概率对于多类分类：表阅读全文

posted @ 2017-08-23 17:05 合唱团abc 阅读(742) 评论(0) 推荐(0) 编辑

随机森林优缺点

摘要：优点： 1）能够处理很高维度（feature很多）的数据，并且不用做特征选择（特征列采样） 2）训练完后，能够返回特征的重要性 3 ) 训练时树与树之间是相互独立的,易于并行化 4）可以处理缺失特征（决策树的优点）缺点: 分裂的时候，偏向于选择取值较多的特征 http://blog.csdn.ne 阅读全文

posted @ 2017-08-23 16:39 合唱团abc 阅读(2883) 评论(1) 推荐(0) 编辑

决策树处理缺失值

摘要：缺失值问题可以从三个方面来考虑 1. 在选择分裂属性的时候，训练样本存在缺失值，如何处理？（计算分裂损失减少值时，忽略特征缺失的样本，最终计算的值乘以比例（实际参与计算的样本数除以总的样本数））假如你使用ID3算法，那么选择分类属性时，就要计算所有属性的熵增(信息增益，Gain)。假设10个样本，阅读全文

posted @ 2017-08-23 16:31 合唱团abc 阅读(6823) 评论(0) 推荐(0) 编辑

异常点检测算法

摘要：基于统计学的方法一、基于正态分布的一元离群点检测方法假设有 n 个点

(x_{1}, . . ., x_{n})

$(x_1, ...,x_n)$ , 那么可以计算出这n个点的均值

μ

$\mu$ 和方差

σ

$\sigma$ .均值和方差分别被定义为：在正态分布的假设下，区域

μ + - 3 σ

$\mu +- 3 \sigma$ 包含了99.7% 的数据，如果某个值距离分布的阅读全文

posted @ 2017-08-22 19:01 合唱团abc 阅读(1142) 评论(0) 推荐(0) 编辑

拉格朗日对偶性

摘要：首先，考虑标准形式的凸最优化问题：则其拉格朗日函数为：其中

λ_{i}

$\lambda_i$ 被称为与

f_{i} (x) <= 0

$f_i(x) <= 0$ 相关的拉格朗日乘子,

λ_{i} >= 0

$\lambda_i >= 0$ ，

v_{i}

$v_i$ 被称为与

h_{i} (x) = 0

$h_i(x) = 0$ 相关的拉格朗日乘子。拉格朗日对偶函数：下面介绍拉格朗日对偶函数的一个重要性质：拉阅读全文

posted @ 2017-08-14 18:52 合唱团abc 阅读(485) 评论(0) 推荐(0) 编辑

关于凸优化的一些简单概念

摘要：凸集的定义为：其几何意义表示为：如果集合C中任意2个元素连线上的点也在集合C中，则C为凸集。其示意图如下所示：常见的凸集有： n维实数空间；一些范数约束形式的集合；仿射子空间；凸集的交集；n维半正定矩阵集；这些都可以通过凸集的定义去证明。凸函数的定义为：其几何意义表示为函数任意两点连线上的值阅读全文

posted @ 2017-08-13 11:13 合唱团abc 阅读(680) 评论(0) 推荐(0) 编辑

机器学习优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

摘要：SGD: 此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini 阅读全文

posted @ 2017-08-06 14:26 合唱团abc 阅读(11763) 评论(0) 推荐(0) 编辑

svm、logistic regression对比

摘要：相同点：都是线性分类算法不同点： 1、损失函数不同 LR：基于“给定x和参数，y服从二项分布”的假设，由极大似然估计推导 SVM： hinge loss ＋ L2 regularization的标准表示，基于几何间隔最大化原理推导 $\sum^N_{i=1}[1 - y_i(w*x_i + b)] 阅读全文

posted @ 2017-08-03 15:00 合唱团abc 阅读(886) 评论(0) 推荐(0) 编辑

梯度下降和EM算法，kmeans的em推导

摘要：I. 牛顿迭代法给定一个复杂的非线性函数f(x)，希望求它的最小值，我们一般可以这样做，假定它足够光滑，那么它的最小值也就是它的极小值点，满足f′(x0)=0，然后可以转化为求方程f′(x)=0的根了。非线性方程的根我们有个牛顿法，所以然而，这种做法脱离了几何意义，不能让我们窥探到更多的秘密。我们阅读全文

posted @ 2017-08-02 17:08 合唱团abc 阅读(3262) 评论(1) 推荐(0) 编辑

牛顿法、拟牛顿法以及与梯度下降法的对比

摘要：牛顿法、拟牛顿法相关资料： http://www.cnblogs.com/richqian/p/4535550.html https://www.codelast.com/%E5%8E%9F%E5%88%9B%E6%8B%9F%E7%89%9B%E9%A1%BF%E6%B3%95quasi-newt 阅读全文

posted @ 2017-08-02 11:30 合唱团abc 阅读(957) 评论(0) 推荐(0) 编辑

fasttext原理

摘要：模型的优化目标如下：其中，

< x_{n}, y_{n} >

$<x_n,y_n>$ 是一条训练样本，

y_{n}

$y_n$ 是训练目标，

x_{n}

$x_n$ 是normalized bag of features。矩阵参数A是基于word的look-up table，也就是A是词的embedding向量。

A x_{n}

$Ax_n$ 矩阵运算的数学意义是将word的embed 阅读全文

posted @ 2017-07-22 10:06 合唱团abc 阅读(1883) 评论(0) 推荐(0) 编辑

Word2vector原理

摘要：词向量：用一个向量的形式表示一个词词向量的一种表示方式是one-hot的表示形式：首先，统计出语料中的所有词汇，然后对每个词汇编号，针对每个词建立V维的向量，向量的每个维度表示一个词，所以，对应编号位置上的维度数值为1，其他维度全为0。这种方式存在问题并且引发新的质疑：1）无法衡量相关词之间的距阅读全文

posted @ 2017-07-19 20:48 合唱团abc 阅读(2974) 评论(1) 推荐(0) 编辑

合唱团abc

随笔分类 - machine learning

公告

搜索

常用链接

我的标签

随笔分类 (377)

随笔档案 (380)

阅读排行榜

评论排行榜

推荐排行榜

最新评论