08 2017 档案

摘要:Latent semantic analysis (LSA) is a technique in natural language processing, in particular distributional semantics, of analyzing relationships betwe 阅读全文
posted @ 2017-08-29 20:53 合唱团abc 阅读(423) 评论(0) 推荐(0) 编辑
摘要:Implement C++ Class The C++ class of the layer implements the initialization, forward, and backward part of the layer. It needs to derive the base cla 阅读全文
posted @ 2017-08-28 16:58 合唱团abc 阅读(472) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-08-28 07:40 合唱团abc 阅读(114) 评论(0) 推荐(0) 编辑
摘要:Recurrent Neural Networks Recurrent neural networks are networks with loops in them, allowing information to persist. A recurrent neural network can b 阅读全文
posted @ 2017-08-23 18:26 合唱团abc 阅读(601) 评论(0) 推荐(0) 编辑
摘要:http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf https://www.zhihu.com/question/24094554 π(x(i))v 表示模型输出的样本xi属于类别v的概率 对于多类分类: 表 阅读全文
posted @ 2017-08-23 17:05 合唱团abc 阅读(742) 评论(0) 推荐(0) 编辑
摘要:优点: 1)能够处理很高维度(feature很多)的数据,并且不用做特征选择(特征列采样) 2)训练完后,能够返回特征的重要性 3 ) 训练时树与树之间是相互独立的,易于并行化 4)可以处理缺失特征(决策树的优点) 缺点: 分裂的时候,偏向于选择取值较多的特征 http://blog.csdn.ne 阅读全文
posted @ 2017-08-23 16:39 合唱团abc 阅读(2883) 评论(1) 推荐(0) 编辑
摘要:缺失值问题可以从三个方面来考虑 1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数)) 假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本, 阅读全文
posted @ 2017-08-23 16:31 合唱团abc 阅读(6823) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/u013719780/article/details/48912679 阅读全文
posted @ 2017-08-22 19:21 合唱团abc 阅读(192) 评论(0) 推荐(0) 编辑
摘要:基于统计学的方法 一、基于正态分布的一元离群点检测方法 假设有 n 个点(x1,...,xn), 那么可以计算出这n个点的均值μ和方差σ.均值和方差分别被定义为: 在正态分布的假设下,区域μ+3σ包含了99.7% 的数据,如果某个值距离分布的 阅读全文
posted @ 2017-08-22 19:01 合唱团abc 阅读(1142) 评论(0) 推荐(0) 编辑
摘要:参数初始化 下面几种方式,随便选一个,结果基本都差不多。但是一定要做。否则可能会减慢收敛速度,影响收敛结果,甚至造成Nan等一系列问题。n_in为网络的输入大小,n_out为网络的输出大小,n为n_in或(n_in+n_out)*0.5Xavier初始法论文:http://jmlr.org/proc 阅读全文
posted @ 2017-08-15 19:11 合唱团abc 阅读(1248) 评论(0) 推荐(0) 编辑
摘要:首先,考虑标准形式的凸最优化问题: 则其拉格朗日函数为: 其中λi被称为与fi(x)<=0相关的拉格朗日乘子,λi>=0vi被称为与hi(x)=0相关的拉格朗日乘子。 拉格朗日对偶函数: 下面介绍拉格朗日对偶函数的一个重要性质: 拉 阅读全文
posted @ 2017-08-14 18:52 合唱团abc 阅读(485) 评论(0) 推荐(0) 编辑
摘要:ReLU 激活函数: ReLu使得网络可以自行引入稀疏性,在没做预训练情况下,以ReLu为激活的网络性能优于其它激活函数。 数学表达式: y=max(0,x) 第一,sigmoid的导数只有在0附近的时候有比较好的激活性,在正负饱和区的梯度都接近于0,所以这会造成梯度消失,而relu函数在大 阅读全文
posted @ 2017-08-13 14:05 合唱团abc 阅读(3238) 评论(0) 推荐(0) 编辑
摘要:凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;凸集的交集;n维半正定矩阵集;这些都可以通过凸集的定义去证明。 凸函数的定义为: 其几何意义表示为函数任意两点连线上的值 阅读全文
posted @ 2017-08-13 11:13 合唱团abc 阅读(680) 评论(0) 推荐(0) 编辑
摘要:static作用: 常规答案: 1. 全局变量的隐藏;2. 函数体内记忆功能;3.类所有实例共享,static函数不接受this指针,只能访问static成员变量。 拓展:1.全局变量的隐藏,因为在其他文件不可见。编译的时候解决符号表中不会导出这个变量,这样这个变量只能是内部链接,这样可以避免重复定 阅读全文
posted @ 2017-08-13 09:23 合唱团abc 阅读(365) 评论(0) 推荐(0) 编辑
摘要:DeepFM integrates the architectures of FM and deep neural networks (DNN). It models low-order feature interactions like FM(二阶组合特征) and models high-ord 阅读全文
posted @ 2017-08-10 17:28 合唱团abc 阅读(787) 评论(0) 推荐(0) 编辑
摘要:Generalized linear models with nonlinear feature transformations (特征工程 + 线性模型) are widely used for large-scale regression and classification problems 阅读全文
posted @ 2017-08-08 14:02 合唱团abc 阅读(3018) 评论(0) 推荐(0) 编辑
摘要:SGD: 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini 阅读全文
posted @ 2017-08-06 14:26 合唱团abc 阅读(11763) 评论(0) 推荐(0) 编辑
摘要:相同点:都是线性分类算法 不同点: 1、损失函数不同 LR:基于“给定x和参数,y服从二项分布”的假设,由极大似然估计推导 SVM: hinge loss + L2 regularization的标准表示,基于几何间隔最大化原理推导 $\sum^N_{i=1}[1 - y_i(w*x_i + b)] 阅读全文
posted @ 2017-08-03 15:00 合唱团abc 阅读(886) 评论(0) 推荐(0) 编辑
摘要:I. 牛顿迭代法给定一个复杂的非线性函数f(x),希望求它的最小值,我们一般可以这样做,假定它足够光滑,那么它的最小值也就是它的极小值点,满足f′(x0)=0,然后可以转化为求方程f′(x)=0的根了。非线性方程的根我们有个牛顿法,所以 然而,这种做法脱离了几何意义,不能让我们窥探到更多的秘密。我们 阅读全文
posted @ 2017-08-02 17:08 合唱团abc 阅读(3262) 评论(1) 推荐(0) 编辑
摘要:牛顿法、拟牛顿法相关资料: http://www.cnblogs.com/richqian/p/4535550.html https://www.codelast.com/%E5%8E%9F%E5%88%9B%E6%8B%9F%E7%89%9B%E9%A1%BF%E6%B3%95quasi-newt 阅读全文
posted @ 2017-08-02 11:30 合唱团abc 阅读(957) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示