随笔分类 - 机器学习
摘要:test = np.array([[1, 2, 3], [2, 3, 4], [5, 4, 3], [8, 7, 2]])np.argmax(test, 0) #输出:array([3, 3, 1]np.argmax(test, 1) #输出:array([2, 2, 0, 0]
阅读全文
摘要:工作中遇到的问题:在GMM模型中添加一维scale比较大的特征,需不需要归一化 答案:不需要,推导如下:
阅读全文
摘要:Momentum:解快了收敛速度,同时也减弱了SGD的波动 NAG: 减速了Momentum更新参数太快 Adagrad: 出现频率较低参数采用较大的更新,对于出现频率较高的参数采用较小的,不共用一个学习率 Adadelta:解决了Adagrad后续学习率为0的缺点,同时不要defalut 学习率
阅读全文
摘要:How to decide which regularization (L1 or L2) to use? Is there collinearity among some features? L2 regularization can improve prediction quality in t
阅读全文
摘要:前面:好老的东西啊,啊啊啊啊啊啊啊啊啊 来源于统计学习方法: 信息增益: 其中 信息增益率: 基尼指数: 取gini最小的 先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造。 后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。 adaboost
阅读全文
摘要:lightGBM与XGBoost的区别:(来源于:http://baijiahao.baidu.com/s?id=1588002707760744935&wfr=spider&for=pc) 切分算法(切分点的选取) 占用的内存更低,只保存特征离散化后的值,而这个值一般用8位整型存储就足够了,内存消
阅读全文
摘要:由于异常数据的两个特征(少且不同: few and different) iTree的构成过程如下: l 随机选择一个属性Attr; l 随机选择该属性的一个值Value; l 根据Attr对每条记录进行分类,把Attr小于Value的记录放在左女儿,把大于等于Value的记录放在右孩子; l 然后
阅读全文
摘要:稀疏解的作用:内存和时间啊 实际的互联网广告应用需要的是快速地进行model的更新。为了保证快速的更新,训练样本是一条一条地过来的,每来一个样本,model的参数对这个样本进行一次迭代,从而保证了model的及时更新,这种方法叫做OGD(Online gradient descent)。 传统Bat
阅读全文
摘要:论文来源:https://arxiv.org/abs/1704.05194v1 阿里技术:https://mp.weixin.qq.com/s/MtnHYmPVoDAid9SNHnlzUw?scene=25#wechat_redirect 写在前面的观后感:该篇论文是阿里妈妈提出来的MLR模型,总体
阅读全文
摘要:FM:解决稀疏数据下的特征组合问题 Factorization Machine(因子分解机) 美团技术团队的文章,觉得写得很好啊:https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html 复杂度变
阅读全文
摘要:卧槽,本来猜GBDT获取的组合特征,需要自己去解析GBDT的树,scikit learn里面竟然直接调用apply函数就可以了
阅读全文
摘要:class xgboost.XGBRegressor(max_depth=3, learning_rate=0.1, n_estimators=100, silent=True, objective='reg:linear', booster='gbtree', n_jobs=1, nthread=
阅读全文
摘要:来源于:https://github.com/HanXiaoyang/python-and-numpy-tutorial/blob/master/python-numpy-tutorial.ipynb python与numpy基础 来源于:https://github.com/HanXiaoyang
阅读全文
摘要:实际应用 LFM 模型在实际使用中有一个困难,就是很难实现实时推荐。经典的 LFM 模型每次训练都需要扫描所有的用户行为记录,并且需要在用户行为记录上反复迭代来优化参数,所以每次训练都很耗时,实际应用中只能每天训练一次。在新闻推荐中,冷启动问题非常明显,每天都会有大量的新闻,这些新闻往往如昙花一现,
阅读全文
摘要:学习笔记:SVM柔性边界的补充和SVR(支持向量回归) 作者 小刺猬yyx 关注 2016.08.06 10:31* 字数 1608 阅读 421评论 0喜欢 2 作者 小刺猬yyx 关注 2016.08.06 10:31* 字数 1608 阅读 421评论 0喜欢 2 2016.08.06 10:
阅读全文
摘要:来源于stack overflow,其实就是计算每个特征对于降低特征不纯度的贡献了多少,降低越多的,说明feature越重要 I'll use the sklearn code, as it is generally much cleaner than the R code. Here's the
阅读全文
摘要:深度学习调参数: http://weibo.com/ttarticle/p/show?id=2309351000224088867811625595&u=2430204435&m=4090229897965079&cu=2430204435&ru=2295615873&rm=409018350906
阅读全文
摘要:Caffe源码 Blob protected: shared_ptr data_; shared_ptr diff_; shared_ptr shape_data_; vector shape_; int count_; int capacity_; Blob的构造函数 Blob::Blob(const int num, const int channels, cons...
阅读全文
摘要:sigmoid 容易出现gradient vanishing 函数输出并不是zero-centered 幂运算相对来讲比较耗时 容易出现gradient vanishing 函数输出并不是zero-centered 幂运算相对来讲比较耗时 Gradient Vanishing 优化神经网络的方法是B
阅读全文