摘要:
第一章:好的推荐系统 1.1 什么是推荐系统 当用户没有明确需求的时候(有明确需求的时候,通过搜索引擎一般都能够解决问题),如果周末想去看电影,但是不确定看什么电影(不确定的需求),这时候需要一个自动化的工具,它能够根据你的历史行为分析出你可能会喜欢哪些系统.推荐系统是自动联系用户和物品的一种工具. 阅读全文
摘要:
先上吴恩达老师的课件图 1.对于梯度下降而言,学习率很大程度上影响了模型收敛的速度.对于不同规模的特征,如果采用相同的学习率,那么如果学习率适应于scale大的数据,scale较小的数据由于学习率过大无法收敛;如果学习率适应于scale较小的数据,那么收敛的速度会变的很慢(对于大scale的数据而言 阅读全文
摘要:
一.下载中文字体(https://pan.baidu.com/s/1EqabwENMxR2WJrHfKvyrIw 这里下载多是SImhei字体) 安装字体:解压:unzip SimHei.zip拷贝字体到 usr/share/fonts 下(记得切换到.ttf的目录下面) 二. 查找matplotl 阅读全文
摘要:
转自:https://www.zhihu.com/question/37096933 (另外再放一篇还不错的博客 https://blog.csdn.net/fantacy10000/article/details/90647686) L1正则化的话参数比较稀疏,相当于对特征做了选择; L2正则化话 阅读全文
摘要:
(2020.4.9)再次阅读的时候,大致梳理了一下行文的思路。 Xgb原始论文先介绍了其损失函数,(2020.4.21跟进)损失函数用来指导每颗树的生成,也就是决定了在给定数据情况下,叶子节点的最优分裂方式。 其次是如果更新CART树的结构(也就是特征的划分方式),论文提出了一个基于贪心策略的特征划 阅读全文
摘要:
Boost是集成学习方法中的代表思想之一,核心的思想是不断的迭代。boost通常采用改变训练数据的概率分布,针对不同的训练数据分布调用弱学习算法学习一组弱分类器。在多次迭代的过程中,当前次迭代所用的训练数据的概率分布会依据上一次迭代的结果而调整。也就是说训练数据的各样本是有权重的,这个权重本身也会随 阅读全文
摘要:
环境:ubuntu 16.04 python 3.6 数据来源:UCI wine_data(比较经典的酒数据) 决策树要点: 1、 如何确定分裂点(CART ID3 C4.5算法有着对应的分裂计算方式) 2、 如何处理不连续的数据,如果处理缺失的数据 3、 剪枝处理 尝试实现算法一是为了熟悉pyth 阅读全文
摘要:
变分 对于普通的函数f(x),我们可以认为f是一个关于x的一个实数算子,其作用是将实数x映射到实数f(x)。那么类比这种模式,假设存在函数算子F,它是关于f(x)的函数算子,可以将f(x)映射成实数F(f(x)) 。对于f(x)我们是通过改变x来求出f(x)的极值,而在变分中这个x会被替换成一个函数 阅读全文
摘要:
参考:https://blog.csdn.net/breeze5428/article/details/80013753 换了一个新的地方,得重新配置Ubuntu 16.04,在配置NVIDIA驱动的时候发现之前踩的坑没有记录下来,这里简单总结一下。 主要步骤: 1. 卸载之前安装的NVIDIA驱动 阅读全文
摘要:
转自:https://blog.csdn.net/livecoldsun/article/details/40833829 以前看EM算法的时候并没有理解透,这篇文章讲的很清楚,论证部分也较为直观。 $EM$算法的核心点在于解决在最大似然过程中log内套求和导致的高复杂计算问题,在求隐藏变量的后验分 阅读全文