07 2019 档案
摘要:参考博客 https://blog.csdn.net/weixin_36888577/article/details/79937886
阅读全文
摘要:常用匹配规则 基本正则表达式 正则表达式:REGular EXPression, REGEXP 元字符:.: 匹配任意单个字符[]: 匹配指定范围内的任意单个字符[^]:匹配指定范围外的任意单个字符 字符集合:[:digit:], [:lower:], [:upper:], [:punct:], [
阅读全文
摘要:https://zhuanlan.zhihu.com/p/565740768 什么样的初始化是好的? https://zhuanlan.zhihu.com/p/138064188 正向传播时,状态值的方差保持不变;反向传播时,关于激活值的梯度的方差保持不变的好处是什么? 防止出现极端值导致梯度消失或
阅读全文
摘要:leetcode 31 下一个排列 实现获取下一个排列的函数,算法需要将给定数字序列重新排列成字典序中下一个更大的排列。 如果不存在下一个更大的排列,则将数字重新排列成最小的排列(即升序排列)。 必须原地修改,只允许使用额外常数空间。 以下是一些例子,输入位于左侧列,其相应输出位于右侧列。1,2,3
阅读全文
摘要:推荐系统的用户行为分为显性反馈和隐性反馈 ,显性反馈数据集可以明确区分正负样本(如评分数据);隐性反馈数据集只有正样本(用户喜欢什么),没有负样本(用户不喜欢什么)。 隐性反馈数据集上生成负样本的方法: (1)对于一个用户,用他所有没有过行为的物品作为负样本。 (2)对于一个用户,从他没有过行为的物
阅读全文
摘要:给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖先)。”
阅读全文
摘要:sort(a,a+n); bool comp(const int &a,const int &b) { return a>b; } bool Comp(const P &a1,const P &a2) { return a1.w<a2.w;//从小到大 } //对vector排序 sort(v.be
阅读全文
摘要:vector 初始化 (1)vector<int> a(10); //定义了10个整型元素的向量(尖括号中为元素类型名,它可以是任何合法的数据类型),但没有给出初值,其值是不确定的。 (2)vector<int> a(10,1); //定义了10个整型元素的向量,且给出每个元素的初值为1 (3)ve
阅读全文
摘要:SGD 权重更新公式 SGD的缺点 学习率的设置非常需要技巧,学习率设置的过大,容易跳过最优点,学习率设的过小,又容易困于局部最优或鞍点,所以一般要设置一个随着训练批次衰减的学习率 所以特征的学习率都一
阅读全文
摘要:BGD每次迭代都用了所有的样本,每一轮都是朝着极小值方向更新的,当函数只有一个极小值点时BGD能过够比较快的收敛的全局最优,当函数有多个极小值点时BGD容易陷入局部最优,而且当数据量很大时BDG需要消耗大量的内存,计算代价也会很高。SGD每次只用小批量的数据来计算,内存消耗小,计算代价也更低,而且S
阅读全文
摘要:一. 基于用户的协同过滤 算法思想: 当给用户A做个性化推荐时,先找到和他兴趣相似的用户,然后把这些用户喜欢的、而用户A没有听说过的物品推荐给A 。 算法步骤: (1) 找到和目标用户兴趣相似的用户集合。(2) 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。 用户相似度计算公
阅读全文
摘要:参考博客 https://blog.csdn.net/strivenoend/article/details/79842836 注意:把 git remote add origin git@github.com:wangjiax9/beautifulDay.git 换成 git clone git@
阅读全文
摘要:余弦相似度和欧式距离的区别 1. 计算公式 余弦相似度: \[\cos \left( {A,B} \right) = \frac{{A \cdot B}}{{{{\left\| A \right\|}_2}{{\left\| B \right\|}_2}}} = \frac{{\sum\limits
阅读全文
摘要:TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语
阅读全文
摘要:1. 有一万盏灯,是灭的,有一万个人,都按照1~10000编号,每个人上去按灯,会按自己倍数的灯,比如2会按2,4,6 等等,3会按3,6,9 等。问最终哪些是亮着的。 完全平法方数的灯是亮着的。 参考博客 https://blog.csdn.net/ELI_CJ/article/details/5
阅读全文
摘要:设X,Y是两个相互独立的随机变量,它们的分布函数分别是Fx(x)和Fy(y),现在求M=max{X,Y}和N=min{X,Y}的分布函数。 Fmax(z) = P{M<=z} = P{X<=z, Y<=z} = P{X<=z}P{Y<=z} 即:Fmax(z) = Fx(z)Fy(z) Fmin(z
阅读全文
摘要:问题:kmeans如何多机并行? 把样本点均分到多太机器上,向每台机器上传入当前计算的到的k个中心点,在每台机器上计算出每个样本的类别,都传到另外一台机器上重新计算k个中心点。 参考博客 https://www.cnblogs.com/pinard/p/6164214.html
阅读全文
摘要:算法思想 初始想法 推荐系统中面对的特征往往是海量稀疏特征,如何挖掘出这些海量特征里隐含的组合特征对于改善推荐系统的效果来说非常重要。普通的线性模型时优化时是一个个特征考虑的,没有显示的考虑到组合特征。FM通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是,虽然理论上来讲FM可以
阅读全文
摘要:1. 10亿个数中取前1000大的数 维护一个1000个节点的小顶堆。 时间复杂度O(nlogk) 2. 合并k个有序(假设升序)数组 具体步骤:(1)将k个数组的第一个元素取出来,维护一个小顶堆。 (2)弹出堆顶元素存入结果数组中,并把该元素所在数组的下一个元素取出来压入队中。 (3)调整堆的结构
阅读全文
摘要:算法思想 GBDT也是Boosting家族的一员,也采用了前向分布加法模型,但是GBDT和AdaBoost还是存在很大的区别的: 1.AdaBoost没有对弱分类器的种类做限定,GBDT的弱分类器只能是CART回归树。 2.Adaboost是根据本轮弱分类器的分类误差率来改变训练样本在下轮训练时的权
阅读全文
摘要:数据结构和算法 https://www.cnblogs.com/skywang12345/p/3603935.html https://www.cnblogs.com/linxiyue/p/3849239.html 机器学习 https://www.cnblogs.com/pinard/p/6140
阅读全文