摘要: BGD每次迭代都用了所有的样本,每一轮都是朝着极小值方向更新的,当函数只有一个极小值点时BGD能过够比较快的收敛的全局最优,当函数有多个极小值点时BGD容易陷入局部最优,而且当数据量很大时BDG需要消耗大量的内存,计算代价也会很高。SGD每次只用小批量的数据来计算,内存消耗小,计算代价也更低,而且S 阅读全文
posted @ 2019-07-13 20:53 xd_xumaomao 阅读(805) 评论(0) 推荐(0) 编辑
摘要: 一. 基于用户的协同过滤 算法思想: 当给用户A做个性化推荐时,先找到和他兴趣相似的用户,然后把这些用户喜欢的、而用户A没有听说过的物品推荐给A 。 算法步骤: (1) 找到和目标用户兴趣相似的用户集合。(2) 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。 用户相似度计算公 阅读全文
posted @ 2019-07-12 11:34 xd_xumaomao 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 参考博客 https://blog.csdn.net/strivenoend/article/details/79842836 注意:把 git remote add origin git@github.com:wangjiax9/beautifulDay.git 换成 git clone git@ 阅读全文
posted @ 2019-07-12 10:31 xd_xumaomao 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 余弦相似度和欧式距离的区别 1. 计算公式 余弦相似度: \[\cos \left( {A,B} \right) = \frac{{A \cdot B}}{{{{\left\| A \right\|}_2}{{\left\| B \right\|}_2}}} = \frac{{\sum\limits 阅读全文
posted @ 2019-07-11 17:12 xd_xumaomao 阅读(1953) 评论(0) 推荐(0) 编辑
摘要: TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语 阅读全文
posted @ 2019-07-11 11:55 xd_xumaomao 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 1. 有一万盏灯,是灭的,有一万个人,都按照1~10000编号,每个人上去按灯,会按自己倍数的灯,比如2会按2,4,6 等等,3会按3,6,9 等。问最终哪些是亮着的。 完全平法方数的灯是亮着的。 参考博客 https://blog.csdn.net/ELI_CJ/article/details/5 阅读全文
posted @ 2019-07-10 16:25 xd_xumaomao 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 设X,Y是两个相互独立的随机变量,它们的分布函数分别是Fx(x)和Fy(y),现在求M=max{X,Y}和N=min{X,Y}的分布函数。 Fmax(z) = P{M<=z} = P{X<=z, Y<=z} = P{X<=z}P{Y<=z} 即:Fmax(z) = Fx(z)Fy(z) Fmin(z 阅读全文
posted @ 2019-07-09 11:12 xd_xumaomao 阅读(14824) 评论(0) 推荐(2) 编辑
摘要: 问题:kmeans如何多机并行? 把样本点均分到多太机器上,向每台机器上传入当前计算的到的k个中心点,在每台机器上计算出每个样本的类别,都传到另外一台机器上重新计算k个中心点。 参考博客 https://www.cnblogs.com/pinard/p/6164214.html 阅读全文
posted @ 2019-07-07 17:21 xd_xumaomao 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 算法思想 初始想法 推荐系统中面对的特征往往是海量稀疏特征,如何挖掘出这些海量特征里隐含的组合特征对于改善推荐系统的效果来说非常重要。普通的线性模型时优化时是一个个特征考虑的,没有显示的考虑到组合特征。FM通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是,虽然理论上来讲FM可以 阅读全文
posted @ 2019-07-04 20:29 xd_xumaomao 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 1. 10亿个数中取前1000大的数 维护一个1000个节点的小顶堆。 时间复杂度O(nlogk) 2. 合并k个有序(假设升序)数组 具体步骤:(1)将k个数组的第一个元素取出来,维护一个小顶堆。 (2)弹出堆顶元素存入结果数组中,并把该元素所在数组的下一个元素取出来压入队中。 (3)调整堆的结构 阅读全文
posted @ 2019-07-03 23:37 xd_xumaomao 阅读(15663) 评论(0) 推荐(0) 编辑