摘要: 1. 有一万盏灯,是灭的,有一万个人,都按照1~10000编号,每个人上去按灯,会按自己倍数的灯,比如2会按2,4,6 等等,3会按3,6,9 等。问最终哪些是亮着的。 完全平法方数的灯是亮着的。 参考博客 https://blog.csdn.net/ELI_CJ/article/details/5 阅读全文
posted @ 2019-07-10 16:25 xd_xumaomao 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 设X,Y是两个相互独立的随机变量,它们的分布函数分别是Fx(x)和Fy(y),现在求M=max{X,Y}和N=min{X,Y}的分布函数。 Fmax(z) = P{M<=z} = P{X<=z, Y<=z} = P{X<=z}P{Y<=z} 即:Fmax(z) = Fx(z)Fy(z) Fmin(z 阅读全文
posted @ 2019-07-09 11:12 xd_xumaomao 阅读(15028) 评论(0) 推荐(2) 编辑
摘要: 问题:kmeans如何多机并行? 把样本点均分到多太机器上,向每台机器上传入当前计算的到的k个中心点,在每台机器上计算出每个样本的类别,都传到另外一台机器上重新计算k个中心点。 参考博客 https://www.cnblogs.com/pinard/p/6164214.html 阅读全文
posted @ 2019-07-07 17:21 xd_xumaomao 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 算法思想 初始想法 推荐系统中面对的特征往往是海量稀疏特征,如何挖掘出这些海量特征里隐含的组合特征对于改善推荐系统的效果来说非常重要。普通的线性模型时优化时是一个个特征考虑的,没有显示的考虑到组合特征。FM通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是,虽然理论上来讲FM可以 阅读全文
posted @ 2019-07-04 20:29 xd_xumaomao 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1. 10亿个数中取前1000大的数 维护一个1000个节点的小顶堆。 时间复杂度O(nlogk) 2. 合并k个有序(假设升序)数组 具体步骤:(1)将k个数组的第一个元素取出来,维护一个小顶堆。 (2)弹出堆顶元素存入结果数组中,并把该元素所在数组的下一个元素取出来压入队中。 (3)调整堆的结构 阅读全文
posted @ 2019-07-03 23:37 xd_xumaomao 阅读(15737) 评论(0) 推荐(0) 编辑
摘要: 算法思想 GBDT也是Boosting家族的一员,也采用了前向分布加法模型,但是GBDT和AdaBoost还是存在很大的区别的: 1.AdaBoost没有对弱分类器的种类做限定,GBDT的弱分类器只能是CART回归树。 2.Adaboost是根据本轮弱分类器的分类误差率来改变训练样本在下轮训练时的权 阅读全文
posted @ 2019-07-03 17:12 xd_xumaomao 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 数据结构和算法 https://www.cnblogs.com/skywang12345/p/3603935.html https://www.cnblogs.com/linxiyue/p/3849239.html 机器学习 https://www.cnblogs.com/pinard/p/6140 阅读全文
posted @ 2019-07-03 09:48 xd_xumaomao 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 1.启动关闭 start-dfs.sh //启动hdfs start-YARN.sh //启动YARN start-all.sh //同时启动hdfs和YARN jps //查看节点运行进程 stop-all.sh //停止hdfs和YARN 2.hdfs基本命令 阅读全文
posted @ 2019-06-29 19:39 xd_xumaomao 阅读(1882) 评论(0) 推荐(0) 编辑
摘要: CNN CNN为什么比DNN在图像识别上更好 如果把图像的每个像素都当成一维特征的话,输入特征维度将会非常大,用DNN的话需要训练的参数太过庞大根本无法训练。而CNN采用了参数共享机制有效的减少了需要训练的参数的数目,而且在图像中邻近像素具有比较大的关联性,适合用卷积处理。 CNN输出尺寸计算 池化 阅读全文
posted @ 2019-06-24 22:32 xd_xumaomao 阅读(565) 评论(0) 推荐(0) 编辑
摘要: bagging bagging的弱分类器之间是相互独立的,容易并行,bagging方法主要是能减少方差。 bagging对样本进行采样时采用有放回的采样(自助法),一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同 代表算法:随机森林 boosti 阅读全文
posted @ 2019-06-24 21:48 xd_xumaomao 阅读(205) 评论(0) 推荐(0) 编辑