随笔分类 - 机器学习
摘要:看到 各位 大厂都在用这个, 而本人最多是用yarn 做些ML的事情, 赶快了解一下, 先扫盲记录一下。 一.名称趣闻 kubernetes缩写为k8s, 阿哈 ,原来是:k8s,意思就是k后面跳过8个字母后到s,就变成了k8s。 kubernetes /kubə'netis/,重音在第三个音节,读
阅读全文
摘要:这个哥们 总结的太好了, 我忍不住就“偷”过来了 人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。 人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等, 总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂
阅读全文
摘要:好久不玩 TF 了, 今天尝试了一个案例,发现要安装module , 就搞了一下, 发现要先安装 base , 安装过程有遇到好多问题, 就写写, 将其中解决过程记录下来。 1. 保存,编码问题 UnicodeDecodeError: 'gbk' codec can't decode byte 0x
阅读全文
摘要:开启摘抄 , 学习! 1、为什么引入非线性激励函数?解析:第一,对于神经网络来说,网络的每一层相当于f(wx+b)=f(w'x),对于线性函数,其实相当于f(x)=x,那么在线性激活函数下,每一层相当于用一个矩阵去乘以x,那么多层就是反复的用矩阵去乘以输入。根据矩阵的乘法法则,多个矩阵相乘得到一个大
阅读全文
摘要:为了能够记录,下次可以有参考的东西,就记录如此 多谢网上大牛的帖子,我都是安装您们的才顺利的一次性,无黑屏现象的完成了安装 1. 参考: 1、secure boot option ( 开机进入bios) 应设置为disable,否则就算安装好NVIDIA驱动,调取ctrl+alt+F2, 输入sud
阅读全文
摘要:转载: 简介 针对文本相似判定,本文提供余弦相似度和SimHash两种算法,并根据实际项目遇到的一些问题,给出相应的解决方法。经过实际测试表明:余弦相似度算法适合于短文本,而SimHash算法适合于长文本,并且能应用于大数据环境中。 余弦相似度 余弦定理: 图-1 余弦定理图示 性质: 余弦值的范围
阅读全文
摘要:集成学习最重要的两种类型:装袋(Bagging)与提升(Boosting),从其两大算法入手:Random Forest、GBDT。 集成学习包括元算法和模型融合两方面 从图中可以看出,元算法提供了从个体弱学习器到集成强学习器的实现,模型融合则在强学习器的基础上,设计结合策略进一步提升性能,元算法按
阅读全文
摘要:1.线性加权融合方法 从算法的角度来看,则最常用的是采用加权型的混合推荐技术,即将来自不同推荐算法生成的候选结果及结果的分数,进一步进行组合(Ensemble)加权,生成最终的推荐排序结果。 具体来看,比较原始的加权型的方法是根据推荐效果,固定赋予各个子算法输出结果的权重,然后得到最终结果。很显然这
阅读全文
摘要:有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这
阅读全文
摘要:看到很多地方在用这个, 就 总结一下: 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本
阅读全文
摘要:前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 Dirichlet 分布 1 Dirichlet 分布 2 Dirichlet-Multinomia
阅读全文
摘要:共轭先验 是啥? 网上找几篇文章,收集与此! 今天的主要任务是来理解共轭先验以及贝叶斯学习。最近在研究主题模型,里面用到了一些,另外在机器学习中,贝叶斯学习是重要的一个方向,所以有必要学习和掌握。 Contents 1.共轭先验分布 2. 贝叶斯学习 3. Beta分布及共轭先验 1.共轭先验分布
阅读全文
摘要:1.C4.5算法 2. k 均值聚类算法 3.支持向量机 4. Apriori 关联算法 5.EM 最大期望算法 Expectation Maximization 6、PageRank 算法 7、AdaBoost 迭代算法 8、kNN 算法 9、朴素贝叶斯算法 10、CART 分类算法。 补充: 1
阅读全文
摘要:聚类分析 聚类分析和判别分析有相似的作用,都是起到分类的作用。但是,判别分析是已知分 类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们 的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的 观测比较接近,不同类的观测相差较多,这是无指导的学
阅读全文
摘要:1、先按照 Anaconda , 有关教程,可以去其他博客查看 2、傻瓜的装Opencv.(我采用的) 在Anaconda Prompt中输入: conda install -c https://conda.binstar.org/menpo opencv (然后根据提示,输入一些简单的命令如[y]
阅读全文
摘要:1.1 降维的必要性 1. 多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。 2. 高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。 3. 过多的变量会妨碍查找规律的建立。 4. 仅在变量层面上分析可能会
阅读全文
摘要:PCA(Principal Component Analysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。 PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕
阅读全文
摘要:背景,在看原理的时候,发现很多地方一知半解的,补充如下。 其他补充: 注:以下的默认为2分类 1、SVM原理: (1)输入空间到特征空间得映射 所谓输入空间即是输入样本集合,有部分情况输入空间与特征空间是相同得,有一部分情况二者是不同的,而模型定义都是定义到特征空间的,特征空间是指所有的输入特征向量
阅读全文
摘要:看到这篇 大牛写的文章, 太好了, 将大学中学到的一些枯燥的公式来龙去脉都叙述清楚, 堪称 统计学小说 ! 为了 能够 继续分享, 而且收藏,就摘抄过来。 博客原文:http://blog.csdn.net/lw_ghy/article/details/71436767#reply 一、正态分布,熟
阅读全文