摘要:
这是Machine Learning领域的经典论文,文中提到了ML相关的12个keys,并自称这些keys是“black art”,我觉得有点像ML的“最佳实践”。 网上有此文的中文翻译,写得很详细,附上两个,并感谢这两位同学的工作: https://blog.csdn.net/u011467621 阅读全文
摘要:
FeatureTools是2017年9月上线的github项目,是一个自动生成特征的工具,应用于关系型数据。 github链接:https://github.com/Featuretools/featuretools 项目官网:https://www.featuretools.com/ API do 阅读全文
摘要:
刚读完一篇paper《Solving the “false positives” problem in fraud prediction》,趁热打铁,做个笔记。 文章下载链接:https://arxiv.org/pdf/1710.07709.pdf 概述 这篇文章是对 bank transactio 阅读全文
摘要:
最近连续听到PageRank算法,久闻其名,不闻其详,心里虚得很,今儿补补课。 PageRank算法的网络资料非常全面,毕竟是将近二十年的经典算法,算法细节可以参考文末链接,这里简单说说我的理解。 PageRank要解决的问题是如何给网页排序,它的思路是,利用网页间的链接关系构造有向图,对有向图的所 阅读全文
摘要:
Ensemble Learning是机器学习里最常见的建模方法,RandomForest 和 GBDT 采用了Ensemble Learning模式,只是具体方法不同。 下面简单翻译下一 https://www.analyticsvidhya.com/blog/2015/09/questions-e 阅读全文
摘要:
最近发现集群里的服务器上有多个python环境,版本相同的python也有多个,主要区别是site-packages里安装的模块不同,这样配置的好处是不同类型的项目可以使用自己的python环境,不会造成混淆,只是在代码中每次要引用特定的python运行环境,比如下面这样: 在linux中给pyth 阅读全文
摘要:
先抛出问题:Spark on Yarn有cluster和client两种模式,它们有什么区别? 用Jupyter写Spark时,只能使用client模式,为什么? 写一篇文章,搞清楚 Spark on Yarn 的运行原理,同时回答上面的问题。 首先,把Spark和Yarn当做两个独立概念来看。单看 阅读全文
摘要:
Hadoop家族的技术,网上资料多如牛毛,但是还是那句老话——好脑瓜不如烂笔头,看的再多也不如自己动手写一写。 Hadoop是一个分布式系统,有两个关键组件——HDFS和MapReduce,HDFS负责分布式文件存储,MapReduce是执行分布式任务的算法。 MapReduce只是一个分布式数据处 阅读全文
摘要:
随机森林算法(RandomForest)的输出有一个变量是 feature_importances_ ,翻译过来是 特征重要性,具体含义是什么,这里试着解释一下。 参考官网和其他资料可以发现,RF可以输出两种 feature_importance,分别是Variable importance和Gin 阅读全文
摘要:
在学习决策树类的算法时,总是绕不开 信息熵、Gini指数和它们相关联的概念,概念不清楚,就很难理解决策树的构造过程,现在把这些概念捋一捋。 信息熵 信息熵,简称熵,用来衡量随机变量的不确定性大小,熵越大,说明随机变量的不确定性越大。计算公式如下: 考虑二元分布的情况,当取2为对数底时,可以得到如下的 阅读全文