10 2021 档案
摘要:决策树的应用 决策树 决策树与 if-then 规则 决策树可以看作一个 if-then 规则的集合 由决策树的根节点到叶节点的每一条路径,构建一条规则:路径上内部节点的特征对应着规则的条件(condition),叶节点对应规则的结论 决策树的 if-then 规则集合有一个重要性质:互斥并且完备。
阅读全文
摘要:随机森林 1. 集成模型和它的优势 什么是集成模型 对于几乎所有的分类问题(图像识别除外,因为对于图像识别问题,目前深度学习是标配),集成模型很多时候是我们的首选。比如构建一个评分卡系统,业界的标配是GBDT或者XGBoost等集成模型,主 要因为它的效果确实好,而且稳定。还有一点是这些模型的可解释
阅读全文
摘要:K-Means 最常用的机器学习聚类算法,且为典型的基于距离的聚类算法 K均值: 基于原型的、划分的距离技术,它试图发现用户指定个数(K)的簇 以欧式距离作为相似度测度 K均值算法需要输入待聚类的数据和欲聚类的簇数k,主要的聚类过程有3步: 随机生成k个初始点作为质心; 将数据集中的数据按照距离质心
阅读全文
摘要:主成分分析-PCA 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术 >> 将观测对象的群体按照相似性和相异性进行不同群组的划分,划分后每个群组内部各对象相似度很高,而不同群组之间的对象彼此相异度很高。 Principal Compon
阅读全文
摘要:DorisDB Apache Doris最早诞生于2008年,最初只为解决百度凤巢报表的专用系统。在08年那个时候数据存储和计算成熟的开源产品非常少,Hbase的导入性能只有大约2000条/秒,在这种不能满足业务的背景下,doris 诞生了,并且跟随百度凤巢系统一起正式上线。 Apache Dori
阅读全文