随笔分类 - 编程语言
摘要:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html?highlight=dbsc#sklearn.cluster.DBSCAN
阅读全文
摘要:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html?highlight=agg#sklearn.cluster.AgglomerativeClustering h
阅读全文
摘要:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html?highlight=kmeans#sklearn.cluster.KMeans https://scikit-learn.org/stable/
阅读全文
摘要:LigthGBM是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。 LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势:
阅读全文
摘要:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html?highlight=bagging#sklearn.ensemble.BaggingClassifier https:/
阅读全文
摘要:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html?highlight=adaboost#sklearn.ensemble.AdaBoostClassifier http
阅读全文
摘要:1. 概述 1.1 集成学习 目前存在各种各样的机器学习算法,例如SVM、决策树、感知机等等。但是实际应用中,或者说在打比赛时,成绩较好的队伍几乎都用了集成学习(ensemble learning)的方法。集成学习的思想,简单来讲,就是“三个臭皮匠顶个诸葛亮”。集成学习通过结合多个学习器(例如同种算
阅读全文
摘要:class sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True) 参数: missing_values: integer or “NaN”, optiona
阅读全文
摘要:https://blog.csdn.net/yangyin007/article/details/82385967 1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的
阅读全文
摘要:https://scikit-learn.org/stable/modules/classes.html
阅读全文
摘要:1.安装Graphviz 在graphviz的官网(网址:http://www.graphviz.org/Download_windows.php),选择Windows对应的mis文件进行下载。如graphviz-2.3.8.msi: 下载之后,进行安装。找到安装路径,如:C:\Program Fi
阅读全文
摘要:前面的博客里有提到决策树,我们也了解了决策树的构建过程,如果可以可视化决策树,把决策树打印出来,对我们理解决策树的构建会有很大的帮助。这篇文章中,我们就来看下如何可视化输出一棵决策树。 一、安装相应的插件 我们需要安装Graphviz和pygraphviz,教程,这个教程里有详细的安装过程,这里就不
阅读全文
摘要:Categorical特征常被称为离散特征、分类特征,数据类型通常是object类型,而我们的机器学习模型通常只能处理数值数据,所以需要对Categorical数据转换成Numeric特征。 Categorical特征又有两类,我们需要理解它们的具体含义并进行对应的转换。 Ordinal 类型:这种
阅读全文
摘要:1. pd.get_dummies() #简单&粗暴 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=N
阅读全文
摘要:GridSearchCV 简介: GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。 但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算
阅读全文
摘要:Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处: 直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。 可以结合grid search对参数进行选择。 在下面的例子中,我们使用决策
阅读全文
摘要:Series.apply Series.apply(func, convert_dtype=True, args=(), **kwds) 对序列的每一个元素作用传入的函数 参数 参数描述 func : function 所要应用的函数 convert_dtype : boolean, default
阅读全文
摘要:conda create -n env-name python=3.8
阅读全文