摘要: adaboost是boosting类集成学习方法中的一种算法,全称是adaptive boost,表示其是一种具有自适应性的算法,这个自适应性体现在何处,下面来详细说明。 1.adaboost算法原理 在boosting算法框架中,新的弱学习器是基于已有的弱学习器的输出结果生成的,已有的弱学习器产生 阅读全文
posted @ 2019-10-30 17:53 hgz_dm 阅读(1153) 评论(0) 推荐(0) 编辑
摘要: 这篇文章仅仅是为了帮助自己理解在分布式环境下是如何进行随机森林模型构建的,文章中记录的内容可能不太准确,仅仅是大致上的一个理解。 1.特征切分点统计 不管是连续取值型特征还是离散取值型特征,分裂树结点时都需要寻找最优特征的最优切分点。离散型特征还好一点,对连续型特征,其取值情况多,若是遍历所有数据样 阅读全文
posted @ 2019-09-04 20:29 hgz_dm 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 最近做了一些分类模型,所以打算对分类模型常用的评价指标做一些记录,说一下自己的理解。使用何种评价指标,完全取决于应用场景及数据分析人员关注点,不同评价指标之间并没有优劣之分,只是各指标侧重反映的信息不同。为了便于后续的说明,先建立一个二分类的混淆矩阵 ,以下各参数的说明都是针对二元分类 1.准确率 阅读全文
posted @ 2019-09-02 16:22 hgz_dm 阅读(4045) 评论(0) 推荐(0) 编辑
摘要: 最近公司新弄来一台linux redhat 4.4.7服务器,准备在上面离线安装python3.7,安装过程中出现一些问题,特此记录下来。 首先在python官网上下载了 Python-3.7.3.tgz文件,放在/usr/local/python3.7路径下,然后解压到该路径下 tar -zxvf 阅读全文
posted @ 2019-08-15 10:29 hgz_dm 阅读(7025) 评论(0) 推荐(0) 编辑
摘要: 最近刚学习spark,用spark-submit命令提交一个python脚本,一开始老报错,所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数 1.spark-submit参数 --master MASTER_URL:设置集群的主 阅读全文
posted @ 2019-08-15 10:26 hgz_dm 阅读(12405) 评论(1) 推荐(0) 编辑
摘要: 公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") >>> word.first() 报错:jav 阅读全文
posted @ 2019-08-15 10:22 hgz_dm 阅读(2392) 评论(0) 推荐(0) 编辑
摘要: 先说一下,我用的centos7,root用户。ssh的原理就不说了,网上介绍的文章很多,直接开始说操作步骤吧: 1.首先确认有没有安装ssh,输入 rpm -qa |grep ssh查看 这样就表示安装了ssh,没有的话就先安装ssh 2.关闭防火墙 首先查看防火墙的状态,运行 systemctl 阅读全文
posted @ 2019-06-24 20:49 hgz_dm 阅读(1950) 评论(0) 推荐(0) 编辑
摘要: 我的平台是win10(x64)、python3.7,打算通过psycopg2模块来操作Greenplum数据库,我通过pip install psycopg2 安装了psycopg2模块,也提示安装成功了,可是我在import psycopg2的时候提示我该模块未知、不存在,这让我很郁闷,于是我查找 阅读全文
posted @ 2019-05-28 17:38 hgz_dm 阅读(2089) 评论(0) 推荐(0) 编辑
摘要: sklearn.tree.DecisionTreeClassifier()函数用于构建决策树,默认使用CART算法,现对该函数参数进行说明,参考的是scikit-learn 0.20.3版本。 sklearn.tree.DecisionTreeClassifier(criterion=’gini’, 阅读全文
posted @ 2019-05-18 17:06 hgz_dm 阅读(10733) 评论(0) 推荐(0) 编辑
摘要: 平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器,所以这里对NNeighborsClassifier中的参数进行说明,文中参考的是scikit-learn 0.20.3版本。 NNeighborsClassifier函数中参数如下: n_ 阅读全文
posted @ 2019-05-18 17:05 hgz_dm 阅读(504) 评论(0) 推荐(0) 编辑