摘要: 一、逻辑斯蒂回归分类器 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。 任务描述:以iris数据集(iris)为例进行分析(iris下载地址:http://dblab.xmu.edu. 阅读全文
posted @ 2019-12-15 21:44 nxf_rabbit75 阅读(854) 评论(0) 推荐(0) 编辑
摘要: 一、特征抽取 1.TF-IDF “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。 词频TF(t,d)是词语t在文档d中出现的次数 文件频率DF(t,D)是包含词语的文档的个数 阅读全文
posted @ 2019-12-15 18:42 nxf_rabbit75 阅读(605) 评论(0) 推荐(0) 编辑
摘要: 一、机器学习工作流概念 1.DataFrame 使用Spark SQL中的DataFrame作为数据集,它可以容纳各种数据类型。较之RDD,DataFrame包含了schema 信息,更类似传统数据库中的二维表格。 它被ML Pipeline用来存储源数据。例如,DataFrame中的列可以是存储的 阅读全文
posted @ 2019-12-15 16:33 nxf_rabbit75 阅读(1044) 评论(0) 推荐(0) 编辑