摘要:
1. 聚类是啥 聚类是一种 无监督学习 算法,聚类会将数据集中的数据分成不同的标签簇,使得簇内的数据相似性尽可能大,簇间的相似性尽可能小。 该 无监督学习 方法,将 没有标签的数据 变成了标签的数据,每个数据的标签就是其所属簇的簇标签。 2. 聚类算法 2.1 K-means 算法思想:事先假设数据 阅读全文
摘要:
1. 模型思想 从样本中选出距离测试点最近的 K 个样本,通过这 K 个样本的属性即可推测出待测样本的属性,分类:取占多数类别的样本;回归:取 K 个样本的平均值。 1.1 KNN三要素 1)K 值得选取:K 过大会导致欠拟合,K值过小会导致过拟合。 2)距离的度量:一般欧式距离。sklearn的A 阅读全文
摘要:
1. 特征工程意义 数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限。 所有让模型效果变得更好的数据处理方式都可以称作特征工程。 2. 特征工程处理 2.1 数据清洗 选择数据处理工具&查看数据的元数据以及特征信息,对字段意义、数据格式内容等有所认识,基于业务理解对数据进行关联性验证等。 阅读全文