摘要: 阅读全文
posted @ 2019-04-01 18:00 cola_cola 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 包sklearn.metrics sklearn.metrics包含评分方法、性能度量、成对度量和距离计算 分类结果度量 参数大多是y_true和y_pred accuracy_score:分类准确度 condusion_matrix:分类混淆矩阵 classification_report:分类报 阅读全文
posted @ 2019-01-08 11:23 cola_cola 阅读(767) 评论(0) 推荐(0) 编辑
摘要: 如何评价聚类算法的性能呢?特别是应用在没有类别标注的数据集上。针对不同的数据特点,有以下两种方式: 1、如果被用来评估的数据本身带有正确的类别信息,可以使用ARI(Adjusted Rand Index) ARI指标与分类问题中计算准确性的方法类似,同时也兼顾到了类簇无法和分类一一对应的问题 用法: 阅读全文
posted @ 2019-01-08 09:47 cola_cola 阅读(4052) 评论(0) 推荐(0) 编辑
摘要: 1、首先要进行特征的选择,特征的选择需要基于一定的背景知识 X = titanic[['age','pclass','sex']] y=titanic['survived'] 选择结束可以使用info()进行探查 2、有些特征缺失,我们需要将其补充完整 如果该特征是数值型 eg:age特征 可使用平 阅读全文
posted @ 2019-01-05 10:13 cola_cola 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 如何使用pandas的read_csv模块以及其他读取文件的模块?? 一起来看一看 Pandas中read_csv和read_table的区别 注:使用pandas读取文件格式为pandas特有的dataframe格式(二维数据表格),常使用info()来查看统计特性 1、Pandas中常见的加载文 阅读全文
posted @ 2019-01-05 08:53 cola_cola 阅读(1601) 评论(0) 推荐(0) 编辑
摘要: StandardScaler 计算训练集的平均值和标准差,以便测试数据集使用相同的变换 官方文档: class sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True) Standardize fea 阅读全文
posted @ 2019-01-04 10:06 cola_cola 阅读(32058) 评论(0) 推荐(0) 编辑