cola_cola

2019年4月1日

摘要：阅读全文

posted @ 2019-04-01 18:00 cola_cola 阅读(268) 评论(0) 推荐(0) 编辑

2019年1月8日

摘要：包sklearn.metrics sklearn.metrics包含评分方法、性能度量、成对度量和距离计算分类结果度量参数大多是y_true和y_pred accuracy_score:分类准确度 condusion_matrix:分类混淆矩阵 classification_report:分类报阅读全文

posted @ 2019-01-08 11:23 cola_cola 阅读(767) 评论(0) 推荐(0) 编辑

聚类算法性能评估

摘要：如何评价聚类算法的性能呢？特别是应用在没有类别标注的数据集上。针对不同的数据特点，有以下两种方式: 1、如果被用来评估的数据本身带有正确的类别信息，可以使用ARI（Adjusted Rand Index） ARI指标与分类问题中计算准确性的方法类似，同时也兼顾到了类簇无法和分类一一对应的问题用法：阅读全文

posted @ 2019-01-08 09:47 cola_cola 阅读(4052) 评论(0) 推荐(0) 编辑

2019年1月5日

特征的处理

摘要： 1、首先要进行特征的选择，特征的选择需要基于一定的背景知识 X = titanic[['age','pclass','sex']] y=titanic['survived'] 选择结束可以使用info()进行探查 2、有些特征缺失，我们需要将其补充完整如果该特征是数值型 eg:age特征可使用平阅读全文

posted @ 2019-01-05 10:13 cola_cola 阅读(187) 评论(0) 推荐(0) 编辑

Pandas读取文件

摘要：如何使用pandas的read_csv模块以及其他读取文件的模块？？一起来看一看 Pandas中read_csv和read_table的区别注：使用pandas读取文件格式为pandas特有的dataframe格式（二维数据表格），常使用info()来查看统计特性 1、Pandas中常见的加载文阅读全文

posted @ 2019-01-05 08:53 cola_cola 阅读(1601) 评论(0) 推荐(0) 编辑

2019年1月4日

标准化数据-StandardScaler

摘要： StandardScaler 计算训练集的平均值和标准差，以便测试数据集使用相同的变换官方文档： class sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True) Standardize fea 阅读全文

posted @ 2019-01-04 10:06 cola_cola 阅读(32058) 评论(0) 推荐(0) 编辑

公告