会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
cola_cola
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
2019年4月1日
python学习(一)
摘要:
阅读全文
posted @ 2019-04-01 18:00 cola_cola
阅读(268)
评论(0)
推荐(0)
编辑
2019年1月8日
模型评估(度量)
摘要: 包sklearn.metrics sklearn.metrics包含评分方法、性能度量、成对度量和距离计算 分类结果度量 参数大多是y_true和y_pred accuracy_score:分类准确度 condusion_matrix:分类混淆矩阵 classification_report:分类报
阅读全文
posted @ 2019-01-08 11:23 cola_cola
阅读(767)
评论(0)
推荐(0)
编辑
聚类算法性能评估
摘要: 如何评价聚类算法的性能呢?特别是应用在没有类别标注的数据集上。针对不同的数据特点,有以下两种方式: 1、如果被用来评估的数据本身带有正确的类别信息,可以使用ARI(Adjusted Rand Index) ARI指标与分类问题中计算准确性的方法类似,同时也兼顾到了类簇无法和分类一一对应的问题 用法:
阅读全文
posted @ 2019-01-08 09:47 cola_cola
阅读(4052)
评论(0)
推荐(0)
编辑
2019年1月5日
特征的处理
摘要: 1、首先要进行特征的选择,特征的选择需要基于一定的背景知识 X = titanic[['age','pclass','sex']] y=titanic['survived'] 选择结束可以使用info()进行探查 2、有些特征缺失,我们需要将其补充完整 如果该特征是数值型 eg:age特征 可使用平
阅读全文
posted @ 2019-01-05 10:13 cola_cola
阅读(187)
评论(0)
推荐(0)
编辑
Pandas读取文件
摘要: 如何使用pandas的read_csv模块以及其他读取文件的模块?? 一起来看一看 Pandas中read_csv和read_table的区别 注:使用pandas读取文件格式为pandas特有的dataframe格式(二维数据表格),常使用info()来查看统计特性 1、Pandas中常见的加载文
阅读全文
posted @ 2019-01-05 08:53 cola_cola
阅读(1601)
评论(0)
推荐(0)
编辑
2019年1月4日
标准化数据-StandardScaler
摘要: StandardScaler 计算训练集的平均值和标准差,以便测试数据集使用相同的变换 官方文档: class sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True) Standardize fea
阅读全文
posted @ 2019-01-04 10:06 cola_cola
阅读(32058)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
公告