数据挖掘笔记
Published on 2022-02-17 21:35 in 数据挖掘笔记 with dutrmp19

数据挖掘笔记

数据挖掘笔记

变量的类型

分类变量

分类变量可以分为有序和无序

无序:无程度之间的差别,如男女

有序:如小,中,大

分类、有序、定量变量...你清楚你的变量类型吗?
https://zhuanlan.zhihu.com/p/26941279

无序可以直接用皮尔逊

有序就用斯皮尔曼相关系数计算关系

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data) - python风控模型的文章 - 知乎
https://zhuanlan.zhihu.com/p/398215987

数据预处理

虚拟变量处理

原因:

分类的变量,非等距变量,比如一者是另一者的5倍,但是对结果的影响不一定是对前者的五倍,要改写为onehot编码。

参考:

  1. 什么是虚拟变量?怎么设置才正确?
  2. 用法
  3. 官方文档

实际用法:

ordinal_columns = ['floor', 'rating']
for col in ordinal_columns:
dummies = pd.get_dummies(train[col], drop_first=False)
dummies = dummies.add_prefix("{}#".format(col))
train.drop(col, axis=1, inplace=True)
train = train.join(dummies)

归一化处理

模型建立

划分训练集、测试集

要知道交叉验证是个什么东西

知乎-交叉验证详解

官方文档说明

如果您有任何关于文章的建议,欢迎评论或在 GitHub 提 PR

作者:dutrmp19
本文为作者原创,转载请在 文章开头 注明出处:https://www.cnblogs.com/dutrmp19/p/15906528.html
遵循 CC 4.0 BY-SA 版权协议


posted @   dutrmp19  阅读(33)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示