数据挖掘笔记
数据挖掘笔记
变量的类型
分类变量
分类变量可以分为有序和无序
无序:无程度之间的差别,如男女
有序:如小,中,大
分类、有序、定量变量...你清楚你的变量类型吗?
https://zhuanlan.zhihu.com/p/26941279
无序可以直接用皮尔逊
有序就用斯皮尔曼相关系数计算关系
斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data) - python风控模型的文章 - 知乎
https://zhuanlan.zhihu.com/p/398215987
数据预处理
虚拟变量处理
原因:
分类的变量,非等距变量,比如一者是另一者的5倍,但是对结果的影响不一定是对前者的五倍,要改写为onehot编码。
参考:
实际用法:
ordinal_columns = ['floor', 'rating'] for col in ordinal_columns: dummies = pd.get_dummies(train[col], drop_first=False) dummies = dummies.add_prefix("{}#".format(col)) train.drop(col, axis=1, inplace=True) train = train.join(dummies)
归一化处理
模型建立
划分训练集、测试集
要知道交叉验证是个什么东西
如果您有任何关于文章的建议,欢迎评论或在 GitHub 提 PR
作者:dutrmp19
本文为作者原创,转载请在 文章开头 注明出处:https://www.cnblogs.com/dutrmp19/p/15906528.html
遵循 CC 4.0 BY-SA 版权协议
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix