2020年6月29日

(九)关键变量发掘技术

摘要: 一、关键变量发掘技术(key attribute discovery techniques) 关键变量发掘技术,其实,就是从数据集中的所有数据变量中找到那些影响分类模型最大的那些关键变量。 1.两种变量是必须需要剔除的。 相关变量(redundant):如果一个变量和另一个变量高度相关,这个时候,此 阅读全文

posted @ 2020-06-29 07:02 为主而活 阅读(344) 评论(0) 推荐(0) 编辑

(八)数据集切割

摘要: 一、数据集切割 我们通常将数据及切割成两部分:训练数据集(Training Dataset);测试数据集(Testing Dataset). 注意:可采用分层抽样的方式进行,以保持数据在目标字段上分布的一致性。 1.数据分割 • 80%训练数据→在训练数据上可以做任何的分析• 20%测试数据→在测试 阅读全文

posted @ 2020-06-29 06:33 为主而活 阅读(357) 评论(0) 推荐(0) 编辑

(七)数据精简之(数据值精简和字段的精简)

摘要: 一、数据精简之数值精简 •1. 数据值精简的需求 • 原始数据中存在太细、过于底层的数据数值,对于许多数据挖掘方法而言,将无法从中找出层次较高、趋势导向的知识• 2.类别型数据数值精简 • 数据一般化(Data Generalization)• 3.连续型数据数值精简 • 数据离散化(Data Di 阅读全文

posted @ 2020-06-29 06:20 为主而活 阅读(295) 评论(0) 推荐(0) 编辑

导航