Loading

摘要: 决策树有以下优点: 可解释性和便于理解 决策树不支持缺失值,而且基本上不需要数据预处理 使用树的成本与用于训练树的数据数量乘对数关系 能够同时处理数字变量和字符串变量(分类变量) 即使其假设在某种程度上违反了产生数据的真实模型,也有很好的表现性 决策树的缺点: 决策树很敏感很容易过拟合,所以剪枝非常 阅读全文
posted @ 2023-02-18 21:57 青山新雨 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 划分选择 决策树中,最关键的是判断选择一个什么样的标准来划分样本来区分正负样本。也就是说我们希望划分后的样本尽量一致。下面将介绍如何描述一个样本集合中样本尽量一致的量化概念。 信息增益 信息熵:假设样本集合D中第k类元素所占比例为$p_k$,则D的信息熵为: $$ Ent(D)=-\sum_{k=1 阅读全文
posted @ 2023-02-18 17:40 青山新雨 阅读(24) 评论(0) 推荐(0) 编辑
摘要: k匿名性 在上一篇文章差分隐私进阶-去标识和重标识攻击中使用重标识攻击来获取隐私数据,这篇文章就介绍了使用k-匿名性来解决这个问题。 属性定义:令$B(A_1, A_2, ..,A_n)$是一个有限数据的元组(一行数据称为元组)表格,其中表格B的有限属性集为$Q_T={A_1, A_2, ...,A 阅读全文
posted @ 2023-02-18 10:42 青山新雨 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 去标识 去标识:是指从数据集中删除标识信息的过程。 标识信息的模糊定义:凡是能够根据信息序列精确定位到某个具体事物的信息序列。比如,每个人的身份证号,每个人的(家庭住址,姓名)的信息元组等等。 import pandas as pd import numpy as np import matplot 阅读全文
posted @ 2023-02-18 10:40 青山新雨 阅读(171) 评论(0) 推荐(0) 编辑