2023 年 2月 18 日随笔档案 - 青山新雨

2023年2月18日

摘要：决策树有以下优点：可解释性和便于理解决策树不支持缺失值，而且基本上不需要数据预处理使用树的成本与用于训练树的数据数量乘对数关系能够同时处理数字变量和字符串变量（分类变量）即使其假设在某种程度上违反了产生数据的真实模型，也有很好的表现性决策树的缺点：决策树很敏感很容易过拟合，所以剪枝非常阅读全文

posted @ 2023-02-18 21:57 青山新雨阅读(71) 评论(0) 推荐(0) 编辑

第4章：决策树

摘要：划分选择决策树中，最关键的是判断选择一个什么样的标准来划分样本来区分正负样本。也就是说我们希望划分后的样本尽量一致。下面将介绍如何描述一个样本集合中样本尽量一致的量化概念。信息增益信息熵：假设样本集合D中第k类元素所占比例为$p_k$，则D的信息熵为： $$ Ent(D)=-\sum_{k=1 阅读全文

posted @ 2023-02-18 17:40 青山新雨阅读(24) 评论(0) 推荐(0) 编辑

差分隐私进阶-k匿名化

摘要： k匿名性在上一篇文章差分隐私进阶-去标识和重标识攻击中使用重标识攻击来获取隐私数据，这篇文章就介绍了使用k-匿名性来解决这个问题。属性定义：令$B(A_1, A_2, ..,A_n)$是一个有限数据的元组（一行数据称为元组）表格，其中表格B的有限属性集为$Q_T={A_1, A_2, ...,A 阅读全文

posted @ 2023-02-18 10:42 青山新雨阅读(398) 评论(0) 推荐(0) 编辑

差分隐私进阶-去标识和重标识攻击

摘要：去标识去标识：是指从数据集中删除标识信息的过程。标识信息的模糊定义：凡是能够根据信息序列精确定位到某个具体事物的信息序列。比如，每个人的身份证号，每个人的（家庭住址，姓名）的信息元组等等。 import pandas as pd import numpy as np import matplot 阅读全文

posted @ 2023-02-18 10:40 青山新雨阅读(171) 评论(0) 推荐(0) 编辑

Loading

青山新雨

公告