读算法霸权笔记02_盲点炸弹

1. 棒球模型

1.1. 棒球运动特别适合建立预测性数学模型

1.2. 棒球模型之所以公平，部分原因在于其模型是透明的

1.2.1. 每个人都可以获取作为模型根据的数据，并且或多或少能够理解模型的结果应该怎么解读

1.3. 棒球的统计也比较严谨

1.3.1. 棒球专家手中掌握大量数据，而且几乎所有的数据都和球员的表现直接相关

1.3.2. 他们的数据和他们根据模型预测的结果高度相关

1.3.3. 大多数棒球模型则不使用间接变量，它们只利用最直接的相关信息

1.3.3.1. 坏球、好球和安打的次数

1.3.4. 新的棒球数据还在不断涌入

1.3.4.1. 每年的4~10月，每天都有十二三场比赛的新数据涌入记录系统

1.3.4.2. 统计学家可以将这些比赛结果和他们开发的模型的预测结果进行比较，以找出模型哪里出了问题

1.3.5. 棒球运动模型追求细节，并且不断更新

1.3.5.1. 不透明的教师评估模型则似乎建立在少量的考试成绩数据之上

1.4. 基本上是一种健康模型

1.4.1. 模型信息透明，不断更新，假设和结论大家都可以看到

2. 可靠模型

2.1. 可靠模型的开发者会对自己想要理解或者想要预测的所有事情进行反复的核实查证，并且模型必须随着具体情况的改变而改变

2.2. 模型的本质就是简化

2.2.1. 没有模型能囊括现实世界的所有复杂因素或者人类交流上的所有细微差别

2.2.2. 有些信息会不可避免地被遗漏

2.2.3. 错误总会出现

2.3. 接受模型偶尔会像一个愚蠢的机器一样存在很多信息盲点

2.4. 有时候，盲点不重要

2.4.1. 谷歌给出的世界模型就只有道路、隧道、桥梁，而忽略了建筑物

2.4.1.1. 因为建筑物和我们想要的答案无关

2.4.2. 利用航空电子软件指导飞机飞行时，该软件给出的世界模型就只包含风、飞行速度和地面的着陆带，而不会显示街道、隧道、建筑物和人

2.5. 一个模型是否奏效也见仁见智

2.5.1. 不管是正式模型还是非正式模型，关键要素都是其对某事成功或符合标准的定义

2.6. 一些非常有效的模型可能只有一个变量

2.6.1. 最常见的家用或办公室火灾探测模型就只测量一个与火灾密切相关的变量：烟的出现

2.7. 种族主义在个人层面上可以被视为在全世界数十亿人的大脑中快速运转的预言模型

2.7.1. 这种模型是基于有缺陷的、不完整的或是笼统的数据建立的

2.7.2. 这种模型产生了一种二元论的预测

2.7.2.1. 即某一种族的所有人都行为恶劣，非该种族的人则没有这一特点

2.7.2.2. 种族主义者不会花大量时间搜集可靠数据修改他们扭曲的模型

2.7.2.2.1. 他们的模型一旦变成一种信仰，就从此固定不变了

2.7.3. 种族主义是最欠考虑的预测模型，它由随机的数据采集和假性相关所驱动，被制度不公平加以强化，又被证实性偏见加以进一步劣化

2.7.4. 不管在审判时包含种族因素的证词是否被明确提出，很长一段时间里，种族都是影响审判结果的一个主要因素

2.7.4.1. 瓦特·基哈诺的公开证词

3. 再犯风险模型

3.1. 不透明、隐形成了这类模型的规则

3.2. 利用电子化、数据化的再犯风险模型辅助判决能减少偏见对判刑的影响，更有利于实现公正判决

3.3. 再犯模型的开发是一种进步，它使得审判更具一致性，更少被法官的情绪和偏见所影响

3.4. 问题是，我们是彻底根除了人类偏见，还是只不过用技术包装了人类偏见？

3.4.1. 瓦特·基哈诺的公开证词在被转录成文字之后，还可以供他人在法庭上阅读和质疑

3.4.2. 一个再犯模型的运作完全是由算法独立完成的，只有极少数专业人士能理解

4. LSI–R（水平评估量表）

4.1. 一个更普及的用于评估罪犯危险性的模型

4.2. 其中包含一个需要罪犯填写的冗长的问卷

4.2.1. 有特权背景的罪犯和来自治安差的城市贫民区的罪犯，他们的答案肯定不一样

4.2.2. 不像大多数富人孩子，穷人和少数族裔总会因为这些小事遭遇麻烦

4.2.3. 如果曾在早期“遭遇”过几次警察就表示一个犯人是惯犯，这对穷人和少数族裔是很不公平的

4.3. 得到“高风险”评分等级的人很可能本来就是失业人员，在其所生活的社区里，他的许多朋友和家人都触犯过法律

4.3.1. 得到这一评级是导致其刑期变长的一个原因，而多年和一群罪犯关在一起又增加了他再次犯罪的可能性

4.3.2. 等他出狱之后，他又会回到同样的贫穷社区，而这一次还有了犯罪记录，对他而言，找工作变得更难了

4.3.3. 正是这一模型本身导致了犯人陷入恶性循环，并且进一步巩固了犯人的恶劣处境

4.3.3.1. 数学杀伤性武器的典型特点

4.4. 20世纪90年代建立该模型的人认为，LSI–R是提高刑事司法系统的公平和效率的一个有效工具

4.4.1. 导致一部分人受苦的关键原因是模型造成的恶性循环

4.5. 罪犯为数据科学家提供了一整个活跃的市场

4.5.1. 刑罚体系积累了大量数据，因为罪犯比平常人享有更少的隐私权

4.5.2. 刑罚体系因为太过于臃肿、低效、高成本、缺乏人性而亟待改进

5. 即使模型是良性模型，不透明还是给人一种不公平的感觉

5.1. 如果你在进入一个露天音乐会现场之后，导引员跟你说你不能坐在前十排，你会觉得这很不合理

5.2. 如果导引员跟你解释前十排是为行动不便的人保留的，那你的感觉就大不一样了

5.3. 透明很重要

5.4. 现实是，许多公司竭尽所能地隐藏它们的模型运算结果，甚至隐藏模型的存在

5.4.1. 常见的一个辩护理由就是模型算法包含对它们的业务至关重要的“商业机密”

5.4.2. 知识产权，如果有必要，公司必须在大批律师和说客的协助下为其维护算法机密性的行为进行辩护

6. 不断发展的数学杀伤性武器

6.1. 不断发展的数学杀伤性武器在人力资源、健康、银行等数不尽的行业快速确立普适准则，继而对我们产生一种非常类似于法律的权威性影响

6.2. 特征

6.2.1. 不透明

6.2.1.1. 评分算法是隐藏的

6.2.2. 规模化

6.2.3. 毁灭性

6.3. 并不是所有的数学杀伤性武器都是有害的

6.3.1. 重点不是有没有人受益，而是有很多人受害

6.3.2. 数学杀伤性武器关闭了亿万人的机会之门，通常只是因为一些微不足道的理由，而且不予他们上诉的机会

6.4. 算法能从一个领域跳跃性地应用于另一个领域，而且经常如此

6.4.1. 传染病学研究中的模型被用于预测票房

6.4.2. 垃圾邮件过滤器的模型被用于发现艾滋病病毒

posted @ 2023-12-24 09:37 躺柒阅读(304) 评论(0) 收藏举报

刷新页面返回顶部