读人工不智能:计算机如何误解世界笔记04_数据新闻学

1. 计算化和数据化的变革

1.1. 每一个领域都在进行计算化和数据化的变革

1.1.1. 出现了计算社会科学、计算生物学、计算化学或其他数字人文学科

1.1.2. 生活已走向计算化,人们却一点也没有变

1.2. 在如今的计算化和数据化世界中,调查性新闻的实践必须依靠高科技

1.3. 视觉艺术家使用诸如Processing之类的编程语言来创建多媒体艺术作品

1.4. 3D打印技术让雕塑家能够更深入地探索艺术的物理可行性

2. 数据新闻学

2.1. 数据记者

2.1.1. 拓宽了新闻学中应用技术的边界

2.2. 数据记者首先是记者

2.2.1. 使用数据作为原始资料,使用各种数字工具和平台来讲述新闻

2.2.2. 数据记者倾向于依赖既定的学术研究方法

2.3. 好记者

2.3.1. 首先要知道何时求助于相关学科的专家

2.3.2. 其次要认清专家和骗子的区别

2.4. 美国政府的一举一动在默认情况下都是公开的

2.4.1. 公开了政府数据,不代表消灭了腐败

2.5. 佛罗里达州还有“阳光法律”,保证公众可以访问这些资料,也保证了相关磁带、照片、影片和录音都是公开的

2.5.1. 大限度地公开档案法条意味着人们可以轻易获取政府的官方数据,这也就意味着大量数据新闻都与佛罗里达州有关

2.6. 有些数据记者会从官方渠道获取数据,并对其进行分析,以找到看点

2.6.1. 在佐治亚州,每三名因与病人发生不当性行为而受处罚的医生中,就有两名被允许再次执业

2.6.1.1. 分析了1999年到2015年超过10万份针对医生的医委会调查令

2.6.1.2. 全国各地都有医生因虐待患者而获罪,却又获准恢复行医资格

2.6.2. 数据记者曾坐在高速公路边,记录警车经过的时间

2.6.2.1. 从收费站的警察应答器中获取数据,发现当地警察普遍以危及公民安全的高速行驶

2.6.2.2. 调查结束后,警察超速驾驶的比例下降了84%

2.6.3. 查看了50个州的警察对公民的截停记录数据

2.6.3.1. 在每个州,有色人种被警察截停的情况都要比白种人多得多

2.7. 学术研究是数据新闻的重要补充

2.8. 数据新闻学还包括对算法的问责报道

2.8.1. 在民主政体中,新闻自由的职能一直是问责决策者

2.8.2. 算法问责报道也承担着同样的职能,并将其应用到计算世界

2.8.3. 逆向工程算法是算法问责决策者的一部分

2.8.3.1. 论文《算法的责任——计算结构下的新闻调查》(“Algorithmic Accountability:Journalistic Investigation of Computational Power Structures”)

2.8.3.2. 2012年,C. W. 安德森发表了研究论文《关于计算与算法新闻的社会学》(“Towards a Sociology of Computational and Algorithmic Journalism”)

2.9. 算法,或计算过程,正被越来越多地用于替代我们做决策

2.9.1. 算法决定了我们在网上购物时看到的订书机的标价,也决定了我们购买医疗保险的价格

2.9.2. 当你通过线上招聘网站提交求职申请或投递简历时,就会有一个算法决定你是否符合标准,符合则交由人类做下一步评估,否则直接回绝你的申请

3. 数据驱动的调查报道

3.1. 在新闻报道中使用数据不是什么新鲜事,这件事要比大多数人想象的更早

3.2. 最早由数据驱动的调查报道出现在1967年

3.2.1. 菲利普·迈耶

3.2.2. 《底特律自由报》

3.2.3. 分析了有关底特律种族暴动的数据

3.2.3.1. 暴动的参与者来自社会各阶层

3.2.4. 获得了普利策新闻奖

3.2.5. 精确性报道

3.3. “精确性报道”也就演化成了“计算机辅助报道”

3.4. 计算机辅助报道又演化成如今的“数据新闻”

3.4.1. 视觉新闻、计算新闻、绘图、数据分析、机器人构建和算法问责报告

3.4.2. 这些故事有时是爆炸性新闻,有时是娱乐性新闻,有时是调查性新闻

3.4.3. 这些新闻的信息量通常都很大

3.5. 《华尔街日报》对价格歧视现象的调查

3.5.1. 诸如史泰博和家得宝之类的大型连锁超市在他们的网站上,会根据邮政编码判断访客可能所在的地区,并且对不同地区的访客收取不同的价格

3.5.2. 邮政编码所在地区较富裕的顾客比邮政编码所在地区较贫穷的顾客收费低

3.6. 影响力大的调查数据新闻报道的制作成本高达数十万美元

3.7. 如今做新闻还得学会阅读数据,使用工具来分析数据,并且找出其中有意思的部分

3.8. 不偏不倚地看待数据分析结果,并且按最合适的方式整合数据,把握国内现状,从而真正去帮助人们

4. 机器偏见

4.1. ProPublica的记者发现,司法量刑使用的一种算法对非裔美国人有偏见

4.2. 计算机中一个名为“替代性制裁惩教罪犯管理”(Correctional Offender Management Profiling for AlternativeSanctions,简称COMPAS)的算法,会计算出一项分数,“预测”出该疑犯在未来犯罪的可能性

4.2.1. 目的是让法官能够在量刑时做出更为“客观”且由数据驱动的决定

4.2.2. 其结果是非裔美国人获得的刑期比白种人更长

4.2.3. 技术沙文主义蒙蔽了COMPAS的设计者,他们意识不到他们的算法可能会对人们造成怎样的伤害

4.3. 计算机在发展,而人类的本性却没有进化

4.3.1. 人只有被监督,才能真正诚实

4.4. 如果你相信计算机做的决定比人类做的决定更高明,那么就代表你全然信赖那些输入系统的数据的有效性

4.4.1. 无用数据入、无用数据出

4.4.2. 如果你输入的是垃圾,那么输出的也一定是垃圾

4.5. 我们要对这些算法以及算法的制作者存疑,看算法是在让世界变得更美好还是更糟糕

4.6. 你可以质疑技术上的虚假说辞,发现当今计算系统中的不公与不平等

4.7. 质疑可能的错漏之处,能让我们远离盲目的技术乐观主义,让我们的看法变得更加合理和中立

4.8. 我们的生活才能因技术而变得更好,而不至于受到技术的牵制,或需要对技术做出让步

posted @ 2024-02-27 06:55  躺柒  阅读(26)  评论(0编辑  收藏  举报