读当我点击时,算法在想什么?04算法想控制我们(上)

1. 数据让我们在选举中失望

1.1. 在最初的几年里,人工智能可能会在很大程度上模仿初期“哺育”它的人类原型,但随着时间的推移,人工智能文化将大胆地走向人类从未涉足的领域

1.2. 随着 2016年美国总统大选投票开始,政治预测网站FiveThirtyEight每小时访问量达到数千万

  • 1.2.1. 这不是预测模型的第一次失败,也不是最离谱的失败

1.3. 事后证明YouGov做出了正确的预测,而且选举结果是议会中无任何党派占明显多数,但许多人仍然认为它只成功了一半

  • 1.3.1. 越来越多的人认为算法模型无法预测选举——小数点没有任何意义

1.4. 算法是基于概率而非非此即彼的结果来工作的,民调预测也不例外

  • 1.4.1. 算法是基于概率而非非此即彼的结果来工作的,民调预测也不例外

  • 1.4.2. 也没有一个算法,哪怕是为《赫芬顿邮报》(Huffington Post)量身定做的算法,会断言希拉里百分之百获胜

1.5. 我们喜欢我们的世界同时存在英雄和坏人,天才和白痴,我们喜欢非黑即白的确定性世界,而不是现实而充满概率的灰色

1.6. 尽管使用模型来预测选举不时失败,它还是比我们抛硬币猜输赢要准确得多

  • 1.6.1. 例外情况谁也不能保证不会发生,因此我们不能认定常规无用

1.7. 大多数情况下,民意调查以及基于民意调查做成的预测模型,给出的是某个最终结果出现的可能性,也就是概率

1.8. 事实上,有证据表示,民意调查做得越细致、越频繁,得到的预测就越准确

1.9. 现代选举预测的背后是一套可靠和行之有效的方法论

  • 1.9.1. 在民调预测者们看来,选举结果是一条钟形曲线,他们称其为概率分布

  • 1.9.2. 预测模型将根据新的数据不断地调整我们的钟形曲线

  • 1.9.3. 即使是最好的民意调查也包含不确定性,一方面是因为它们只调查到很少一部分美国人,另一方面也是因为还有一些人在犹豫到底支持谁

  • 1.9.4. 概率分布法要求对预测的所有不确定性进行详细的记录

2. 预测成功率

2.1. 专家预测有时与猩猩扔飞镖无异

  • 2.1.1. 预测再犯罪的概率时,朱莉娅·德雷斯尔的“机械土耳其人”与最先进算法的水平不相上下,但他们所用到的数据少得多

  • 2.1.2. 基于点“赞”做成的人格模型距离“了解我们”还很遥远,而声田也在致力给出和朋友一样准确的音乐推荐

  • 2.1.3. 体育比赛预测模型并不优于赌马经纪人的赔率

2.2. “选择性偏差”(selection bias)

  • 2.2.1. 心理学名词

2.3. “被随机愚弄”

  • 2.3.1. 金融大师纳西姆·塔勒布(Nassim Taleb)发明的词

2.4. 没有人能保证所有的用户都能像超级预言家们一样聪明,但是那些不仔细考虑事件发生概率的人很快就会亏钱

  • 2.4.1. 将博彩公司提供的赔率纳入你的数学模型

2.5. 你的预测越大胆,它的质量就越高

3. 大家喜欢的

3.1. 谷歌依据其他人的选择以及不同页面之间的链接数量,来决定向我们展示什么样的搜索结果

3.2. 脸书借助我们朋友的推荐来决定我们将看到什么样的新闻

3.3. Reddit让我们“顶”或“踩”名流八卦

3.4. 领英建议我们在专业领域应该认识哪些人

3.5. Netflix和声田深入研究了用户的电影和音乐偏好,为我们提供观影和收听建议

3.6. 算法与我们在线互动,但它真的在为我们提供最好的信息吗?

3.7. 喜欢“顶”多过“踩”​?

  • 3.7.1. 一个帖子发布伊始,简简单单地加一个额外的“顶”会引发其他用户也跟着“顶”​

    • 3.7.1.1. 表明帖子是可以操控的
  • 3.7.2. 有人用“踩”操控帖子时,其他用户很快就会“顶”上去加以反击

    • 3.7.2.1. 在这种情况下,我们操控的“踩”的数量对最终排名没有大的影响

    • 3.7.2.2. 我们控制负面判断,但不加批判地赞同正面判断,这说明我们的大脑也许有些懒惰,但至少倾向于正面而非负面的判断

3.8. 亚马逊“私人定制”推荐的秘密

  • 3.8.1. 亚马逊网站的创始人杰夫·贝佐斯(Jef Bezos)是第一个认识到我们在浏览网页时只希望看到少量相关选项的人

  • 3.8.2. 他的公司使用了“与你浏览过的商品相关的还有”​,以及“购买了这一商品的顾客也购买了”的推荐清单

  • 3.8.3. 网站上展示的选项越多,人们真正去看的选项就越少

    • 3.8.3.1. 当我们看到太多的信息时,我们的大脑会认为最好的办法就是忽略它们

4. 愚弄谷歌的算法

4.1. “黑帽”一词最初用于形容入侵并操控计算机系统、获取个人利益的黑客

4.2. 愚弄谷歌的算法,让它相信有人真的对联盟网站感兴趣

4.3. 谷歌的算法做的就是检索关键词、寻找原创内容、看我是否用了一些图片,再评估一下‘链接果汁’

4.4. 谷歌算法建立在和“大家也喜欢”算法一样的原则上——一个网站越受欢迎,当人们搜索一个主题时,它就越有可能被显示给其他人

  • 4.4.1. 随着网站排名的提升,它的流量会相应增加,排名也会相应地进一步提升

4.5. 通过创建多个链接到他们想推广的网页,​“黑帽”联盟实现了对谷歌搜索结果的操控

  • 4.5.1. 当谷歌算法“看到”有多个链接指向某个网站时,它就会认为这个被连接的网站在网络中极为重要,从而在它的搜索结果列表中将这个网站前移

4.6. 一旦“链接果汁”流动起来,而网站也一路高歌猛进抵达搜索结果的顶端之后,真实用户就开始点击这些链接,从而创造出更多的链接果汁,​“黑帽”也就是从这个时候开始赚钱

  • 4.6.1. 这些钱不是来自谷歌,而是来自亚马逊和其他联盟网站的佣金,因为真实用户点击“黑帽”的链接进入了亚马逊等网站

4.7. 目前,最通用的做法是创建“私人博客网络”​

  • 4.7.1. 所做的一切就是为了愚弄谷歌的算法

4.8. 圈子效应

  • 4.8.1. 登上排行榜只是成功的一部分,另外一个帮助新作者取得成功的原因是媒体对其作品打出了差评

5. HotUKDeals

5.1. 网站鼓励会员们分享他们在大零售商购物的窍门,让人觉得浏览这个网站的群体喜欢到处购买便宜的商品

5.2. 每一个链接指向的网站都是其联盟网站,所以HotUKDeals上的每一条购物窍门都为联盟网站的所有者带来了现金收益

5.3. 确实有一个庞大的真实用户群,但这个网站的宣传海报也被发布在“黑帽”世界的某些联盟网站上

6. 学术界

6.1. 在学术界,你的文章出现在谷歌学术搜索论文列表顶端就相当于YouTube上网红被排到了订阅用户的前列

  • 6.1.1. 一份与输入的搜索词相关的文章链接列表

  • 6.1.2. 文章的排列顺序由其他文章引用(或参考)它的次数决定

6.2. 引用对学术界来说至关重要,因为那是我们学术界的对话方式

  • 6.2.1. 文章中的引用和最后的引用列表显示了文章如何有助于增强大家对问题的理解

  • 6.2.2. 评判一篇论文在某一领域的重要性,一个重要方法就是参考这篇论文的被引用次数

  • 6.2.3. 一篇文章的被引用次数越多,就越能代表科学家对相关问题的见解

6.3. 学术界创造了一个“大家也喜欢”的算法

  • 6.3.1. 长久以来,学术界一直是一个封闭的世界

6.4. 幂律

  • 6.4.1. power law

  • 6.4.2. 为了更好地理解幂律,让我们想象一条引用次数超过某一数值的论文占比的曲线,我们通常最习惯用线性坐标系来呈现曲线上点的变化,也就是说坐标轴上距离相等的点之间,数值差异是相同的

  • 6.4.3. 幂律揭示了现实世界巨大的不平等现象

6.5. 年轻的科学家不再专注于高水平研究,而是费尽心思地提高自己的h指数,让自己的论文登上影响力大的期刊

6.6. 鼓励科学家将大部分时间用于探索新想法,于是那些对新的可能性进行大量研究的科学家得以生存下来,而那些仔细验证他人研究成果的科学家则遭到“灭绝”​

6.7. 不认为关注和追求文章的被引用次数损害了科学家实际研究的质量

  • 6.7.1. 只要时间充裕,作为科学家的我们仍然可以把研究做好

  • 6.7.2. 喜欢通过验证同行们的结果来证明他们犯了错

  • 6.7.3. 对于大多数科学家来说,反驳同行的理论和自己发现新成果,给我们带来的满足感是同等的

6.8. 并非所有的科学家都甘心委身于这场人气竞赛,一些人选择了反击,而且运用的是他们最擅长的武器:科学

  • 6.8.1. 桑托·福图纳托的研究表明,从长远来看,h指数与科研产出的关联程度并不高,用它来衡量年轻科学家时更是如此

  • 6.8.2. 一个科学家最重要的文章可能完成于他职业生涯的任何时期

    • 6.8.2.1. 可能是他们生平写的第一篇论文

    • 6.8.2.2. 可能是他们刚拿到博士学位后

    • 6.8.2.3. 或者是在努力寻找终生职位时写的一篇论文

    • 6.8.2.4. 可能是他们成名时发表的论文

    • 6.8.2.5. 可能是他们生平发表的最后一篇论文

6.9. 科研突破会发生在任何时候

  • 6.9.1. 这一洞见无法帮助科研赞助机构确定资助哪些人的研究,但它说明了仅根据论文被引用次数来决定拨款给谁,并不是解决问题的办法

  • 6.9.2. 只为成功的研究人员提供资金可能会与更重要的科学发现失之交臂,因为忽视那些已经工作了数年却没有取得突破的研究人员,我们或许会使最重要的科学发现胎死腹中、功亏一篑

6.10. 因为容易量化,论文被引用次数和论文的影响因子已经成为科学研究中的通用货币

6.11. 不平等是当今社会面临的最大挑战之一,而我们在网络上的行为正在为这种不平等推波助澜

  • 6.11.1. 人的完整性是我们所拥有的最重要品质之一,我们不能简单地听命于算法
posted @   躺柒  阅读(12)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
历史上的今天:
2024-02-18 读十堂极简人工智能课笔记05_无监督学习
2023-02-18 读Java实战(第二版)笔记13_Java模块系统
点击右上角即可分享
微信分享提示