数据、人工智能和传感器按COVID-19新冠流感排列
数据、人工智能和传感器按COVID-19新冠流感排列
Data, AI and sensors arrayed against COVID-19
各国政府、卫生保健专业人士和工业界争先恐后地应对Covid-19流感大流行,在这场将对公共卫生和全球经济造成的损失降至最低的战斗中,有一些强有力的盟友:大数据和预测分析,加上人工智能和热传感器库。
Covid-19属于与严重急性呼吸综合征(SARS)和普通感冒相关的病毒家族。因为它是一种人类先前没有免疫力的新型病毒,它的早期影响是毁灭性的。在中国湖北省发布第一份报告数月后,大多数国家的检测结果充其量仍然是零星的,这让全球各地的民众不确定他们当中的实际病例数,也不知道如何应对这种危险,甚至不知道其范围。不久,人工智能和数据分析技术专家就认识到人工智能技术和数据科学有可能支持流行病学家和政府危机应对小组的工作。
数据分析和数学,加上物理学,使我们能够深入了解自然过程。数据科学的先驱们已经对公共卫生产生了影响,他们部署了数据收集和分析来帮助减缓早期疫情的传播。数据分析最早的历史应用之一是1852年,当时伦敦爆发霍乱。约翰·斯诺是第一批以数据为导向的流行病学家之一,他对伦敦发生的死亡事件进行了地理空间分析,从而能够分离出疾病的源头。根据他的分析,当局能够有针对性地采取干预措施,并迅速遏制疫情蔓延。
让我们评估一下数据
通过在数据分析系统中运行模型,研究人员能够大致了解趋势如何发展。一个例子是SIR模型,这是一个流行病学模型,它计算一段时间内封闭人口中感染传染病的理论人数。该模型使用耦合方程分析易感人群数量S(t);感染人数I(t);康复人数R(t)。
最简单的SIR模型之一是KalMaC-McKeDrimk模型,它是许多其他房室模型的基础。在这方面,我发现帕多瓦大学(Universit a degli Studi di Padova)的研究生研究员埃托雷·马里奥蒂(Ettore Mariotti)在3月初发表的一篇分析文章非常有趣。
考虑一个岛屿——我们的系统——人们既不能离开也不能进入。岛上的每一个人在某一特定时间都可能处于以下状态之一:“易感”、“感染”和“康复”(因此,缩写为SIR)。在一定的概率下,从未患过这种疾病的人在康复之前可能会生病并被感染(I)。在Covid-19的情况下,适当地将模型扩展为一个附加状态“暴露”,以包括已感染病毒但尚未感染的人(SEIR模型;图1)。
Figure 1: SEIR model
该模型考虑了两个因素:病毒的动态和个体间的相互作用。(后者非常复杂,并且受益于这里描述的工具。)有了这些信息,就可以定义R0参数,它表示被感染者可能感染的人数。
例如,假设某人A生病了,而我们的系统的R0=2,意味着A会感染两个人。这两个人将依次感染四个人,他们将分别感染另外两个人(所以4×2=8),以此类推。这突出了一个事实,即疾病的传播是乘性的,而不是加性的。R0可以捕获三个基本场景(图2)。
Figure 2: R0 basic scenarios
学校、体育馆、剧院、餐馆和其他公共场所的关闭减少了社交活动的数量,从而降低了R0。由于该病毒已将公共卫生资源紧张到了临界点,将R0参数降低到unity以下至关重要。如果R0>1,疾病传播;如果R0<1,疾病消失。因此,在冠状病毒爆发期间,政府对人们的流动性施加了严格的限制,试图降低R0。
值得注意的是,R0衡量的是疾病的潜在传播,而不是疾病传播的速度。考虑到流感病毒无处不在的特性,R0只有1.3左右。高R0是一个令人担忧的原因,但不是恐慌的原因。
R0是一个平均值,因此它可以受到一些因素的影响,比如在给定的人群中“超级传播者”的数量。超级传播者是一个被感染的人谁感染了出乎意料的大量的人。超级传播事件发生在SARS和MERS流行期间以及当前的大流行期间。然而,这类事件并不一定是一个坏兆头,因为它们可能表明使一种流行病长期存在的人数减少了。超级传播者也可能更容易识别和控制,因为它们的症状可能更严重。
简言之,R0是一个移动的目标。追踪每一个病例和疾病的传播是非常困难的,所以估计R0是复杂和具有挑战性的。估计值常常随着新数据的可用性而变化。
为了帮助当局控制R0,人工智能的使用,加上手机GPS跟踪数据的收集,可以建立分析模型,预测哪些社区更容易发生病例,哪些社区需要紧急干预。
Big data, AI, and sensors
大数据、人工智能和传感器
在流行期间,临床数据在质量和一致性方面可能有很大的变化。这类并发症包括假阳性患者。然而,大数据和人工智能可以用来检查是否符合隔离,而机器学习可以用于药物研究。
亚洲的冠状病毒反应提供了许多通过使用数字技术实施干预的例子。配备了智能扫描仪和摄像头的无人机能够探测到不遵守检疫措施的人,并能检测人们的体温。中国大陆和台湾为此使用了智能摄像机。
总部位于香港的AI科技公司SSESETIME开发了一个平台,可以通过扫描人们的脸来检测发烧,即使他们戴着医疗面罩。SenseTime的非接触式温度检测软件已经在北京、上海和深圳的地铁站、学校和公共中心实施。
与此同时,阿里巴巴开发了一个基于人工智能的Covid-19诊断系统,通过计算机断层扫描(CT扫描),可以检测出新的冠状病毒病例,准确率高达96%。
总部位于纽约的Graphen正与哥伦比亚大学的研究人员合作,以确定病毒每个基因定位的典型形式,并确定确切的变体。研究人员正在使用Graphen的Ardi-AI平台来存储突变数据,并将其可视化。一种典型的可视化方法是将一种病毒与一组具有相同基因组序列的病毒进行比对。通过单击相应的节点,可以看到与病毒相关的信息,包括受感染者的位置、性别和年龄。
与此同时,大数据已经被广泛应用于改进监控系统,以绘制病毒传播的地图。
大数据的获取和处理需要新的收集和分析方法和技术。特别是,我们可以区分四种大数据分析方法:
描述性分析,或用于描述业务流程或业务项目当前和过去情况的方法和技术,以综合和图形方式表示活动的绩效指标;
预测分析,包括数据分析工具,帮助了解未来会发生什么,使用数学技术,如回归和预测模型;
规范性分析,用于确定有效的战略和运营解决方案;以及
自动分析,包括允许以自动方式根据分析结果自动执行所需操作的工具。
阿里巴巴还开发了一款应用程序“支付宝健康代码”,它使用中国医疗系统提供的大数据来显示谁可以或不能访问公共空间。
BlueDot是一家总部位于多伦多的初创企业,其平台围绕人工智能构建,它开发了智能系统,能够自动监测和预测传染病的传播。在SARS流行期间,BlueDot平台得到了应用,并证明了其有效性。
值得注意的是,在2019年12月,BlueDot还对冠状病毒的潜在严重性发出了警报,再次证明其模型是正确的。BlueDot使用的工具包括自然语言处理技术。
Insilico Medicine(马里兰州洛克维尔)是另一家专注于通过人工智能预防疾病的公司。公司正在开发和应用下一代人工智能和深度学习方法,将其应用于药物发现和药物开发过程的每一步。Insilico最近利用其系统分析了可能适合对抗这种新型冠状病毒的分子,并能够分享结果。在本期杂志付印时,该公司正在策划一个用于疫苗开发的信息数据库。
研究经济影响
除了对健康的影响外,Covid-19还对全球经济造成了毁灭性的打击。在这里,大数据和人工智能也可以帮助分析影响并制定适当的应对措施。例如,卫星分析技术帮助webbank的研究人员确定了中国受影响最大的行业,比如钢铁。分析显示,在疫情初期,中国钢厂的产量已降至最低产能的29%,但到2月9日已恢复至产能的76%(图3)。
Figure 3: Side-by-side satellite images from Dec. 30, 2019 (left), and Jan. 29, 2020, show that steel industry activity fell sharply in China in the early days of the epidemic.
研究人员随后研究了使用人工智能的其他类型的生产和商业活动。一种方法是简单地计算大型停车场的汽车数量。分析显示,截至2月10日,特斯拉在上海的汽车生产已全面恢复,而上海迪士尼乐园等旅游场馆仍处于关闭状态。
通过分析GPS卫星数据,可以确定哪些人在上下班。该软件随后统计了每个城市的通勤人数,并比较了2019年春节假期开始时和2020年相应日期的通勤人数。这两年,通勤客流量在假期开始时都有所下降,但今年,节后的正常交通量并没有像2019年那样恢复正常。
随着经济活动的缓慢复苏,webbank的研究人员计算出,到2020年3月10日,大约75%的劳动力已经重返工作岗位。根据这些曲线,研究人员得出结论,除武汉工人外,大多数中国工人将在3月底返回工作岗位。
那些试图应对冠状病毒挑战的国家拥有强大的工具,在危机解决后,证明其价值的解决方案很可能成为标准做法。