业余开源项目训练出最准确新冠预测机器学习模型
什么样的机器学习项目会被美国疾控中心CDC、纽约时报、经济学人杂志等多家机构和媒体所引用提及,还被Facebook的Chief AI Executor称为最准确的新冠死亡预测模型?这就是今天要给大家分享的covid-projection——一个来自一名普通美国华裔数据科学家的的业余开源机器学习项目。
covid-projection的作者Gu Yougang在中国出生,儿时随父母移民美国,2015年才从MIT毕业。他本科取得了电气工程与计算机科学专业和数学专业的双学位,硕士则在MIT人工智能实验室的自然语言处理组完成了他的毕业论文。他在疫情期间萌生了对于新冠疫情预测的兴趣,于是在业余时间结合自己的专业所长发起了这个开源项目。在2020年四月到2021年3月的短短一年时间里,该项目实现了对全美五十个州以及全球70个国家的新冠疫情预测,其模型精确度甚至超过华盛顿大学健康指标与评估研究所(Institute for Health Metrics and Evaluation)这样专业科研机构的相关工作,因此受到了美国及全球近百家媒体和机构的关注及报道。
covid-projection构建模型的方法非常朴素,首先它实现了一个基于SEIR传染病模型的模拟器,然后引入机器学习算法及约翰霍普金斯大学等医疗机构发布的新冠历史数据来对其进行优化。优化的过程与机器学习中的hyperparameter tuning非常相似,是利用机器学习或搜索算法来自主的选择模拟器的参数组合,然后将这些参数代入模拟器产生一定时间内的模拟数据。再通过将模拟数据与真实的历史数据进行比较,就可以确定下一次迭代的参数组合调优方向。经过多轮的训练,最后得到的SEIR模拟器就可以被用来产生未来一段时间内的新冠趋势模拟数据,以此实现预测的目的。
SEIR是传染病的基本数学模型之一。S取自Susceptible,指的是还没有阳过的易感人群;E取自Exposed,就是我们常说的密接、次密接人群;I取自Infectious,指新冠感染者;最后的R取自 Recovered,即阳过的康复者。经历过新冠疫情的我们对于这些流行病学术语一定不会陌生,SEIR也其实就是用来描述这四类人群相互之间转换的路径和概率的数学模型。covid-projection的模拟器就是这一模型的计算机程序实现。
当我第一次看到covid-projection这个项目的时候,真的是感觉眼前一亮,有被惊艳到的感觉。新冠是一场影响到全人类、波及到全世界的大型传染病,他对人类文化进程的影响可能不会亚于中世纪的黑死病。在我们的印象中,新冠这样的大型公共卫生事件所涉及的研究工作,似乎只能够由国家或者大型的科研机构来主导。但covid-projection的作者却既不是资深的学者,也不是行业的大牛,只是一位充满热情和公益精神的年轻数据科学家。
技术在改变和影响我们当下生活的过程中确实扮演着重要的角色,但同样重要的还有在生活中发现真正问题的能力,这是我自己在过去的学生生涯中非常缺失的一点,这也正是我从covid-projection的作者身上看到的闪光之处。即使它所解决的问题随着疫情的结束而不再那么重要,即使这个项目在GitHub上最终仅仅收获了300多个赞赏,但它同OpenAI这样的大型知名项目体现了一样的创新精神,从某些角度来说甚至更加的难能可贵。
牛顿在1664年回乡躲避席卷欧洲的第二次鼠疫大流行,其在苹果树下的思考发现了万有有力定律。covid-projection的作者Gu Yougang在2020年的新冠大流行中与医学结缘,如今还在世界卫生组织担任着咨询顾问的志愿工作。相信我们每个人都能够在每一天里找到那个利用自己的专业知识改变自己人生轨迹的契机。
可交互的可视化机器学习开源教程 - https://github.com/ocademy-ai/machine-learning