我在剑桥大学 Dyno Therapeutics 的 ML 研究团队的经历!
我在剑桥大学 Dyno Therapeutics 的 ML 研究团队的经历!
s/o all the incredible people in the Dojo House! From left: Subaita, Rikard, Yasmeen, Sana, Reiss, Mike, Carol
今年夏天,与其他 7 人同住 生物技术黑客之家 在马萨诸塞州剑桥市,我在机器学习研究团队实习 测功疗法 ! Dyno 是一家旨在使用机器学习设计基因治疗载体的初创公司。使用机器学习和高吞吐量 体外 (细胞) + 体内 (动物)实验,他们的目标是开发基因载体,称为 ** 衣壳** ,可以安全地传递基因有效载荷(a 基因治疗 ) 到正确的单元格。 Dyno 专门从事设计工作 腺相关病毒 (AAV),最广泛使用的基因治疗载体。
基因载体成为一个重大问题,主要是因为生物制剂或由活生物体制成的治疗剂是改善人类健康的一个越来越令人兴奋的机会。基因编辑系统、碱基编辑,甚至最近在 COVID-19 疫苗竞赛中取得的信使 RNA 系统的成功证明,生物制剂是我们延长人类寿命的未来。然而,基因治疗的成功依赖于病毒载体安全、精确地将基因有效载荷传递到预期靶细胞和组织的能力。确保基因疗法不被免疫系统阻断(免疫逃避),将外源 DNA 引入细胞(转导),并且遗传有效载荷可以装入病毒载体(包装)都是不可或缺的。
当前的基因疗法受到我们对天然存在的载体(尤其是腺病毒)的了解的限制。因此,Dyno 正试图通过将机器学习和蛋白质工程策略应用于自然发生的(野生型)AAV 来构建针对各种组织的目标 AAV 载体套件来解决这个问题。
The four-step process of capsid discovery at Dyno (figures sourced from Dyno 网站). 1) Synthesis of DNA libraries encoding modified protein capsids. 2) Using high-throughput experimentation and DNA-barcoding, Dyno measures the ability of millions of capsids on a suite of properties like transduction or packaging. 3) Dyno then trains models to learn an underlying representation of AAVs’ protein sequence-function (fitness) landscape. 4) Navigating the exploration-exploitation tradeoff, Dyno uses these trained models to navigate the fitness landscape and find highly optimized capsids, making current gene therapies more effective. This entire loop can repeat for several cycles.
我最初被 Dyno 所吸引是因为它对机器学习、蛋白质工程和病毒载体开发做出了广泛的科学贡献。在 Dyno 之前,我曾在机器学习和计算分子设计方面工作,在学术实验室和大型生物技术公司工作。鉴于这些经历,我想在暑假里与一家从事机器学习工作的初创公司一起研究生物学问题。我寻找的主要因素是一家在计算方法开发和蛋白质工程和生物发现方法应用方面都进行创新的公司。
尤其是 Dyno,因为它对 ML 引导的蛋白质工程领域的重大科学贡献,它对我来说最为突出。 Dyno 在 Science 和 Nature Biotech 上发表了两篇突破性论文,“ 全面的 AAV 衣壳适应性景观揭示了病毒基因并实现了机器引导设计 “ 和 ” 通过机器学习对 AAV 衣壳蛋白进行深度多样化 ,”他们开创了上述四步法。阅读他们的论文和创始人描述生物序列设计问题的工作,我对在该领域领先的研究人员团队下接受培训的前景感到兴奋。
在 Dyno,我得到了一些出色的科学家的指导,其中一些来自伯克利。我的经理 Jeffrey Chan 获得了博士学位。 EECS 由 Yun Song 教授指导,我团队的另一位科学家 David Brookes 由 Jennifer Listgarten 教授指导。在蛋白质生物学和机器学习的前沿与伯克利大学的毕业生一起工作是令人兴奋的——学习如何做好科学,同时获得关于伯克利实验室和课程的宝贵建议,真是太棒了。作为我的团队(机器学习研究——MLR)的一部分,我们主要致力于开发和评估用于设计新 AAV 衣壳库的新方法的前景。看到不同团队如何交叉合作令人兴奋,因为 Dyno 为湿实验室生物科学家搭建了一个环境,让他们可以与 ML 科学家携手设计新实验。从计算实习生的角度来看,Dyno 的另一个令人兴奋的机会是能够处理大规模、多样化的数据集,这些数据集跨越了许多目标的数十种不同的序列到函数关系。在几个月内探索有趣的研究问题并尝试为 Dyno 的研发工作做出贡献是令人兴奋的,如果没有内部收集的大量生物数据,这将是不可能的。
在所有事情中,我在 Dyno 最看重的一件事就是人们的高期望和科学严谨性。 Dyno 是从哈佛大学 George Church 教授的实验室中分离出来的,研究文化依然存在。例如,期刊俱乐部传播有关生物学、统计学和计算机科学的有趣文献,并且在这里经常出现。此外,正在进行的研究会谈是我向科学家团队解释我的项目并获得有关新探索方向和尝试方法的宝贵反馈的机会。
在我的第一个月里,我做了很多关于文学的论文阅读,理解了 ** 上位性** 以及它与蛋白质适应性的关系。从蛋白质序列到生物表型的映射很大程度上决定了进化的过程。生命系统一次进化一个突变,但一个突变体可以改变后续突变的影响。但是,这种被称为上位性的机制决定因素非常不清楚。序列中氨基酸位点之间的这些非加性相互作用可以加速或严重限制这种适应的步伐。
从理解和实现基本的加法(线性模型)到更复杂的非线性模型,以理解 Dyno 数据集中的上位性涉及大量的论文阅读,这导致我在 Husain 等人的论文“Physical Constraints on Epistasis”上做了一个期刊俱乐部人。通过为期刊俱乐部做准备,我不得不通过讲座、笔记和论文来学习领域知识,这些主题与我作为计算机科学专业学生的背景完全不同。我探索了物理动力学、进化和结构生物学等领域,试图理解论文并将其更好地融入 Dyno 正在解决的问题的背景中。在这个过程中,我探索了许多领域,并将我的研究兴趣扩展到了我以前从未考虑过的领域。这种兴趣使我非常关注机器学习和结构生物学的交叉点,阅读为蛋白质设计开发几何深度学习模型的论文,并利用我的领域知识更好地理解一门新学科。在接下来的几个月里,我希望能够分享我夏天在 Dyno 的一些具体工作! 😃
从这些经历中,我逐渐确信我对使用进化生物学和结构生物学的技术来指导我的工作进行机器学习和生物序列设计的研究非常感兴趣。使用我在 Dyno 学到的技能和框架,我很高兴能在大二时进行研究。除了研究之外,Dyno 还教会了我很多关于处理现实世界的机器学习系统和问题的知识。处理数据不平衡,验证文献中关于实际数据的方法,以及设计新的实验来解释模型正在学习的特征——所有这些都教会了我从阅读论文中无法获得的东西。最重要的是,与那些非常关心他们的工作并且总是愿意响应为创造一个美妙的学习环境而呼吁的令人难以置信的人一起这样做。
我的下一步
我回到伯克利读本科二年级!我很高兴能重新为学生组织做出贡献 [email protected]伯克利 (并加入一些新的),参加研究研讨会和实验室会议,并参加令人兴奋的 CS、数学和生物工程的本科和研究生课程。我目前正在学习优化理论、概率和离散数学以及科学史等课程,同时学习计算功能基因组学等领域的研究生课程。虽然伯克利第一年的课程无疑是挤满了演讲厅,通常有数百名本科生,但我很高兴能在我大二的时候参加更小、更高级别的课程!
就具体的后续步骤而言:我很高兴能加入 麻省理工学院和哈佛博德研究所 作为一名访问本科生,与 Eeshit Dhaival Vaishnav 和 埃里克·兰德教授 .自从我第一次读到人类基因组计划以来,Lander 教授一直是我的长期研究偶像,所以我很高兴能在 Broad 与他和 Eeshit 一起工作。我们将解决一些与机器学习、单细胞生物和基因表达相关的激动人心的问题!
我也开始寻找明年夏天的机器学习/研究实习。如果您可能有兴趣,让我们聊天!可以通过 [first_name][last_name_initial]@berkeley.edu 联系我。
杂项。夏天的照片!
Left: trip to NY! Right: spontaneous visit to the Harvard undergrad observatory (thanks Ben for bringing us!)
Visiting the MIT dome! The possibility of grad school here is kind of appealing now 😃
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具