新物网

当前位置:首页 > 科技

科技

微软开源EvoDiff新型蛋白质生成人工智能 核心是6.4亿参数模型

时间:2023-09-23 18:10:41 小菊花
本周,微软推出了一个通用框架EvoDiff,该公司声称可以根据给定的蛋白质序列生成“高保真”、“多样化”的蛋白质。与其他蛋白质生成框架不同,EvoDiff 不需要任何有关目标蛋白质的结构信息,省去了通常最费力的步骤。微软高

本周,微软推出了一个通用框架EvoDiff,该公司声称可以根据给定的蛋白质序列生成“高保真”、“多样化”的蛋白质。与其他蛋白质生成框架不同,EvoDiff 不需要任何有关目标蛋白质的结构信息,省去了通常最费力的步骤。

微软高级研究员 Kevin Yang 表示,EvoDiff 是开源的,可用于创建用于新疗法和药物输送方法的酶,以及用于工业化学反应的新酶。

“我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,”EvoDiff 的联合创始人之一杨向媒体表示,“通过 EvoDiff,我们证明我们实际上可能不需要结构,而是‘蛋白质序列就是你所需要的’来可控地设计新蛋白质。”

EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。(“参数”是从训练数据中学习的 AI 模型的一部分,本质上定义了模型解决问题的技能 – 在本例中生成蛋白质。)训练模型的数据来源于用于序列比对的 OpenFold 数据集UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。

EvoDiff 是一种扩散模型,其架构类似于许多现代图像生成模型,例如稳定扩散和DALL-E 2。EvoDiff 学习如何逐渐从几乎完全由噪音组成的起始蛋白质中减去噪音,使其慢慢地、一步一步地接近蛋白质序列。

<a href=https://www.xinwust.com/tags-246-0.html target=_blank class=infotextkey>微软</a>开源EvoDiff新型蛋白质生成人工智能 核心是6.4亿参数模型
EvoDiff 生成蛋白质的过程。图片来源: Microsoft EvoDiff

扩散模型已越来越多地应用于图像生成之外的领域,从设计新型蛋白质(如 EvoDiff)到创作音乐甚至合成语音。

“如果要从 EvoDiff 中汲取一件事,我认为我们可以而且应该通过序列进行蛋白质生成,因为我们能够实现通用性、规模化和模块化,” EvoDiff 的另一位共同贡献者、微软高级研究员 Ava Amini 表示,“我们的扩散框架使我们有能力做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。”

Amini 认为,EvoDiff 不仅可以创造新的蛋白质,还可以填补现有蛋白质设计中的“空白”。例如,如果蛋白质的一部分与另一种蛋白质结合,模型可以围绕该部分生成满足一组标准的蛋白质氨基酸序列。

由于 EvoDiff 在“序列空间”而不是蛋白质结构中设计蛋白质,因此它还可以合成最终不会折叠成最终三维结构的“无序蛋白质”。与正常功能蛋白质一样,无序蛋白质在生物学和疾病中发挥着重要作用,例如增强或降低其他蛋白质活性。