OpenFold 深入了解 AlphaFold2 的学习行为

尽管 AlphaFold2 在预测蛋白质结构方面具有巨大的实用性,但官方实现不包括其训练程序和相关所需数据的代码。这使得研究模型的学习行为和创建可以执行新任务的变体变得困难。 自然方法现在,AlQuraishi 和同事报告了 OpenFold,这是 AlphaFold2 的一个可训练的开源实现,它提供了对其学习机制和泛化能力的洞察。

OpenFold 从头开始​​使用 OpenProteinSet(AlphaFold2 训练数据集的开源复制品)进行训练,结果显示其准确度可与 AlphaFold2 媲美。为了了解架构的具体属性(例如数据效率),作者使用越来越少的数据对 OpenFold 进行了一系列训练,结果表明,即使使用少至 1,000 条蛋白质链的数据集,OpenFold 也能实现高精度。然后使用分布外数据对 OpenFold 进行训练,以评估其泛化能力,结果表明,该模型似乎是从多重序列比对和/或序列结构相关性的局部模式中学习,而不是从全局折叠级别的模式中学习。对中间结构的分析进一步表明,尽管该模型最终预测全局结构的准确度几乎与局部结构一样高,但它是从学习后者开始的。

2024-06-17 00:00:00
1719081338

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​