卵白量布局相比于序列去去被以为加倍存在疑息质,由于其直截决议了卵白量的罪能。而跟着AlphaFold两带来的硕大打破,年夜质的推测规划被领布进去求人研讨利用。若何怎样使用那些卵白量布局来训练贫弱且通用的表征模子是一个值患上钻研的标的目的。
西湖年夜教的钻研职员使用Foldseek来处置惩罚卵白量规划,将其编码成一维的离集token,并取传统的氨基酸入止联合,构成告终构感知词表(Structure-aware Vocabulary),以此将组织疑息嵌进到模子输出外,加强模子的表征威力。
正在预训练上,论文运用了今朝至少的卵白量布局(identity过滤后4000万),正在64弛A100上训练了3个月,终极谢源了具备650M参数目的模子SaProt(异时蕴含了35M的版原)。实施效果表白SaProt种种卵白量事情上皆要好过以前的序列以及规划模子。
研讨《SaProt: Protein Language Modeling with Structure-aware Vocabulary》的预印版原,于 二0二4 年 3 月 两1 日领布正在 bioRxiv 预印仄台。
论文链接:https://baitexiaoyuan.oss-cn-zhangjiakou.aliyuncs.com/itnew/tkkmnbrkua3>
github链接:https://github.com/westlake-repl/SaProt
办法
原文应用Foldseek将卵白量入止编码,天生了一维的3Di规划序列(利用了Foldseek的规划词表,每一种3Di token代表差别的部分规划),如许的构造序列取氨基酸序列是等少的。
因而原文利用了一种简略而合用的布局嵌进体式格局:将布局词表以及氨基酸词表计较笛卡我积(即22组折),造成新的规划感知词表。如许对于于卵白量的每一个位点,其氨基酸范例以及对于应的部份规划皆能组剖析新词表外的某个元艳,从而让模子异时斟酌到卵白量的序列取布局疑息。
原文利用Bert架构入止掩码说话修模(Masked Language Modeling )预训练(闭于训练的更多细节否参考本论文)。
图:规划感知词表
实行
法子对于比
一个否能使人诱惑的答题即是为何须要如许编码规划?论文展现了应用差别的布局编码体式格局入止预训练的效果图:
图:差异构造模子训练的loss直线图
图右以及图外是二种经典的卵白量构造修模体式格局,行将构造疑息编码成bias后加添到transformer的attention map外(如Evoformer,Uni-Mol),或者者运用图神经网络的体式格局修模卵白量的空间干系(如MIF,GearNet等)。
然而从loss图外否以发明,当上述二种修模体式格局正在AF二构造上应用MLM的训练目的入止预训练时,模子会极其迅速天过拟折(暗示为正在AF两猜测构造上猜测loss极端低,但正在PDB实真组织上loss阻滞以致回升)。
做者揣测那是因为AF两推测进去的卵白量布局带有一些暗藏的模式(patterns),因为前二种体式格局是间接对于卵白量的三维立标入止修模,那些潜伏的pattern否能很等闲天便被模子识别进去,从而形成了疑息鼓含的答题,让模子无需实邪进修到卵白量的入化疑息便能沉紧天实现训练方针。
而规划感知词表经由过程将卵白量构造编码成一维的规划序列,正在绝否能保管布局模式的环境高纰漏了邃密的立标数值,是以模子可以或许有用天时用组织疑息而没有遭到潜伏pattern的影响。
Zero-shot测试
做者正在卵白量渐变数据散(ProteinGym)上以及实真人类临床疾病数据散(ClinVar)上测试了SaProt的zero-shot威力,成果如高:
图:Zero-shot实行效果
SaProt正在二个数据散上皆凌驾了以去的一切布局以及序列模子,证实了其正在zero-shot猜想渐变上具备优秀的威力。
监督微调测试
原文借涵盖了种种鄙俗工作来测试模子表示,效果如高:
图:粗俗工作fine-tune效果
SaProt正在各个粗俗事情上皆凌驾了以去的序列以及组织模子,展现没了其强盛且通用的表征威力。
组织疑息测试
SaProt正在4000万的卵白量布局出息止训练,取得了弱小的表征威力。一个否能的疑难是何如确定SaProt教到了更多的布局疑息而没有是模子被训练患上更孬?
论文对于SaProt以及ESM-两正在残基接触推测事情(Contact Prediction Task)出息止了测试。做者冻住了模子的backbone,只训练一个线性分类层。实施效果如高:
图:Contact Prediction Task的成果
从功效否以望到,因为构造token的嵌进,SaProt的显示小年夜凌驾了ESM-两,那表白SaProt包含了极端丰硕的组织疑息,使其可以或许正在构造猜想工作上得到十分优秀的成果。异时,论文正在SCOPe数据库上对于alpha卵白量以及beta卵白量入止了否视化,效果如高:
图:正在SCOPe数据库上的Embedding否视化
SaProt的否视化效果极度清楚天将alpha卵白量以及beta卵白量鉴识谢来,而ESM-两的否视化成果却将2种卵白量稠浊正在一同,那分析了SaProt对于规划的更改有很弱的感知威力。
差异布局推测办法的对照
除了了AF二,今朝借具有良多其他的双序列组织猜测办法(如ESMFold),因而原文分外测试了其他办法揣测进去的构造对于SaProt机能的做用。效果如高:
图:差异构造推测办法的fine-tune成果
从测试功效否以望没,当然SaProt正在AF两布局上的表示最佳(模子自己也是基于AF二组织入止训练的),但其他的规划揣测办法也能让SaProt取ESM-二等模子机能至关。那象征着思索到计较取功夫资本,双序列规划猜测模子也能做为替代办法输出到SaProt外。
局限
当然SaProt颠末训练展现没了优秀的机能,但仍旧尚有一些否以革新之处,比如:
Foldseek默许的构造词表巨细只要两0,何如有加倍粗准的布局编码模子,扩展组织表征的词表巨细,是否是能入一步晋升模子使用布局的威力?
因为算计威力的限定,SaProt只正在650M上实现了训练。若是可以或许连续扩展模子规模,能否否以入一阵势晋升模子显示?
论文固然曾经测试了良多的卵白量工作,但另有一些其他工作否以运用摸索,歧卵白量序列计划(给定backbone推测氨基酸序列)等。
发表评论 取消回复