先前的工作5建立了两个主要目标 ,用于mRNA设计,稳定性和密码子最优性,它们协同化以增加蛋白质表达。为了优化稳定性 ,给定蛋白质序列,我们旨在找到在编码该蛋白质的所有可能的mRNA序列中,该mRNA序列在所有可能的mRNA序列中具有最低的最小能量变化(MFE) 。也就是说 ,对于每个候选mRNA序列,我们使用标准RNA折叠能量模型15,16在其所有可能的二级结构中找到其MFE结构,然后选择其MFE能量最低的序列。因此 ,这是最小化的最小化(扩展数据图1A)。这种方法将需要数十亿年的时间,因此需要有效的算法而无需枚举 。
我们还旨在共同优化mRNA稳定性和密码子最优性。密码子最优性通常由密码子适应指数(CAI)测量,该指数定义为mRNA中每个密码子相对适应性的几何平均值。因为CAI在0到1之间,但MFE通常与序列长度成正比 ,因此我们将CAI的对数乘以mRNA中的密码子数,并使用高参数CAI重量(λ)以平衡MFE和CAI(λ= 0是mfe-fe) 。组合目标是MFE - λ| P |log cai,| p |是蛋白质长度。有关详细信息 ,请参见方法,“优化目标”和扩展数据图1B。
接下来,我们将解决这两个优化问题的解决方案 ,并用自然语言借用的两个想法:DFA(晶格)表示和晶格解析 。
Inspired by the word lattice representation of ambiguities in computational linguistics (Extended Data Fig. 2a), we represent the choice of codons for each amino acid using a similar lattice—more formally, a DFA, which is a directed graph with nucleotide-labelled edges (Fig. 2a and Extended Data Fig. 1c; see Methods, ‘DFA representations for codons and mRNA candidate sequences’ for formal definitions).在蛋白质序列中为每个氨基酸构建一个密码子DFA后,我们将它们连接到单个mRNA DFA中,其中开始和最终状态之间的每个路径代表了编码该蛋白质的可能的mRNA序列(图2B和扩展数据图1d)。
已知RNA折叠等同于自然语言解析 ,其中随机上下文语法(SCFG)可以代表折叠能量模型18(扩展数据图1E,F)。对于mRNA设计,困难的问题是如何将DFA中的所有mRNA序列一起折叠在一起。我们借用了晶格解析的想法6,19 ,它概括了单序解析以同时处理晶格中的所有句子以找到最有可能的句子(图1C和扩展数据图2) 。同样,我们使用晶格解析同时折叠mRNA DFA中的所有序列以找到最稳定的序列(图2B和扩展数据图1G,H)。请注意,晶格解析也是动态编程的一个实例 ,但是在更大的搜索空间中,单序折叠可以看作是单链DFA的特殊情况。此过程也可以解释为SCFG – DFA交集(扩展数据图1A),其中SCFG得分的稳定性得分 ,而DFA划分了候选者的集合 。该算法的运行时间与mRNA序列长度(方法,scfg,晶格解析和相交)进行了立方体缩放 ,但对于实际应用,它四范围缩放(图3A)。
现在,我们将DFA扩展到加权DFA ,以整合边缘权重的密码子最优性。由于我们的联合优化配方因子CAI CAI在每个密码子C的相对适应性w(c)上,因此我们将每个密码子DFA中的边缘权重设置为codeon c具有路径成本–LOG W(c),可以将其解释为“偏离量 ”与最佳密码子的“偏差” 。然后 ,在加权mRNA DFA中,每个起始端路径的成本是相应mRNA中每个密码子C的–LOG W(C)之和,与其–LOG CAI成正比(图2D)。现在,格子解析需要随机语法(用于稳定性)和加权DFA(用于密码子使用) ,并使用最佳保证解决了关节优化,可以将其视为SCFG和加权DFA之间的加权交点20(扩展数据图1B和方法图1B和'加权DFA,'加权DFA ,用于CAI集成')。
我们的DFA框架足够笼统,它还可以代表替代的遗传代码,修饰的核苷酸和编码约束 。有关详细信息 ,请参见方法,“有关其他遗传代码,编码约束和修饰核苷酸的DFA” ,扩展数据图3和补充图5。
对于长序列而言,确切的设计算法可能仍然很慢。此外,由于稳定性和密码子的使用 ,湿法实验的湿设计也可能值得探索 。因此,我们开发了一个近似的搜索版本,该版本使用梁搜索以线性时间运行,仅保留最有前途的每步最有前途的项目(其中B为梁尺寸) ,灵感来自我们以前的工作LinearFold21。
先前的两项研究还解决了通过动态编程的“最稳定mRNA设计 ”(我们的目标1)的问题,但使用Zuker算法的专门扩展,该算法无法融合密码子最优性(目标2)。相比之下 ,我们从计算语言学中建立了mRNA设计与晶格解析之间的联系。该连接启用了一种更简单,更具概括性的算法,该算法可以通过新的目标函数共同优化密码子的使用 ,该目标功能将CAI引起到单个密码子上 。我们还在体内验证了这些算法设计,显示了两种mRNA疫苗的实质性改进(图4和5)。有关详细信息,请参见方法 ,“线性设计算法”和“相关工作”。
本文来自作者[admin]投稿,不代表象功馆立场,如若转载,请注明出处:https://m1.xianggongguan.cn/zskp/202506-671.html
评论列表(3条)
我是象功馆的签约作者“admin”
本文概览: 先前的工作5建立了两个主要目标,用于mRNA设计,稳定性和密码子最优性,它们协同化以增加蛋白质表达。为了优化稳定性,给定蛋白质序列,我们旨在找到在编码该蛋白质的所有可能的m...
文章不错《用于优化mRNA设计的算法可提高稳定性和免疫原性》内容很有帮助