高精度二硫键网络预测及其应用文献综述

 2022-11-04 10:57:07

文 献 综 述

摘要:二硫键的连接是一种重要的蛋白质的结构特征。利用蛋白质的序列准确地预测二硫键的连接助于提高蛋白质结构和功能的固有理解,尤其是在后基因组时代,大量的蛋白质测序并没有功能注释的迅速积累。在这项研究中,从预测的蛋白质三维结构信息得到了一个新的特征,它与传统特色结合形成了区别的特征。而基于所提取的特征,随机森林回归模型能有效地预测蛋白质二硫键连接。我们同时执行交叉验证和基准数据集的独立验证测试比较所提出的方法和现有的流行预测方法,实验结果表明,该方法优于比现有预测的方法。我们认为,它的优越性得益于对于特征的良好辨别能力和随机森林的强大的建模能力。

关键词:蛋白质结构预测(PSP),二硫键连接模式预测,特征提取,回归模型,隐马尔科夫模型方法(HMM),随机森林(Random Forest)

一、二硫键连接预测介绍

众所周知,蛋白质的三维(3D)结构对其生物功能有密切的关系。在后基因组时代,由于先进的测序技术和协调一致的基因组项目的快速发展,不被结构决定的大量的蛋白质测序已经广泛积累。因此,迫切需要通过从唯一的序列中准确预测蛋白质结构来构建蛋白质序列和结构的桥梁。在过去几十年里,做出了相当大的努力从蛋白质序列中预测3D结构,其中获得的许多令人鼓舞的结果已报告。然而,直到现在,直接从序列预测一个完整的三维结构还远远不能成功,仍然是一个具有挑战性和开放的问题。在这方面,研究人员采取分解完整的3D结构的预测成特殊结构段或特性的预测,诸如无序区域,跨膜螺旋,beta;-折叠,残留接触图,二硫键的连接,溶剂可达性,等等。从蛋白质结构段或特性所得到的知识可以提供关于蛋白质三维结构有价值的见解,也可以有助于了解蛋白质的功能。

二、二硫键连接预测方法

二硫键的连接是一个重要的蛋白质结构特点。二硫键是在相同或不同的蛋白质的多肽链的两个半胱氨酸残基之间形成的主共价交联,这些键在蛋白质的折叠和稳定性中扮演着重要角色。半胱氨酸的蛋白质序列预测将形成二硫键在蛋白质结构和功能注释上起到相关的作用。各种有效的方法已经在先前的研究开发,如DISULFIND,双向SVM,GASVM,SS_SVR,FS_SVR,DBCP,混乱DMC(DISLOCATE MIp iCOV)等等。所有这些现有的方法可以分为三类:

  1. 二硫键接合状态预测;
  2. 用半胱氨酸的二硫键键合态的先验知识的连接图案预测;
  3. 预测二者二硫键键合状态和连通模式。

近年来,相当多的关注集中在开发基于机器学习方法的二硫键连接的预测,实验结果表明,该应用先进的机器学习算法是一个有希望的途径,以进一步提高预测性能,提取判别特征和利用功能强大的机器学习算法是两个至关重要的方面,这将显著影响基于机器学习的二硫键连接的预测性能。为揭示有效的功能和许多特征的来源所做的巨大努力有如下:位置特异性得分矩阵(PSSM),预测的二级结构(PSS),相关突变(CM),半胱氨酸间隔距离,和亚细胞定位,被证明是二硫键连接的预测有用。至于分类,许多先进的机器学习算法,如:支持向量回归(SVR)和隐藏条件随机场(GRHCRFs),已被广泛应用于二硫键连接的预测。

总之,出现了一批二硫键连接预测良好的效果。尽管如此,仍有余地进一步改进预测性能。本文旨在通过引入从预测的蛋白质三维结构信息和随机森林(RF)回归的应用衍生新判别功能来完成此任务,并把三维结构信息作为阈值作为判别标准,先把一部分的二硫键预测出来,然后把剩下的未知二硫键进行回归训练。本方法属于第二类,主要集中于链内二硫键假设半胱氨酸的二硫键键合状态的先验知识可以在连接模式的预测。我们还集成了Dianna的二硫键结合状态预测模块纳入本方法改善方案,其中半胱氨酸的二硫键键合状态的了解下不提供其适用性。三基准数据集的实验结果表明,从预测的蛋白质三维结构信息导出的新开发的特征可以显著提高预测性能。本研究丰富了二硫化连通性预测的内容,同时实现所述方法,补充了现有二硫化连通性预测。

三、国内外研究数据集和方法

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版