基于过敏反应的生物信息学相关文献学习报告

小组成员及分工：

童佩22020080041 基于过敏反应的生物信息学预测方法的文本编辑

赵昕22020080069 资料搜集及前言，结论的文本编辑

赵妍22020080070基于过敏反应的生物信息学预测方法的文本编辑

周荣咪22020080073基于生物信息学的过敏原预测工具的文本编辑

过敏已经成为一个很常见的公共卫生问题。这是一种免疫介导的不良反应，引起免疫反应的因子被称为过敏原。过敏原特异性IgE（sIgE）抗体在过敏反应中起着重要作用。通过特异性过敏原的膜结合IgE抗体的交联导致活化以及效应细胞（肥大细胞或嗜碱性粒细胞）的脱颗粒，同时释放组胺和其他炎症介质，它们一起导致过敏性疾病的症状^[1]。传统上，食物变应原和变应原表位的研究完全依赖于生物化学和免疫学实验，如ELISA、蛋白质/肽微阵列。近年来，作为计算机科学分支之一的机器学习技术发展迅速，在生物信息学领域得到了广泛的应用，例如，除了用于检测大型数据库中序列同源性的传统启发式算法（如BLAST和FASTA）之外，使用机器学习算法（如支持向量机（SVM））已经实现了更好的准确性。因此我们选择了基于过敏反应的生物信息学预测方法和预测工具等文献进行的学习。

1.基于过敏反应的生物信息学预测方法

目前过敏领域的生物信息学研究主要集中在评估蛋白致敏性和预测Band T细胞抗原表位。预测蛋白质的致敏性，特别是在新食品中的致敏性主要集中在两个方面：蛋白质固有的致敏性和交叉反应性。固有过敏原性是指一种蛋白具有诱导T细胞反应和产生特异性IgE抗体的潜能，而交叉反应性是指一种蛋白与先前由另一种过敏原诱导产生的IgE抗体的反应性。通过分析蛋白质的序列、结构和B细胞或T细胞抗原表位，可以研究蛋白质致敏性的分子基础。在线过敏原数据库正在作为寻找序列相似性的参考，用于过敏原性评价。由于过敏原特异性IgE抗体是诱发过敏症状的主要效应分子，因此过敏原的预测密切相关，往往涉及IgE表位预测。例如，在一些过敏原预测方法中，如果蛋白质具有区域或肽段，则认为该蛋白质是过敏原。

过敏原/表位预测最早可追溯到1981年B细胞表位预测方法由Hopp和Woods^[2]。自那时以来，许多方法已经被开发或从其他计算工具中改编。尽管起步较早，但由于预测不连续表位的困难，B细胞表位的预测仍处于起步阶段。对于T细胞表位预测，通过与蛋白酶体切割和的预测整合，MHC - I结合预测现在非常强TAP (与抗原加工相关的转运体)结合位点。MHC - II结合预测的发展不如MHC - I结合预测，但进展很快。根据使用的信息类型，预测方法可以分为基于序列的方法、基于结构的方法和混合方法。

1.1基于序列的预测

基于序列的方法是基于蛋白质序列决定其结构的概念，相同的结构可能导致相同的功能。表位可能具有共同的序列模式或基序，以及MHC等位基因特异性决定模式。BLAST和FASTA是常用的序列比对方法，通过对查询蛋白序列与数据库中的模板序列进行多次比对来寻找序列同源物并确定氨基酸分数。然而，实验表明，具有高序列同源性的蛋白质可能由于不同细胞区隔化中可变区域之间的折叠和相互作用而具有不同的功能。只使用序列信息的方法仅限于对连续表位的预测。

理化性质也被用来预测抗原表位，如电荷、亲水性、柔韧性、脯氨酸残基的数量、与N或C末端的距离/接近程度等。由于可能与抗原表位相关的理化性质数量巨大，可以使用简单的氨基酸性质定量描述符进行计算。基于氨基酸标度的从序列中识别潜在线性表位的经典方法通常依赖于氨基酸倾向标度的使用，即计算给定蛋白质序列中残基i的得分。残基I两侧的i - ( n-1) / 2相邻残基用于计算窗口大小为n个氨基酸的残基i的得分。残基i的最终得分是窗口内n个氨基酸标度值的平均值。

生物信息学预测B细胞线性表位主要基于蛋白氨基酸残基的理化性质。目前所采用的理化性质参数主要包括1）亲水性：天然状态下，蛋白质的亲水性氨基酸一般位于蛋白表面，而疏水性氨基酸被包埋于蛋白内部。因此，与抗体结合的位点一般都是亲水性氨基酸残基。2）二级结构：蛋白质的二级结构主要包括α-螺旋、β-折叠、无规则卷曲和转角等。其中α-螺旋和β-折叠结构规则、稳定、不易形变且常位于蛋白质的内部，不利于其与抗体嵌合；而转角和无规则卷曲多暴露在蛋白质的表面，有利于其与抗体嵌合，成为抗原表位的可能性较大。3）可及性：主要是通过溶剂分子接触抗原氨基酸的溶剂可接近性值的大小，即溶剂分子接触抗原氨基酸的可能性，间接反映与抗体的结合能力。4）柔韧性：蛋白质氨基酸残基可分为“刚性”的和“柔韧”的。由于抗原抗体结合是一个嵌合过程，蛋白构象会发生变化，“柔韧”的氨基酸残基易发生扭曲和折叠，因此认为“柔韧”的氨基酸残基最有可能成为抗原表位。以上各种参数单独使用时均有一定的局限性，准确率不高，所以在进行B细胞表位预测时常常结合几种参数进行综合分析。随着对这些理化性质的深入研究，一些利用这些理化性质来预测抗原表位计算机程应运而生，代表软件有PREDITOP、PEOPLE、BEPITOPE、BcePred、ABCpred、COBEpro等。

1.2基于结构的预测

结构的表位预测基于查询蛋白和模板蛋白之间的3D蛋白质结构相似性，同时也考虑了相关的倾向性尺度，包括几何属性和基于结构的理化性质。近年来，随着各种组学和生物信息学的发展，构象性B细胞表位的实验数据迅速增加。目前基于结构的表位识别技术主要包括突变、竞争实验、自由能打分函数、定量构效关系(QSAR)分析、蛋白质穿线、刚性/柔性对接、同源建模等。原子分子动力学模拟也得到了应用，但由于计算量大，应用不广泛。

与基于序列的表位预测方法相比，基于结构的表位预测方法通常具有更高的预测精度。例如，不连续的抗原表位只能基于结构进行预测。此外，由于蛋白质的功能可以通过其结构来预测，因此基于结构的预测可以用来预测那些没有被广泛研究的等位基因/基因的表位，而基于序列的方法已经失败了。然而，由于蛋白质3D结构的高计算成本、开发复杂性和有限的可用性，基于结构的方法受到了极大的限制。

1.3混合预测：将顺序信息与结构信息相结合

由于仅基于序列或结构分析的表位预测方法的局限性，同时利用序列和结构信息的预测方法得到了发展。例如，一种利用隐马尔可夫模型( Hidden Markov Model，HMM )将三维蛋白质结构与氨基酸的性质相结合的方法显著提高了预测精度^[3]。

除了以上3类，预测方法还可以根据技术或算法进行分类，如结合模体、定量矩阵( QM ) 、机器学习算法、线性规划等。例如，在一项比较研究中，Yu等人发现基于结合基序的方法在有限的数据集下给出了最准确的MHC结合肽预测(潜在的T细胞表位)，但随着数据量的增加，同时考虑结构和序列信息的机器学习预测变得更加可靠^[4]。在机器学习方法中，Bahsin和Ragahava比较了SVM (支持向量机)和ANN的(人工神经网络)技术，并发现SVM技术表现更好^[5]。SVM因其能过滤噪声、输入空间大、性能好等优点，对生物分析特别有吸引力。

集成方法(也称为共识方法)结合了多个预测因子的预测结果，在许多生物分子序列和结构分类研究中经常优于单个预测因子。存在几种策略将一组预测因子S合并成一个单一的共识或元预测因子：(1)多数投票，(2)加权线性组合，(3)元学习。大量基于最近邻和决策树的分类器使用不同的训练数据特征集进行训练，以开发线性B细胞表位分类器的集成。

2.基于生物信息学的过敏原预测工具

根据世界卫生组织（WHO）和世界粮农组织组织（FAO）提出的评估蛋白质过敏性的指南，具有至少6到8个连续相同氨基酸或在80个氨基酸的任何窗口中同一性的大于35%蛋白质可被视为过敏原。该指南已被广泛接受用于过敏原预测，但基于指南的预测方法是基于序列的，虽然具有高灵敏度但特异性非常低。目前，在改进上述指南的基础上已经开发了几种过敏性预测方法。例如，Stadler^[6]开发了一种基于基序的方法，通过从已知过敏原数据库中生成一组最小的基序序列来实现更高的特异性。如果蛋白质至少含有一种基序，则将其归类为潜在过敏原。Bjorklund等人^[7]比较了570种以上过敏原和700种非过敏原的序列，并确定了过敏原代表肽（ARP）的数据集。他们的数据表明，基于ARP的过敏原预测方法优于基于FAO/WHO指南的方法。

在线过敏原序列数据库对于评估蛋白质的致敏潜力至关重要。因为它们不仅可以作为寻找与已知过敏原序列/结构相似性的参考，还可以为其结构和理化性质分析提供有用的网络工具。目前常见的在线可用的过敏原预测数据库和工具如表1所示^[8]。

表1 过敏原预测数据库及工具

名称	网址
Database of IUIS	http://www.allergen.org
Database of Allergome	http://www.allergome.org
SDAP	http://www.fermi.utmb.edu/SDAP/
AlgPred	http://www.imtech.res.in/raghava/algpred
proAP	http://gmobl.sjtu.edu.cn/proAP/main.html

过敏原命名数据库（Database of IUIS）是世界卫生组织和国际免疫学会联盟过敏原命名小组委员会批准的系统过敏原命名的官方网站。过敏原网站（Database of Allergome）旨在提供过敏原信息。主要数据源是自20世纪60年代初以来发表的文献。它含有不在IUIS列表中的过敏原，但这些过敏原是在严格标准下仔细表征后添加的。Allergome平台开发了几个模块，旨在支持特定目的。例如，“Ig E致敏实时监测”模块允许上传体内和体外实验的原始数据。致敏蛋白结构数据库（SDAP）是一个网络服务器，它将致敏蛋白数据库与各种计算工具集成在一起，可以帮助进行与过敏原相关的结构生物学研究。它提供了从最常见的蛋白质序列和结构数据库检索相关信息的链接^[9]。AlgPred和proAP这两个网络工具允许使用几种不同的方法来预测过敏原，例如使用基于基序的方法或者使用组合方法预测过敏原等。

过敏原库的建立大多基于上述源数据库展开，过敏原库的质量对于后续预测结果的准确度有很大影响。目前，源数据库的选择范围较大，在过敏原库建立的过程中可能会出现预测性能高效的假象。因此，集合了不同源数据库的序列信息，并参考了不同源数据库中数据收录的标准，制定纳入研究的过敏原准则，可以很大程度上提高了过敏原库所收录的过敏原蛋白质信息的数量和质量，也为后续预测方法建立和训练提供高质量支持^[10]。此外，在数据库建立中非过敏原库的建立也是非常重要的。目前，建立非过敏原库的方法大都是基于同一物种选取在 NCBI 库中的未被过敏原的源数据库所收录的蛋白质。

3.总结

与过敏原和过敏原表位研究相关的生物信息学方法、软件和数据库正在快速发展和扩展。基于在生物信息学课程学习的基础上，我们小组选择了过敏反应领域相关的可公开访问的生物信息学工具和数据库的相关文献进行了学习。生物信息学和机器学习等方法为过敏原和表位预测的研究提供了非常有用的工具，极大地补充了传统的实验室技术的不足。对我们今后的科研工作具有很大的帮助。在生物信息学和机器学习的帮助下，我们能够缩小我们感兴趣的蛋白质，使用计算预测表位，提高过敏诊断的准确性。目前，已经开发了许多具有用户友好的web界面的生物信息学资源，可以方便我们不熟悉生物信息学的基础研究人员的工作。并帮助我们在这些工具中做出明智的选择。

参考文献

[1] Larche M, Akdis CA, Valenta R (2006) Immunological mechanisms of allergen-specific immunotherapy. Nat Rev Immunol 6(10): 761–771

[2] Hopp TP, Woods KR (1981) Prediction of protein antigenic determinants from aminoacid-sequences. Proc Natl Acad Sci U S Am Biol Sci 78(6):3824–3828.

[3] Greenbaum JA, Andersen PH, Blythe M et al (2007) Towards a consensus on datasets and evaluation metrics for developing B-cell epitope prediction tools. J Mol Recognit 20(2):75–82.

[4] Yu K, Petrovsky N, Schonbach C et al (2002) Methods for prediction of peptide binding to MHC molecules: a comparative study. Mol Med 8(3):137–148.

[5] Bhasin M, Raghava GP (2004) Prediction of CTL epitopes using QM, SVM and ANN techniques. Vaccine 22(23–24):3195–3204.

[6] Stadler Michael B,Stadler Beda M. Allergenicity prediction by protein sequence.[J]. FASEB journal : official publication of the Federation of American Societies for Experimental Biology,2003,17(9).

[7] Bjorklund A , Soeria-Atmadja D , Zorzet A ,et al.Supervised identification of allergen-representative peptides for in silico detection of potentially allergenic proteins[J].Bioinformatics, 2005, 21(1):39.

[8] Fu Zhiyan,Lin Jing. An Overview of Bioinformatics Tools and Resources in Allergy.[J]. Methods in molecular biology (Clifton, N.J.),2017,1592.

[9] 李婧. 主要农作物过敏原整合预测与分子特征数据库构建[D].上海交通大学,2016.DOI:10.27307/d.cnki.gsjtu.2016.002914.

[10] 郝梦真,高欣,王娟等.生物信息学预测食物新蛋白致敏性研究进展[J].中国口岸科学技术,2021,3(S1):81-87.