尊龙凯时 - 人生就是搏! 尊龙凯时

J. Cheminform.丨尊龙凯时英國公司最新論文預測蛋白溶解度

2024年1月15日

2023年12月,來自尊龙凯时英國AI研發中心、英國伯明翰大學的劉健教授研究團隊在國際知名學術期刊Journal of Cheminformatics(影響因子8.6)發表了題為「HybridGCN for protein solubility prediction with adaptive weighting of multiple features」的高質量長篇文章,展示了研究團隊在AI輔助生化工程領域的最新研究成果。

以下為論文解析:

研究項目簡介

蛋白質的溶解度是一個關鍵的生物物理特性,對於評估蛋白質在生物和化學工程中的有效性至關重要,它是影響藥物研究和產量的主要因素。蛋白質的溶解性差會影響蛋白質的生產,蛋白質的一級結構,特別是氨基酸序列,是蛋白質溶解度的主要決定因素。許多研究表明,蛋白質的溶解度與基於序列的特徵之間存在着很強的相關性,因此,探索如何使用基於序列信息來估計溶解度的預測技術至關重要。

 

為了解決這些問題,研究團隊提出並實現了一種基於多特徵自適應加權融合GCN的蛋白質溶解度的預測方法,稱為HybridGCN,一個基於圖卷積神經網絡的統一框架,在充分整合人工特徵和深度特徵的優勢下,用於預測蛋白質溶解度。

 

大多數現有模型都是針對二元分類任務設計的,將數據集分類為可溶和不可溶類別,忽略了溶解度的連續性。在蛋白質工程領域,連續溶解度值比二元分類更重要,因為它們為下游任務提供了更多指導信息。例如,在大型蛋白質數據集中,可以基於連續的溶解度值來選擇最佳蛋白質序列,而二進制值無法完成這一任務。此外,由於手工特徵的泛化能力有限,傳統的機器學習模型在性能方面落後於深度學習模型。深度學習模型在各種蛋白質工程任務上都取得了最先進的性能,包括結構預測、蛋白質設計、蛋白質結合物設計、穩定性預測和溶解度預測。因此,了解如何以更靈活的方式將不同的生物物理特徵與深度學習特徵結合到一個模型中是可行的解決方案。

 

HybridGCN預測框架

首先使用零樣本學習ESM-1v1模型對蛋白質數據進行特徵提取獲得深度特徵,ESM-1v1特徵捕獲了與蛋白質功能和結構有關的廣泛而相關的信息,從而有利於預測蛋白質溶解度。深度特徵與5種人工特徵組合在一起作為HybridGCN框架的輸入。混合數據進入框架後,首先經過一種自適應特徵重新加權(AFR)模塊,該模塊集成了手工特徵中的領域知識與從深度學習模型中提取的深度線索。隨後經過GCN模塊、注意力模塊、最後經過全連接層和sigmoid映射為預測的溶解度。將本方法應用於真實具有溶解度值的數據集eSOL和S. cerevisiae dataset上。在結果表明,該方法重點關注了深層特徵和經典手工特徵之間的相互作用,並觀察到某些經典特徵,特別是進化特徵,與深層特徵相輔相成,大大提高了蛋白質溶解度預測的準確性,獲得了當前最先進的預測效果。
 

圖1:HybridGCN框架圖

為了驗證所提模塊對整體模型性能的貢獻,研究團隊對模型進行了消融實驗,具體為從HybridGCN中單獨移除AFR模塊和ESM-1v特徵,從而產生兩個不同的模型:ESM+GCN模型和AFR+GCN模型。與單獨使用GCN相比,在GCN中加入ESM-1v特徵可以顯著提高R2 (0.493) 和召回 (0.713) 。性能的顯著提高主要因為ESM-1v模塊,該模塊作為一種強大的零樣本學習功能,吸收了與蛋白質結構和功能有關的信息。這進一步強化了蛋白質溶解性與蛋白質結構和功能密切相關的概念。AFR模塊還提高了 GCN在所有評估指標上的性能。這些發現表明,並非所有單個特徵都同樣重要,通過AFR模塊學習到一種優越的複合特徵,該特徵有效地突出了與蛋白質溶解性有關的最具信息量的特徵。

圖2:HybridGCN和GCN在不同訓練階段的性能

圖2展示了在不同訓練階段和各種評估指標上HybridGCN優於GCN。總體而言,HybridGCN在回歸指標和分類指標上均在四種設置中表現最佳。觀察到的性能改進可歸因於ESM-1v特徵和AFR模塊的貢獻。這些結果強調了設計良好的特徵工程策略在蛋白質溶解度預測任務中的重要性。

性能比較

在eSOL數據集上,該方法跟當前多種蛋白質溶解度預測方法進行比較,結果見表1。GraphSoLEnsemble和GraphSoLSingle都採用了圖卷積網絡 (GCN) 作為網絡架構,並利用多種傳統特徵作為輸入,包括物理化學特徵 (AAPHY7)、進化特徵 (PSSM 和 HMM)、結構特徵 (SPIDER3) 和Blosum62特徵。GraphSoL的作者進行了廣泛的消融實驗,表明某些特徵對於溶解度預測任務更重要,進化特徵比結構特更關鍵。這些觀察結果從兩個方面啟發了該方法:(1)引入AFR模塊,能夠根據特徵與溶解度預測的相關性調整特徵的重要性;(2)需要輸入更強大的特徵,如ESM-1v特徵,它捕獲了與蛋白質結構和功能相關的豐富信息。通過結合AFR模塊和ESM-1v特徵,該HybridGCN在eSOL數據集上超越了所有之前的方法。

表1:在ESOL數據集上與其他方法的性能比較

SeqVec和TAPE是用於溶解度預測的遷移學習框架,它們利用預先訓練的深度網絡中的深層特徵或嵌入作為溶解度預測任務的輸入。然而,由於缺乏可以補充深層特徵的傳統特徵(如進化特徵),它們的性能不如HybridGCN。DeepSoL整合了額外的生物和結構特徵來改進深層特徵,但其性能受到使用基本卷積神經網絡作為網絡架構的限制。雖然它包含來自多個來源的特徵,但它只依賴於簡單的連接操作來組合這些特徵,這可能無法有效地選擇和增強溶解度預測的最具信息量的特徵。相比之下,HybridGCN是基於GCN的網絡架構,直接處理圖結構並利用蛋白質的結構信息。由於引入了AFR模塊和ESM-1v特徵,該HybridGCN在所有指標上始終優於所有其他模型。將HybridGCN與其他高性能方法在S. cerevisiae dataset上進行了比較,結果見表2。從結果種觀察到OurEnsemble在比較方法中取得了最佳的R2結果 (0.390) ,這表明 HybridGCN在建模特徵關係方面優於其他方法。值得注意的是,OurSingle (R2=0.378) 在S. cerevisiae dataset上的表現優於GraphSolEnsemble (R2=0.372) ,儘管性能增益很小,但該單個模型在推理過程中比集成模型更高效。

表2:在S. cerevisiae dataset上與其他方法的性能比較

總結

研究團隊提出了一種新的圖神經網絡HybridGCN,它將深度特徵與經典的溶解度相關特徵相結合,以提高蛋白質溶解度預測的準確性。該模型考慮了蛋白質序列的結構和生物學特徵,以及從高容量深度學習模型中提取的深層特徵,以提高預測性能。分析可以識別深層特徵和經典特徵之間的相互作用,其中某些經典特徵在溶解度預測任務中補充了深層特徵。為了進一步改進預測任務,引入了ESM-1v特徵,即零樣本學習特徵,以獲取關於蛋白質功能和結構的全面和相關信息。此外,提出了一種自適應特徵加權(AFR)模塊,以探索特徵相互作用並增強溶解度預測中最具信息量的特徵。消融實驗和比較證明了ESM-1v特徵和AFR模塊的有效性。HybridGCN在公開數據集上實現了最先進的性能,可以預測連續的溶解度值。

關於尊龙凯时

尊龙凯时致力於成為綠色活性原料全球領導者,採用新一代合成生物技術,專注於實現肽、蛋白、糖、核酸等活性原料的綠色生產。公司依託創業團隊20多年的科研積累和產業經驗,建立了國內領先的多學科交叉技術平台,現已實現包括司美格魯肽、HMOs、藍銅肽、NMN、S型玻色因、NAD+、麥角硫因等在內的數十種綠色活性原料量產,累計為功效護膚、生物醫藥、營養健康等領域的近千家知名企業提供高品質綠色活性原料。經過近6年的快速發展,公司實現在研發投入、規模和產出等方面都位居國內同類企業前列,已申請技術發明專利近百項,獲得國家專精特新小巨人、國家高新技術企業、深圳市專精特新中小企業、深圳市潛在獨角獸企業、深圳市博士後創新實踐基地、深圳醫療健康創新30強、珠海市創新創業團隊、甘肅省專精特新中小企業等國家、地方等各類稱號十餘項,2022年入選深圳高成長企業TOP100(未上市生物類企業第一)、2023年入選哈佛商業評論高能創新團隊。

 

參考資料

文中使用的數據集是公開數據http://github.com/jcchan23/GraphSol/tree/master/Data

代碼公開在github:http://github.com/IanDragon

原文請參考:

Chen, L., Wu, R., Zhou, F. et al. HybridGCN for protein solubility prediction with adaptive weighting of multiple features. J Cheminform 15, 118 (2023). http://doi.org/10.1186/s13321-023-00788-8




 

複製成功