微軟研究院近期在人工智能領域邁出了重要一步,于2月20日正式揭曉了其最新研發成果——AI模型BioEmu-1。這一創新模型能夠預測蛋白質隨時間流逝的運動軌跡及形狀變化,為生物醫學、藥物研發以及結構生物學等多個領域帶來了前所未有的可能性。
蛋白質,這一生命活動的基石,在維系生命健康中發揮著至關重要的作用。從構建肌肉纖維到抵御外來疾病的侵襲,蛋白質的身影無處不在。近年來,科學家借助深度學習技術,在蛋白質結構研究領域取得了顯著突破,能夠根據氨基酸序列精確預測蛋白質的三維結構。然而,這種預測僅停留在靜態層面,如同電影中的單幀畫面,難以全面捕捉蛋白質這一高度靈活分子的動態特性。
BioEmu-1的問世,則打破了這一局限。與DeepMind的AlphaFold專注于靜態結構預測不同,BioEmu-1能夠模擬蛋白質在不同構象間的動態轉換過程,為科學家提供了理解蛋白質運動機制、設計精準治療方案的新工具。AlphaFold 3雖然在結構生物學領域取得了顯著進步,改進了蛋白質與其他分子的相互作用模型,但在預測蛋白質隨時間變化方面仍顯不足。
BioEmu-1利用生成式深度學習技術,從海量數據集中學習蛋白質結構的內在規律,并生成與這些規律相符的新樣本。其訓練過程結合了靜態蛋白質結構數據、分子動力學模擬數據以及實驗穩定性數據,確保了預測結果的準確性和可靠性。BioEmu-1的核心機制是一個擴散模型,通過迭代生成蛋白質結構,并根據學習到的約束條件不斷優化其準確性。
BioEmu-1的關鍵輸出包括平衡系綜的預測和自由能的預測。為了提升其預測能力,BioEmu-1采用了三種類型的數據集進行訓練:AlphaFold數據庫中的結構數據、廣泛的分子動力學模擬數據集以及實驗性蛋白質折疊穩定性數據集。這些豐富的數據集使得BioEmu-1能夠識別蛋白質序列與多個不同結構之間的映射關系,預測合理的結構變化,并以正確的概率對折疊和未折疊結構進行采樣。
BioEmu-1在預測效率上實現了顯著提升。每小時可生成數千個蛋白質結構樣本,相較于傳統分子動力學模擬需要數周的時間,BioEmu-1無疑大大加快了研究速度,降低了計算成本。同時,其預測自由能的誤差幅度控制在1 kcal/mol以內,與傳統分子動力學模擬相當,但計算成本卻得到了顯著降低。
BioEmu-1的成功研發,不僅標志著微軟研究院在人工智能領域的又一次重大突破,更為生物醫學、藥物研發等領域的科學家們提供了強有力的支持。隨著BioEmu-1的廣泛應用,相信未來在蛋白質結構預測、疾病治療等方面將取得更多令人矚目的成果。