近期,科技界迎來了一項令人矚目的成就:谷歌DeepMind實驗室的人工智能系統AlphaGeometry2,在攻克國際數學奧林匹克競賽(IMO)中的幾何難題上,取得了前所未有的突破,其解題能力甚至超越了歷年的金牌平均水平。
AlphaGeometry2是DeepMind在今年早些時候推出的AlphaGeometry系統的升級版。據DeepMind團隊最新發布的論文顯示,這一AI系統能夠解答過去25年間國際數學奧林匹克競賽中出現的84%的幾何題目。國際數學奧林匹克競賽作為面向全球高中生的頂級數學賽事,其難度與挑戰性不言而喻。而DeepMind認為,探索解決復雜幾何問題,尤其是歐幾里得幾何問題的新方法,或許能夠為開發更強大的人工智能提供關鍵線索。
在數學領域,證明定理或解釋定理為何成立,不僅需要嚴密的邏輯推理能力,還需要從眾多可能的解題路徑中做出正確選擇。如果DeepMind的見解正確,那么這些解題技巧將是未來構建通用人工智能模型不可或缺的要素。
去年夏天,DeepMind曾展示過一個結合AlphaGeometry2與AlphaProof(一個專注于形式化數學推理的AI模型)的系統,該系統成功解答了2024年國際數學奧林匹克競賽中的4道題目,占總數6題的2/3。這一成果預示著,類似的方法不僅限于幾何問題,還有望拓展至數學乃至科學的其他領域,比如輔助復雜的工程計算。
AlphaGeometry2的核心組件包括谷歌Gemini系列AI模型中的語言模型,以及一個強大的“符號引擎”。Gemini模型與符號引擎協同工作,符號引擎利用數學規則推導出問題的解決方案,并為給定的幾何定理提供有效的證明。
然而,將證明轉化為AI可理解的格式并非易事,加之可用的幾何訓練數據稀缺,給研究帶來了不小的挑戰。為此,DeepMind為AlphaGeometry2的語言模型專門生成了合成數據,這些數據涵蓋了超過3億個不同復雜度的定理和證明,為AI的訓練提供了堅實的基礎。
為了驗證AlphaGeometry2的解題能力,研究團隊從過去25年的國際數學奧林匹克競賽中精選了45道幾何題目,這些題目涉及線性方程和需要在平面上操作的幾何對象。隨后,他們將這些題目“轉化”為一個包含50道題目的更大集合(部分題目因技術原因被拆分為兩題)。據論文所述,AlphaGeometry2成功解答了其中的42題,得分超過了平均金牌得主的40.9分。
盡管如此,AlphaGeometry2仍存在一定的局限性。例如,它無法處理涉及可變數量點、非線性方程和不等式的問題。盡管AlphaGeometry2并非首個達到幾何問題金牌水平的AI系統,但它是首個在如此廣泛的問題集上實現這一成就的系統。
在另一組更具挑戰性的題目測試中,AlphaGeometry2的表現略顯不足。DeepMind團隊額外選取了29道由數學專家提名但尚未出現在競賽中的題目,AlphaGeometry2僅成功解答了其中的20題。