近期,一項由哈佛醫學院攜手斯坦福大學開展的醫學研究揭示了人工智能在醫療診斷領域的潛力。研究顯示,OpenAI的o1-preview模型在應對復雜醫療案例時,其診斷能力超越了人類醫生。
研究報告詳細指出,o1-preview模型在測試案例中實現了78.3%的正確診斷率。特別是在70個特定案例的對比中,該模型的準確率飆升至88.6%,這一成績明顯優于其前身GPT-4的72.9%準確率。這一發現標志著AI在醫療診斷領域取得了顯著進步。
進一步的研究采用醫學推理質量評估標準量表R-IDEA進行衡量,結果顯示o1-preview在80個測試案例中取得了78個滿分。相比之下,經驗豐富的醫生僅在28個案例中獲得滿分,而住院醫生更是僅在16個案例中獲得滿分。這一對比凸顯了o1-preview在醫學推理方面的卓越表現。
在由25位醫學專家設計的復雜案例中,o1-preview的得分高達86%。這一成績是使用GPT-4的醫生(41%得分)和使用傳統診斷工具的醫生(34%得分)的兩倍多。這一發現進一步證明了o1-preview在處理復雜醫療問題時的優勢。
然而,研究人員也指出了研究的局限性。部分測試案例可能包含在o1-preview的訓練數據中,這可能對結果產生一定影響。研究主要關注模型單獨工作的情況,未充分考慮其與人類醫生協同工作的場景。同時,o1-preview建議的診斷測試成本高昂,在實際應用中可能面臨一定的局限性。