近期,科技界傳來了一則引人深思的消息。據報道,科技媒體The Decoder在2月16日發布的一篇文章中,提及了一項最新研究成果:OpenAI的ChatGPT在模擬治療師角色的圖靈測試中,展現出了令人驚訝的表現。該測試旨在評估參與者能否準確區分ChatGPT與人類治療師所提供的治療建議,而結果卻顯示,區分兩者對大多數人來說并不容易。
在這項研究中,研究人員巧妙地運用了圖靈測試的原理,邀請了830名參與者參與測試。他們需要判斷一系列回復是來自ChatGPT還是真實的人類治療師。然而,測試結果卻表明,參與者的識別能力并不強,他們正確識別出人類治療師回復的概率僅為56.1%,而對于ChatGPT的回復,識別正確的概率也僅僅為51.2%,略高于隨機猜測的水平。
更令人驚訝的是,研究還發現,ChatGPT在多個關鍵指標上,如治療聯盟、同理心和文化勝任力等方面的表現,甚至超過了人類專家。ChatGPT的回復往往更加詳細和富有同理心,這得益于其更長的回復、更積極的語氣以及更多名詞和形容詞的使用。這種細致入微的表達方式,使得ChatGPT的回復在測試中獲得了高度評價。
然而,研究也揭示了一種有趣的偏見現象。當參與者得知他們正在閱讀的是人工智能生成的回復時,無論這些回復實際上是由誰撰寫的,他們都會給予較低的評分。相反,如果人工智能生成的回復被誤認為是人類治療師所寫,那么這些回復就會獲得最高的評分。這一發現無疑為我們理解人類對人工智能的態度提供了新的視角。
其實,這并不是首次有研究表明人工智能在咨詢角色中具有潛力。早先,墨爾本大學和西澳大利亞大學的研究就已經發現,ChatGPT在社會困境方面提供的建議往往比人類專欄作家更加均衡、全面和具有同理心。在這些研究中,ChatGPT的偏好率達到了70%到85%之間。盡管參與者對人工智能回復的評價更高,但大多數人仍然表示他們更喜歡人類顧問。