近年來,關于人工智能語言模型對全球社會影響的討論持續升溫,特別是自ChatGPT在2022年末橫空出世以來。近期,斯坦福大學主導的一項新研究為這一話題提供了更為清晰的視角,揭示了AI語言模型在多個行業中的廣泛應用。
研究指出,企業在溝通中已大量依賴生成式AI,特別是在處理專業溝通任務時,AI的參與度高達四分之一。這一現象不僅限于技術前沿地區,反而在美國教育水平較低的地區更為顯著。研究人員在報告中詳細闡述了這一發現,通過對2022年1月至2024年9月期間的大量數據進行追蹤分析,揭示了大型語言模型(LLM)在不同領域的滲透情況。
研究數據集覆蓋了廣泛的領域,包括美國消費者金融保護局收到的68萬多份消費者投訴、53萬多份企業新聞稿、超過3億份工作招聘啟事以及1.5萬多份聯合國新聞稿。通過先進的統計檢測系統,研究人員發現,約18%的金融消費者投訴顯示出AI協助的跡象,尤其是在阿肯色州,這一比例高達30%。同時,企業新聞稿、工作招聘啟事以及聯合國新聞稿中分別有24%、15%和14%的內容存在AI的參與。
令人驚訝的是,盡管城市地區的AI采用率總體較高,但在教育水平較低的地區,AI寫作工具的使用頻率卻更高。這一發現與以往技術采用的常規模式大相徑庭,通常受教育程度較高的人群會更快地接受新技術。然而,在這項研究中,教育水平較低的地區在消費者投訴中顯示出略高的LLM采用率,這表明AI工具可能成為這些地區消費者維權過程中的“平等化工具”。
研究人員進一步指出,盡管在單個文檔層面上,AI檢測器的可靠性備受質疑,但在分析數百萬份文檔的整體數據時,一些特征性模式開始顯現,這些模式暗示了AI語言模型對文本的影響。為了驗證這一方法的可靠性,研究人員創建了已知AI內容比例的測試集,并發現其預測誤差率低于3.3%。這一統計驗證增強了研究人員對人口層面估算的信心。
然而,研究人員也承認,他們的估算可能僅代表AI使用的最低水平。由于AI生成的內容越來越難以檢測,特別是經過大量編輯或由更復雜的AI模型生成的內容,因此實際的AI參與程度可能要高得多。這意味著,研究人員報告的采用率可能大幅低估了生成式AI的真實使用水平。
研究還發現,在所有分析的領域(消費者投訴、企業溝通、工作招聘啟事)中,AI的采用模式都呈現出類似的趨勢。特別是在ChatGPT推出后的三到四個月內,采用率急劇上升,隨后在2023年底趨于穩定。這一趨勢表明,AI語言模型正在迅速融入社會溝通的各個方面。
盡管如此,研究人員也指出了研究的局限性。由于主要關注英語內容,因此分析結果可能存在一定的偏差。他們發現無法可靠地檢測經過人工編輯的AI生成文本或由更新模型生成的模仿人類寫作風格的文本。這意味著,他們的研究結果僅代表實際AI寫作工具采用率的下限。
最后,研究人員指出,2024年AI寫作采用率的停滯可能反映了市場飽和或LLM生成的文本越來越難以被檢測方法識別。他們警告說,如今我們生活在一個人類寫作與AI寫作越來越難以區分的世界,這對社會溝通產生了深遠影響。過度依賴AI可能導致信息無法解決實際問題,或在對外發布時降低信息的可信度,從而引發公眾對企業信息真實性的不信任。