在人工智能領域,LLM和Agent技術日新月異,取得了高度成熟的進展。然而,相比之下,數據收集方面的規范化進程卻明顯滯后。一個引人深思的問題擺在了人們面前:AI訓練所需的海量數據究竟源自何處?為了解答這一問題,一個名為數據溯源計劃(DPI)的國際性研究團隊應運而生。
Longpre強調,對于基座模型的能力而言,互聯網的規模和數據的異構性至關重要。對規模的需求也促進了合成數據的大量使用。除了語言模型外,近年來多模態生成式AI(GenAI)也迅速崛起,如圖像和視頻生成模型。這些模型同樣需要盡可能多的數據,而視頻模型的語音和圖像數據集中,超過70%的數據都來自YouTube。這一現象對擁有YouTube平臺的谷歌及其母公司Alphabet極為有利,因為文本數據分布在整個互聯網上,由許多不同的網站和平臺控制,但視頻數據的權力卻如此集中地掌握在一家公司手中。
AI Now Institute聯合執行董事Sarah Myers West對此表示擔憂,她認為谷歌在開發自己的人工智能模型(如Gemini)方面具有巨大優勢,這引發了人們對其如何向競爭對手提供數據的疑問。更深層次的問題是,如果我們所交互的大多數AI數據集都反映了以利潤為導向的科技巨頭的意圖和設計,那么這些大公司可能會以符合自己利益的方式重塑我們世界的基礎設施。
數據集之間的集成和沿襲缺乏一致性,這使得開發人員很難做出正確的數據選擇,也無法保證模型訓練過程中沒有使用過受版權保護的數據。最近,OpenAI、Google等公司與出版商、Reddit等主要論壇以及網絡社交媒體平臺達成了獨家數據共享協議,這進一步加劇了數據壟斷的趨勢。這一趨勢有利于AI領域的最大玩家,他們有足夠的財力進行數據交易,但卻犧牲了學術界研究人員、非營利組織和小公司的利益。
更令人擔憂的是,用于訓練AI模型的數據嚴重偏向西方世界。DPI團隊分析的數據集中,超過90%來自歐洲和北美,而非洲的數據占比不到4%。Hugging Face首席倫理學家Giada Pistilli指出,英語在訓練數據中占據主導地位的原因之一是互聯網中90%以上的內容仍然是英語;另一個原因是便利性:將其他語言的數據集放在一起并考慮其他文化需要進行更多的數據工作以及開發人員的有意識意圖。這導致多模態模型的輸出往往以西方文化為焦點,例如當提示AI模型生成婚禮的景象和聲音時,可能只能得到西式婚禮相關的內容。
數據集代表了人類社會中的偏見,而經過這些數據訓練的模型又加劇了這些偏見。這可能導致AI模型推動一種以美國為中心的世界觀,同時不經意間抹去其他語言和文化。為了解決這個問題,DPI團隊呼吁加強數據收集方面的規范化進程,提高數據透明度和多樣性,以確保AI技術的公平性和可持續性發展。