近日,meta Platforms(原Facebook母公司)在AI版權訴訟的風波中再次成為焦點。一系列法庭文件的最新提交,揭示了該公司與出版商在AI訓練數據授權方面的復雜糾葛。Kadrey 訴 meta Platforms案,作為眾多將AI巨頭與版權持有者推向對立面的案件之一,正逐步揭開其幕后細節。
法庭文件中,原告律師對meta員工的證詞記錄揭示了公司內部對于AI訓練數據授權談判的困境。據meta負責AI合作事務的Sy Choudhury透露,meta曾向多家頂級出版商發出接觸請求,卻大多石沉大海。他回憶道:“盡管我們無法一一列舉,但確實曾嘗試與一批從互聯網上篩選出的頂級出版商建立聯系,遺憾的是,很多嘗試都未得到積極回應。”僅有少數出版商與meta進行了初步接觸,但遠未達到預期規模。
不僅如此,法庭記錄還顯示,由于“時機”和物流方面的重重阻礙,meta在2023年4月初不得不暫停了部分與AI相關的圖書授權工作。Choudhury進一步解釋說,在與出版商的溝通過程中,他們發現許多小說類圖書出版商實際上并不擁有meta希望授權的內容版權。他提到:“在小說領域,我們很快意識到,大多數接觸的出版商表示他們無權將數據授權給我們,這迫使我們花費大量時間與他們的作者進行溝通。”
更令人驚訝的是,Choudhury在證詞中還透露,meta在AI開發相關授權方面并非首次遭遇挫折。他舉例說,meta曾試圖從不同游戲引擎和游戲制造商那里獲得3D世界的授權,用于AI研究團隊,但同樣面臨溝通難題,最終決定自力更生,自行開發解決方案。
此次案件的原告方律師代表了一批知名作者,包括暢銷書作家Sarah Silverman和Ta-Nehisi Coates等。自2023年在加利福尼亞北區聯邦地區法院舊金山分院提起訴訟以來,原告方多次修改訴狀,不斷追加指控。最新的訴狀中,原告指責meta在考慮與出版商簽訂授權協議時,曾將盜版書籍與正版書籍進行對比,以評估授權協議的價值。訴狀還嚴厲指控meta使用包含盜版電子書的“影子圖書館”來訓練其AI模型,特別是廣受歡迎的Llama系列“開放”模型。據稱,meta可能通過種子下載方式獲取了部分圖書館資源,這種文件分發方式要求用戶在下載文件的同時上傳文件,原告方認為這構成了版權侵犯。