近日,Ziff Davis公司公布了一項(xiàng)新研究,揭示了谷歌、OpenAI及meta等AI行業(yè)領(lǐng)軍企業(yè)在訓(xùn)練大型語(yǔ)言模型時(shí),對(duì)知名新聞源內(nèi)容的高度依賴。
該研究深入探討了AI訓(xùn)練數(shù)據(jù)集的構(gòu)成,發(fā)現(xiàn)這些數(shù)據(jù)集主要由新聞和媒體網(wǎng)站的高質(zhì)量?jī)?nèi)容組成。這表明,在人工智能技術(shù)的發(fā)展過(guò)程中,主流AI企業(yè)已將新聞內(nèi)容視為訓(xùn)練模型的關(guān)鍵要素。
據(jù)悉,Ziff Davis的首席AI律師George Wukoson和技術(shù)官Joey Fortuna主導(dǎo)了這項(xiàng)研究。他們?cè)敿?xì)檢查了多個(gè)AI公司公開(kāi)承認(rèn)使用的數(shù)據(jù)集,包括Common Crawl、C4、OpenWebText及OpenWebText2。
這一發(fā)現(xiàn)不僅揭示了新聞媒體內(nèi)容在AI訓(xùn)練中的核心價(jià)值,同時(shí)也引發(fā)了關(guān)于內(nèi)容版權(quán)和付費(fèi)問(wèn)題的討論。Ziff Davis指出,新聞媒體內(nèi)容被AI公司無(wú)償使用,這可能導(dǎo)致出版商失去重要的許可收入。
此前,已有出版商對(duì)OpenAI提起訴訟,稱其未經(jīng)許可使用內(nèi)容訓(xùn)練模型。盡管一聯(lián)邦法官駁回了Raw Story和AlterNet對(duì)OpenAI的訴訟,但《紐約時(shí)報(bào)》提起的相關(guān)案件仍在審理當(dāng)中。同時(shí),OpenAI也已與多家頂級(jí)媒體公司達(dá)成了許可協(xié)議。