在近日舉辦的火山引擎Force大會上,字節跳動公司正式揭曉了其最新的技術創新——豆包視覺理解模型。這一多模態大模型旨在為企業提供高性價比的視覺理解解決方案,其價格優勢尤為顯著,據稱,處理千個tokens的成本僅為3厘,而處理284張720P圖片的費用更是低至1元,這一價格相較于行業平均水平低了85%。
火山引擎總裁譚待在會上詳細介紹了豆包視覺理解模型的獨特之處。他指出,該模型不僅能夠精確識別圖像內容,還具備強大的理解和推理能力,可以執行復雜的邏輯計算任務,例如分析圖表、處理代碼以及解答學科問題。豆包模型在視覺描述和創作方面同樣表現出色。
在豆包大模型系列產品的更新方面,同樣傳來了好消息。豆包通用模型pro已經實現了與GPT-4o的全面對齊,但其使用價格僅為后者的八分之一。音樂模型則從原先的生成60秒簡單結構升級為了能夠生成3分鐘的完整音樂作品。而文生圖模型2.1版本更是實現了業界首次的精準生成漢字和一句話P圖的產品化能力,這一版本已經成功接入了即夢AI和豆包App。
火山引擎大會還透露,豆包視頻生成模型1.5版將在2025年春季推出,新版本將具備更強的長視頻生成能力。同時,豆包端到端實時語音模型也將很快上線,屆時將解鎖多角色演繹、方言轉換等一系列新功能。譚待表示,盡管豆包大模型發布時間相對較晚,但其在短時間內實現了快速的迭代和進化,目前已經成為國內技術最全面、最領先的大模型之一。
從數據上看,豆包通用模型的市場表現同樣亮眼。截至12月中旬,其日均tokens使用量已經超過了4萬億,相較于七個月前首次發布時增長了33倍。這一數據表明,大模型應用正在加速滲透到各行各業,成為推動數字化轉型的重要力量。
豆包大模型在智能終端領域的表現也頗為搶眼。目前,該模型已經與八成主流汽車品牌建立了合作關系,并成功接入了多家手機、PC等智能終端,覆蓋終端設備數量約3億臺。在半年時間內,來自智能終端的豆包大模型調用量實現了100倍的增長。