智快網 - 新科技與新能源行業網絡媒體

          代碼大模型考卷升級!字節開源FullStack Bench,首次覆蓋全棧編程超11類真實場景

             發布時間:2024-12-05 14:42

          代碼大模型越來越卷,評估AI編程水平的“考卷”也被迫升級。12月5日,字節豆包大模型團隊開源最新代碼大模型評估基準FullStack Bench,在業界首次囊括編程全棧技術中超11類真實場景,覆蓋16種編程語言,包含3374個問題,相比此前基準,可以更有效地評估大模型在現實世界中的代碼開發能力。

          代碼評估基準是衡量大模型編程能力的標準工具,也是推動模型優化的關鍵驅動力。不過,當前的代碼評估基準覆蓋的應用類型和編程語言較為有限,難以反映真實世界中代碼開發場景的多樣性和復雜性。

          比如,主流代碼評測集Humaneval和MBPP中近80%數據只聚焦基礎編程和高級編程問題;DS-1000中95%數據都集中于數據分析和機器學習任務,且僅對Python語言進行評測;xCodeeval雖覆蓋多項任務,但基本局限于高級編程和數學領域。

          圖表, 條形圖

描述已自動生成

          FullStack Bench數據覆蓋超11種應用領域,遠超當前主流代碼評估基準

          因此,字節豆包大模型團隊與M-A-P開源社區聯合提出FullStack Bench,一個專注于全棧編程和多語言編程的代碼評估數據集。為囊括在真實全棧開發中涉及的各類應用場景,研究團隊從全球最大的程序員技術問答社區Stack Overflow中隨機抽取了50萬個問題進行分析,篩選出占總問題數前88.1%的應用領域,并對其分布做了適當調整來保證每個領域的魯棒性,最終形成了FullStack Bench關注的超過11種應用場景及分布比例。

          FullStack Bench包含3374個問題,每個問題均包括題目描述、參考解決方案及單元測試用例,總計15168個單元測試。為保證評估準確性,問題內容均由相關領域的編程專家設計,并經AI和人工驗證進行質量復核。在初始數據集構建后,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

          表格

描述已自動生成

          FullStack Bench數據集構成情況

          為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具——SandboxFusion,用于評估來自不同語言的不同編程任務。除了FullStack Bench,SandboxFusion還兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言。開發者在單服務器上即可輕松部署SandboxFusion,也可直接在GitHub上進行體驗。

          圖形用戶界面

描述已自動生成

          發布評測基準及沙盒的同時,字節代碼大模型也首次曝光。研究中,豆包大模型團隊對全球20余款代碼大模型及語言大模型的編程表現進行了評測(詳見論文),其中包括未披露過的豆包代碼大模型Doubao-Coder。

          近半年,字節在代碼大模型領域進展迅速,今年6月字節發布了由自研代碼基座模型支撐的AI編程助手豆包MarsCode ,目前每月為用戶貢獻百萬量級代碼。

          論文地址:https://arxiv.org/pdf/2412.00535v2

          數據集開源地址:https://huggingface.co/datasets/ByteDance/FullStackBench

          沙盒開源地址:https://github.com/bytedance/SandboxFusion

          沙盒體驗入口:https://bytedance.github.io/SandboxFusion/playground/datasets

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          亚洲中文久久精品无码| 国产亚洲精品美女2020久久| 亚洲精品高清国产一线久久| 日韩毛片免费无码无毒视频观看 | 自拍日韩亚洲一区在线| 国产精品无码免费播放| 久久久精品国产免大香伊| 国产精品视频色拍拍| 精品日韩在线视频一区二区三区| 亚洲国产日韩在线| 国产精品国产高清国产av | 日韩色日韩视频亚洲网站| 日韩精品久久一区二区三区| 精品久久久久久久久免费影院| 91国内揄拍国内精品对白| 亚洲精品无码永久在线观看男男| 久久久精品2019中文字幕之3| 久久久久久青草大香综合精品| 日韩资源在线观看| 国产偷国产偷亚洲高清日韩| 日韩成人国产精品视频| 久久久久久久精品毛万迈巴赫车标| 久久精品久噜噜噜久久| 四虎国产精品永久在线| 久久精品国产69国产精品亚洲| 成人午夜视频精品一区| 国内成人精品亚洲日本语音| 热久久视久久精品18| 亚洲AV无码精品蜜桃| 久久精品国产99久久无毒不卡| 久久精品7亚洲午夜a| 久久最新精品国产| 精品九九久久国内精品| 国产亚洲美女精品久久久2020| 精品久久人人妻人人做精品| 国产精品人人做人人爽人人添| 亚洲äv永久无码精品天堂久久| 2021日韩麻豆| 日韩精品一区二区三区老鸭窝| 亚洲AV日韩AV高潮无码专区| 日韩写真集福利视频|