精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

量子位 17分鐘前

7 個月翻一番！AI agent 能力飆升，METR 報告揭示指數(shù)級進(jìn)化規(guī)律

Agent 能力每 7 個月翻一番！

根據(jù)非營利研究機(jī)構(gòu) METR 最新發(fā)布的報告，這一規(guī)律已在 9 項基準(zhǔn)測試中得到了驗(yàn)證。

這些任務(wù)涉及編程、數(shù)學(xué)、計算機(jī)使用、自動駕駛等領(lǐng)域，表明大模型正在不斷向著高度自動化邁進(jìn)。

報告指出：在軟件開發(fā)、數(shù)學(xué)競賽、科學(xué)問答等任務(wù)中，agent 已能完成相當(dāng)于人類花費(fèi) 50 – 200 分鐘才能完成的任務(wù)，并且這種能力還在快速提升——大約每2 – 6 個月就能翻一番。

在計算機(jī)操作任務(wù)中，雖然任務(wù)時長較短，但增長率與軟件開發(fā)等任務(wù)一致。

Agent 在自動駕駛?cè)蝿?wù)的性能增長速度則較慢，約 20 個月翻一番。

在視頻理解任務(wù)中，模型能夠在時長 1 小時的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統(tǒng)能力及其風(fēng)險的研究團(tuán)隊，METR 此次的報告又進(jìn)一步拉近了 AI 自主化的時間線，快來和我們看看報告有哪些內(nèi)容吧。

Agent 的摩爾定律

在此前的測試中，METR 將評估范圍聚焦于軟件開發(fā)和研究類任務(wù)，并發(fā)現(xiàn) AI agent 的能力呈現(xiàn)出一種 " 摩爾定律 " 式的增長趨勢——平均每七個月，其可完成任務(wù)的 time horizon 就會翻一番。

而在最新報告中，METR 將這一評估方法拓展至更廣泛的領(lǐng)域，并繼續(xù)追問一個關(guān)鍵問題：AI 的能力，是否能在更廣泛的任務(wù)中，以 time horizon 翻倍的方式不斷躍升？

不過我們首先要問的是，什么是 time horizon？

舉例來說，人類平均花 30 分鐘完成一個任務(wù)，AI 如果能在這類任務(wù)上有一半成功的概率，那就說它的 time horizon 是 30 分鐘。如果它成功率還遠(yuǎn)高于一半，例如達(dá)到 80%，那說明它其實(shí)能勝任更長、更復(fù)雜的任務(wù)。

概括地說，time horizon 就是 agent 在任務(wù)上可穩(wěn)定完成的時間跨度。

由于time horizon 越長≈任務(wù)越難≈需要更多策略推理與計劃能力≈智能體的智能水平越高，所以 time horizon 的翻倍也被稱為agent 的摩爾定律。

由于 AI 在不同任務(wù)中的能力差別極大，所以現(xiàn)在的問題是：這個指數(shù)級增長規(guī)律，會在其他領(lǐng)域也成立嗎？

如何跨領(lǐng)域衡量 time horizon？

為了證明上面的問題，報告選取了 9 個 benchmark，包括軟件開發(fā)（METR HRS、SWE bench）、計算機(jī)使用（OSWorld、WebArena）、數(shù)學(xué)競賽（Mock AIME、MATH）、編程競賽（LiveCode-Bench ) 、科學(xué)問答（GPQADiamond）、視頻理解（Video MME）、自動駕駛（Tesla FSD）和機(jī)器人仿真（RLBench）。

對每個 benchmark，METR 構(gòu)造了概率模型來估算 agent 的 time horizon。報告采用最大似然估計（MLE）或簡化估計方法，處理不同 benchmark 的標(biāo)簽粒度以估算出每個領(lǐng)域 AI 隨時間的 time horizon 增長曲線。

值得注意的是，不同基準(zhǔn)測試的 time horizon 邊界相差超過 100 倍。許多推理和編碼基準(zhǔn)測試的集群時間都在 1 小時或以上，但在計算機(jī)的使用時間（OSWorld、WebArena）僅為約 2 分鐘，而這可能源于 agent 在使用鼠標(biāo)時發(fā)生的誤觸。

研究發(fā)現(xiàn)：智能體能力按月翻番

除了我們開頭提到的智能體的能力變化，報告還測試了當(dāng)前主流的幾家大模型的能力。例如，像 o3 這樣的前沿模型在 METR 任務(wù)上的表現(xiàn)一直高于趨勢水平，翻倍時間快于 7 個月，在 9 個基準(zhǔn)測試的翻倍時間中位數(shù)約為 4 個月（范圍為 2.5 至 17 個月）。

最后，time horizon 并非對于所有的基礎(chǔ)測試中都重要。由于有些基準(zhǔn)中難題的難度要遠(yuǎn)大于簡單題，而在另一些基準(zhǔn)中，難題卻和簡單題相差無幾。因此，對于 agent 來說，在這些基準(zhǔn)測試中 time horizon 并不能完全反映其性能。

例如，LeetCode（LiveCodeBench）和數(shù)學(xué)問題（AIME）的難度要遠(yuǎn)高于簡單問題，但長視頻上的 Video-MME 問題并不比短視頻上的難多少。

可見，agent 的性能并不只是看 " 會更多技巧 "，而是看是否能處理更長、更復(fù)雜任務(wù)。

從幾秒、幾分鐘，到幾十分鐘、幾小時，agent 的可處理范圍正在跨越級別提升；如果翻倍趨勢持續(xù)，未來幾年內(nèi)可能看到 AI 完成 " 幾天→幾周 " 的任務(wù)成為可能。

總結(jié)這一研究可以看到一個很清楚的規(guī)律：從代碼推理到數(shù)學(xué)競賽，從 GUI 控制到自動駕駛，沒有一個任務(wù)域顯示出智能增長的 " 乏力 "。在多數(shù)場景中，AI 正全速向更大跨度、更深記憶、更復(fù)雜規(guī)劃演進(jìn)。

參考鏈接：

[ 1 ] https://arxiv.org/abs/2503.14499

[ 2 ] https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群，只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手，發(fā)送「姓名 + 公司 + 職位」申請入群～

進(jìn)群后，你將直接獲得：

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門產(chǎn)品內(nèi)測碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

ai 自動駕駛

精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

7 個月翻一番！AI agent 能力飆升，METR 報告揭示指數(shù)級進(jìn)化規(guī)律

宙世代

一起剪

相關(guān)閱讀

微軟“AI裁員風(fēng)”刮到了印度

全球手機(jī)市場半年考：美國忙囤貨，華為重奪中國第一

博通新品直擊英偉達(dá)！Tomahawk Ultra以4倍擴(kuò)展力搶灘AI數(shù)據(jù)中心

美國打造史上最精準(zhǔn)原子鐘：精度創(chuàng)小數(shù)點(diǎn)后19位紀(jì)錄

月之暗面回應(yīng)Kimi K2 API速度慢：訪問量大模型體積大 正全力優(yōu)化

你是不知道，在網(wǎng)上買個正版小米有多難。。。

蘋果又?jǐn)D了一次牙膏：iPhone 17系列升級無線充電

榮耀亟須一個爆款

和訊投顧萬宗昂：隨著算力芯片恢復(fù)供貨，相關(guān)產(chǎn)業(yè)人氣熱度持續(xù)上升

山姆APP下架低糖好麗友派：其選品標(biāo)準(zhǔn)引發(fā)質(zhì)疑

黃仁勛來華首次回應(yīng)大熱天穿皮夾克：只有一套西裝 沒來得及干洗

AI時代的荒誕敘事：當(dāng)音樂人不再是“人”

一圖讀懂榮耀X70：8300mAh電池續(xù)航無敵 1399元起

8300毫安電池、IP69K防水！榮耀X70全面評測：新一代耐用神機(jī)實(shí)至名歸

最新評論

量子位

熱門推薦

7 個月翻一番！AI agent 能力飆升，METR 報告揭示指數(shù)級進(jìn)化規(guī)律

全球手機(jī)市場半年考：美國忙囤貨，華為重奪中國第一

博通新品直擊英偉達(dá)！Tomahawk Ultra以4倍擴(kuò)展力搶灘AI數(shù)據(jù)中心

月之暗面回應(yīng)Kimi K2 API速度慢：訪問量大模型體積大正全力優(yōu)化

你是不知道，在網(wǎng)上買個正版小米有多難。。。

和訊投顧萬宗昂：隨著算力芯片恢復(fù)供貨，相關(guān)產(chǎn)業(yè)人氣熱度持續(xù)上升

黃仁勛來華首次回應(yīng)大熱天穿皮夾克：只有一套西裝沒來得及干洗