精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

關(guān)于ZAKER 合作
量子位 17分鐘前

7 個月翻一番!AI agent 能力飆升,METR 報告揭示指數(shù)級進(jìn)化規(guī)律

Agent 能力每 7 個月翻一番!

根據(jù)非營利研究機(jī)構(gòu) METR 最新發(fā)布的報告,這一規(guī)律已在 9 項基準(zhǔn)測試中得到了驗(yàn)證。

這些任務(wù)涉及編程、數(shù)學(xué)、計算機(jī)使用、自動駕駛等領(lǐng)域,表明大模型正在不斷向著高度自動化邁進(jìn)。

報告指出:在軟件開發(fā)、數(shù)學(xué)競賽、科學(xué)問答等任務(wù)中,agent 已能完成相當(dāng)于人類花費(fèi) 50 – 200 分鐘才能完成的任務(wù),并且這種能力還在快速提升——大約每2 – 6 個月就能翻一番。

在計算機(jī)操作任務(wù)中,雖然任務(wù)時長較短,但增長率與軟件開發(fā)等任務(wù)一致。

Agent 在自動駕駛?cè)蝿?wù)的性能增長速度則較慢,約 20 個月翻一番。

在視頻理解任務(wù)中,模型能夠在時長 1 小時的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統(tǒng)能力及其風(fēng)險的研究團(tuán)隊,METR 此次的報告又進(jìn)一步拉近了 AI 自主化的時間線,快來和我們看看報告有哪些內(nèi)容吧。

Agent 的摩爾定律

在此前的測試中,METR 將評估范圍聚焦于軟件開發(fā)和研究類任務(wù),并發(fā)現(xiàn) AI agent 的能力呈現(xiàn)出一種 " 摩爾定律 " 式的增長趨勢——平均每七個月,其可完成任務(wù)的 time horizon 就會翻一番。

而在最新報告中,METR 將這一評估方法拓展至更廣泛的領(lǐng)域,并繼續(xù)追問一個關(guān)鍵問題:AI 的能力,是否能在更廣泛的任務(wù)中,以 time horizon 翻倍的方式不斷躍升?

不過我們首先要問的是,什么是 time horizon?

舉例來說,人類平均花 30 分鐘完成一個任務(wù),AI 如果能在這類任務(wù)上有一半成功的概率,那就說它的 time horizon 是 30 分鐘。如果它成功率還遠(yuǎn)高于一半,例如達(dá)到 80%,那說明它其實(shí)能勝任更長、更復(fù)雜的任務(wù)。

概括地說,time horizon 就是 agent 在任務(wù)上可穩(wěn)定完成的時間跨度。

由于time horizon 越長≈任務(wù)越難≈需要更多策略推理與計劃能力≈智能體的智能水平越高,所以 time horizon 的翻倍也被稱為agent 的摩爾定律。

由于 AI 在不同任務(wù)中的能力差別極大,所以現(xiàn)在的問題是:這個指數(shù)級增長規(guī)律,會在其他領(lǐng)域也成立嗎?

如何跨領(lǐng)域衡量 time horizon?

為了證明上面的問題,報告選取了 9 個 benchmark,包括軟件開發(fā)(METR HRS、SWE bench)、計算機(jī)使用(OSWorld、WebArena)、數(shù)學(xué)競賽(Mock AIME、MATH)、編程競賽(LiveCode-Bench ) 、科學(xué)問答(GPQADiamond)、視頻理解(Video MME)、自動駕駛(Tesla FSD)和機(jī)器人仿真(RLBench)。

對每個 benchmark,METR 構(gòu)造了概率模型來估算 agent 的 time horizon。報告采用最大似然估計(MLE)或簡化估計方法,處理不同 benchmark 的標(biāo)簽粒度以估算出每個領(lǐng)域 AI 隨時間的 time horizon 增長曲線。

值得注意的是,不同基準(zhǔn)測試的 time horizon 邊界相差超過 100 倍。許多推理和編碼基準(zhǔn)測試的集群時間都在 1 小時或以上,但在計算機(jī)的使用時間(OSWorld、WebArena)僅為約 2 分鐘,而這可能源于 agent 在使用鼠標(biāo)時發(fā)生的誤觸。

研究發(fā)現(xiàn):智能體能力按月翻番

除了我們開頭提到的智能體的能力變化,報告還測試了當(dāng)前主流的幾家大模型的能力。例如,像 o3 這樣的前沿模型在 METR 任務(wù)上的表現(xiàn)一直高于趨勢水平,翻倍時間快于 7 個月,在 9 個基準(zhǔn)測試的翻倍時間中位數(shù)約為 4 個月(范圍為 2.5 至 17 個月)。

最后,time horizon 并非對于所有的基礎(chǔ)測試中都重要。由于有些基準(zhǔn)中難題的難度要遠(yuǎn)大于簡單題,而在另一些基準(zhǔn)中,難題卻和簡單題相差無幾。因此,對于 agent 來說,在這些基準(zhǔn)測試中 time horizon 并不能完全反映其性能。

例如,LeetCode(LiveCodeBench)和數(shù)學(xué)問題(AIME)的難度要遠(yuǎn)高于簡單問題,但長視頻上的 Video-MME 問題并不比短視頻上的難多少。

可見,agent 的性能并不只是看 " 會更多技巧 ",而是看是否能處理更長、更復(fù)雜任務(wù)。

從幾秒、幾分鐘,到幾十分鐘、幾小時,agent 的可處理范圍正在跨越級別提升;如果翻倍趨勢持續(xù),未來幾年內(nèi)可能看到 AI 完成 " 幾天→幾周 " 的任務(wù)成為可能。

總結(jié)這一研究可以看到一個很清楚的規(guī)律:從代碼推理到數(shù)學(xué)競賽,從 GUI 控制到自動駕駛,沒有一個任務(wù)域顯示出智能增長的 " 乏力 "。在多數(shù)場景中,AI 正全速向更大跨度、更深記憶、更復(fù)雜規(guī)劃演進(jìn)。

參考鏈接:

[ 1 ] https://arxiv.org/abs/2503.14499

[ 2 ] https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法!

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請入群~

進(jìn)群后,你將直接獲得:

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門產(chǎn)品內(nèi)測碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

相關(guān)標(biāo)簽

最新評論

沒有更多評論了
主站蜘蛛池模板: 化州市| 宝山区| 甘德县| 礼泉县| 女性| 鄂伦春自治旗| 常熟市| 台中县| 衢州市| 定州市| 大埔区| 井冈山市| 永昌县| 大新县| 中宁县| 楚雄市| 荃湾区| 枣阳市| 铜陵市| 长阳| 延庆县| 临江市| 美姑县| 兖州市| 十堰市| 荆门市| 清流县| 塘沽区| 石嘴山市| 阿巴嘎旗| 法库县| 黎城县| 任丘市| 保德县| 万州区| 湖北省| 张家港市| 成都市| 洛隆县| 清水河县| 印江|