人類科學家三年的工作量,如今 AI 兩周就能輕松搞定!
最近,來自西湖大學的自然語言處理實驗室發布了DeepScientist系統,這也是首個具有完整科研能力,且在無人工干預下,展現出目標導向、持續迭代、漸進式超越人類研究者最先進研究成果的 AI 科學家系統。
在 AI 文本檢測任務中,DeepScientist 僅用兩周時間就實施和驗證了超過 1000 種不同的假設,在此期間取得了相當于人類三年的進展。
在 RAID 數據集測試中,DeepScientist 設計的方法實現了 7.9% 的 AUROC 提升,成功超越了人類現有 SOTA 方案。
另外 DeepScientist 還在智能體失敗歸因、LLM 推理加速等任務上也分別達成了新的 SOTA。

從 " 科研助理 " 到 " 首席科學家 ":AI 科研模式的變革
過去的 AI Scientist 系統,如果不給定一個清晰明了的科研目標,就很容易陷入對現有知識的機械組合與無效試探的窠臼中,最終形成的科研產出在人類專家看來缺乏焦點,科學價值不高。
它們更像是能力超群的科研助理,而不是能獨立指引方向的科學家。
DeepScientist的出現改變了這一現狀,它不再等待人類告訴它 " 研究什么 ",而是開始主動思考 " 什么值得研究 ",它可以:
主動識別前沿研究的根本性局限,
提出全新的科學構想以解決局限性問題,
自動編寫代碼、執行實驗、設計分析實驗,整理實驗結果,
撰寫結構完整的科研論文,開源可重現代碼。
簡而言之,這種從 " 隨機發現 " 到 " 長期主動式探索 " 的角色轉變,標志著 AI 已經正式涉足以往只有頂尖人類心智才能勝任的、最具創造性的科學發現過程。
DeepScientist 的核心機制
DeepScientist 的核心目標是在一個給定的總研究預算內,最大化有價值的科學發現(Progress Findings)。
它首先將混亂、依賴靈感的科學發現過程形式化為一個嚴謹、目標驅動的分層貝葉斯優化問題,其目標是從所有可能的候選研究空間中,找到一個最優方法,使一個未知且評估成本極高的真實科學價值函數最大化。
具體而言,DeepScientist 基于多智能體協同策略,圍繞一個三層級的評估循環推進。
每個層級代表了對一個科研想法(Finding)進行驗證的不同保真度(Fidelity)和成本(Cost),系統在每一輪迭代中,都基于其不斷增長的 " 經驗庫(Findings Memory)" 產出新假設和做出資源分配決策。
高層級(即具有高保真度)的信息,其價值是以前一層級(低保真度)的信息為條件的,而一個想法能否在最終的高保真度評估中成功,依賴于它在低保真度實驗中的表現。
在每一個層級中,只有展現出價值的科研產物才會被送入下一層級以提供更多資源用來進一步探索,否則被存儲到 "Findings Memory" 中用于給后續的探索提供信息。
這種分層方法,確保了計算資源能夠被精準地、動態地分配給在當前認知下最具潛力的研究方向,從而在有限的預算內最大化科學發現的效率。
AI 兩周完成三年科研進展,全面超越人類專家
為驗證 DeepScientist 的研究能力,研究人員將 DeepScientist 應用在三個當前 AI 研究的最前沿領域:智能體失敗歸因、LLM 推理加速與 AI 文本檢測。
這些任務無一例外都競爭激烈、備受社區關注,且技術基準極高,其挑戰的人類研究成果均為近期在 ICLR、ICML 和 ACL 等頂級會議上發布的最新 SOTA 方法。
其中,在 AI 文本檢測任務里,DeepScientist 在無人干預的情況下,僅用兩周時間,就自主完成了相當于人類科學家三年的進展。
在此期間,DeepScientist 自主生成了2472 個獨特的研究想法,并對其中 600 個具有科學價值的假設進行了代碼實現和實驗驗證。
最終,DeepScientist 在 RAID 數據集上取得了 7.9% 的 AUROC 提升,同時將推理延遲降低了 190%,展示出超越現有人類 SOTA 的卓越性能。
DeepScientist 的突破性進展并不僅限于 AI 文本檢測領域,它在多個不同的前沿任務上都展示了超越人類專家的科學發現能力,其中一個典型的例子是在 " 智能體失敗歸因 " 這一高度復雜的任務上。
面對現有方法難以進行有效因果推理的困境,DeepScientist 自主構想并提出了名為A2P(Abduction-Action-Prediction)的全新方法,其核心創新在于將失敗歸因從簡單的模式識別提升到了結構化的因果推理層面。
最終,該方法在 Who&When 基準測試的 " 算法生成 " 任務中取得了 47.46 分,性能相較于人類專家的 SoTA 基線大幅提升了183.7% 。
上述成就充分證明了 DeepScientist 不僅能實現單點突破,更能創造出具有持續影響力的科學成果,其泛化能力和系統性創新能力足以在多個前沿領域穩定地推動技術邊界。
此外,在自動化科學發現領域,實驗的成功率常常不足 1%。這個數字雖然殘酷,卻真實地反映了科學探索的高度不確定性。
不同于依賴大規模隨機試錯的方法,DeepScientist 通過形式化的分層貝葉斯優化機制,在 " 利用已有成果 " 與 " 探索未知可能性 " 之間靈活平衡,能夠在龐大的假設空間中智能篩選出最具潛力的研究方向。
在探索過程中,DeepScientist 不僅能高效執行大規模實驗,還會把成功與失敗的結果都視作寶貴經驗,用來指導后續的決策。
這種記憶驅動、目標導向的迭代流程,使其能夠自主運行數月之久,在浩瀚的可能性空間中持續尋找突破口,不斷推動科學發現的進程。
換句話說,如果沒有精細化的策略與結構化的反饋機制,這類探索幾乎不可能取得成果,而 DeepScientist 的設計恰恰保證了,即便面對極低的成功率,它也能在閉環學習中穩步積累成果,展現出遠超暴力搜索系統的持續進化能力與科學發現潛力。
" 科學發現縮放定律 "?用算力驅動創新
在分析實驗中,如下圖所示,研究團隊發現:當并行 GPU 資源從 1 枚擴展到 16 枚時, DeepScientist 每周產出的前沿級科學發現數量從 0 項躍升至 11 項,幾乎呈現出理想的線性增長。

這種趨勢正在推動科研范式的轉變:從過去依靠 " 人力密集型 " 投入,逐步走向 " 計算密集型 " 驅動,為解決人類面臨的重大科學挑戰,開辟了一條全新且可加速的路徑。
未來展望:開啟人機協同的科研新范式
DeepScientist 的成功并不意味著 AI 將取代科學家,而是預示著一個全新的人機協同科研范式的到來。
在這個范式中,人類研究者的角色將從繁重的試錯和實驗中解放出來,專注于提出真正有價值的科學問題、設定具有前瞻性的研究方向,并進行最終的綜合與判斷。
而 AI,將作為一臺不知疲倦、并行擴展的 " 科學探索引擎 ",在人類智慧的引領下,以前所未有的速度和廣度持續探索科學的無人區。
為了推動這一范式的到來,研究團隊將開源 DeepScientist 的核心系統與全部實驗日志,希望通過開放共享的方式,激發全球科研社區的創新力量,共同加速 AI Scientis 的發展,迎接從基礎物理到新藥研發等人類重大挑戰的突破時刻。
西湖大學自然語言處理實驗室期待與更多研究團隊攜手促進自動化科學發現的進步。
團隊現已開放了免費的 DeepScientist 服務申請,希望與科研社區共同建設一個更加高效的科學發現新范式,使其能夠真正加速人類科學發現的歷程。
同時也歡迎感興趣的研究者與研究團隊聯系,加入這場科研新旅程!
西湖大學自然語言處理實驗室(WestlakeNLP)成立于 2018 年 9 月,由張岳教授領導。
張岳教授畢業于牛津大學,獲博士學位,現任西湖大學工程學院副院長,著有劍橋大學出版社出版的《自然語言處理》一書,并擔任過 EMNLP 2022 等多個頂級 NLP 會議的程序委員會主席。
該實驗室目前專注于語言模型推理、泛化和通用人工智能以及自然語言處理的基礎與應用研究,探索通用人工智能的實現路徑,推動 AI Scientist(AI 科學家)的發展,使其能夠真正參與并加速科學發現,促進人類科學的持續進步。
圍繞這一愿景,WestlakeNLP 近期也系統地撰寫了 AI Scientist 方向的觀點文章與綜述論文,希望為該領域的發展提供更加全面的思考與參考。
在線網址:
https://ai-researcher.net
開源倉庫:
https://github.com/ResearAI/DeepScientist
DeepScientist 申請鏈接:
https://forms.gle/U9W3jfdGnKpGbScNA
實驗室聯系方式:
https://westlakenlp.com
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見




