文章信息
Introducing the OECD AI Capability Indicators
來源:OECD
時間:2025年
2022 年 11 月 ChatGPT 推出后,人工智能(AI)對人類活動的潛在影響開始引發公眾廣泛想象。然而,盡管人工智能發展迅速,公眾對其影響的理解卻未能跟上。要弄清楚人工智能如何改變人類活動,仍有大量工作要做。
本報告介紹了經合組織(OECD)新推出的人工智能能力指標。這些指標旨在為政策制定者提供一個基于證據的框架,以理解人工智能能力并將其與人類能力進行比較。該指標歷時五年開發而成,借鑒了龐大的人工智能研究者、心理學家及其他專家網絡的成果。配套技術報告(OECD, 2025 [1])的各章節由 32 位專家撰寫,并由另外 25 位專家評審。
九項指標涵蓋了一系列人類能力,每項指標都描述了人工智能向完全等效人類能力發展的過程,包括:語言、社交互動、問題解決、創造力、元認知與批判性思維、知識、學習與記憶、視覺、操作以及機器人智能。這些指標以五級量表呈現,其中人工智能系統最具挑戰性的能力位于量表頂端。每個等級都包含對該等級人工智能系統能夠準確且持續執行的各類能力的簡要描述。每個量表上當前人工智能表現的評級均與現有證據相關聯。
這些指標目前以測試版形式發布,誠邀兩類關鍵利益相關者提供反饋:人工智能研究者和政策制定者。研究者的人工智能評估工作為指標提供證據,而解讀和利用量表洞見的能力對制定合理政策至關重要。同時也歡迎其他利益相關者提供反饋。經合組織將在收集利益相關者反饋并制定系統性更新協議后,發布指標的首個完整版。
1. 主要結論
作為一個對公眾負責的政府間組織,經合組織在人工智能評估方面處于獨特的領先地位,憑借其在國際技能比較評估方面的經驗,能夠為全球社會提供權威成果。
經合組織的方法利用現有證據制定人工智能能力指標,既反映最新研究成果,又能為非技術受眾所理解。這些指標描述了人工智能能力向完全等效人類能力發展的進程。
本報告介紹了九項源于人類心理學的人工智能能力指標,由經合組織人工智能與未來技能團隊及 50 多位外部專家共同開發。
這些指標通過五級量表進行說明,該量表描述了人工智能系統向等效人類能力發展必須整合的多個維度和任務。每項指標的等級都有證據支持,這些證據用于描述當前人工智能系統的能力 —— 在各指標量表上,其能力介于 2 級到 3 級之間。
這些指標可用于映射人工智能向工作所需人類能力的發展進程。將指標與職業和任務需求相映射,以及由此產生的 “差距” 分析,可作為起點,用于分析隨著人工智能能夠協助或替代工人執行某些任務,特定職業可能會如何演變。這些指標還可用于推動基于價值觀的討論,探討量表各等級的能力應如何在整個經濟領域的職業中應用。
此外,這些指標有助于更好地理解人工智能對教育的影響。它們可為識別人工智能系統在哪些方面能推動教育的轉型變革提供框架,幫助明確哪些教學任務可能會被重塑,哪些學習目標可能需要調整。盡管這些指標不規定基于價值觀的決策,但它們突顯了教育的交付方式和目標在技術上可能發生轉變的領域,為未來有關課程、教師角色和學生能力的討論提供信息。
2.經合組織人工智能能力指標概覽
經合組織教育研究與創新中心(CERI)的 “人工智能與未來技能”(AIFS)項目提出了一個框架,用于系統衡量人工智能(AI)和機器人能力,并將其與人類技能進行比較。本章概述了人工智能在各項經合組織人工智能能力指標上的表現。第一節介紹了一個比較表,并提供了理解該表所需的信息。該表顯示了每個領域人工智能的當前水平,并描述了 2024 年 11 月最先進的人工智能系統所具備的各類能力。表格下方的簡要評論解釋了經合組織專家組將人工智能系統評為該等級的理由,以及使人工智能系統能夠晉級到下一等級所需的能力。
當前人工智能能力比較表
表 1.1 概述了最先進的人工智能(AI)系統的當前能力。每個領域人工智能系統的當前等級旁都附有對該等級人工智能系統所具備能力的描述。表格下方的評論簡要說明了經合組織專家組將人工智能系統評為該等級的原因,以及使人工智能系統能夠在量表上晉級到下一等級所需的能力。
表1.1.當前AI能力水平概述
經合組織開發了五級量表,以一種領域外人士易于理解的方式來呈現人工智能能力的發展。這些量表旨在涵蓋所有類型的人工智能系統。當前的評級包括特定領域的符號人工智能系統、神經符號系統、大型語言模型(LLMs)、社交智能體以及各領域最前沿的機器人系統。一方面,等級 1 反映了當前人工智能系統已長期解決且公認屬于基礎性的能力;另一方面,等級 5 的人工智能系統能夠復制相應人類能力的所有方面。中間的三個等級展示了人工智能在不同方面朝著完全等效人類能力發展的過程。
經合組織在第 2 章中解釋了開發這些量表的方法,更詳細的內容可參見配套的技術報告(OECD, 2025 [1])。對人工智能系統的評級反映了 2024 年 11 月的技術水平。
要被評為某一等級,人工智能系統必須始終且可靠地具備該等級所描述能力的大部分方面。例如,我們的專家將大型語言模型置于語言量表的 2 級與 3 級臨界點。大型語言模型具備 3 級語言能力所描述的許多方面,但由于它們無法進行規范的分析推理、存在生成錯誤信息(幻覺)的傾向,且沒有動態學習能力,因此受到限制。盡管如此,由于大型語言模型滿足該等級語言能力的其他大部分方面,因此被評為 3 級。
當前人工智能系統的一個顯著缺陷 —— 大型語言模型中持續存在的幻覺問題 —— 在各個量表中以多種方式直接或間接體現。知識、學習與記憶量表指出,幻覺問題將在 5 級得到解決;語言量表也指出,批判性思維將在 5 級出現;元認知與批判性思維量表則指出,對知識的批判性評估將在 3 級出現。這種跨量表的多樣性凸顯了在預測解決這一挑戰的相對難度方面存在的不同觀點;量表的這一方面可能需要在未來版本中進行統一。然而,這些量表的一個重要作用是提醒公眾,幻覺只是眾多挑戰之一:要使人工智能達到人類水平的表現,還需要解決多項挑戰。
讀者會注意到,我們的專家將當前所有人工智能的水平都定為 2 級和 3 級,這是我們構建首個量表的方法所帶來的間接結果。這些量表旨在從過去到人工智能能夠重現該能力所有人類方面的假設未來,呈現每項能力的主要發展。每個量表中的等級描述都勾勒出了該領域的主要發展步驟。那些已經實現的發展處于較低等級,而那些尚未實現的則處于較高等級。4 級和 5 級通常描述的是人工智能仍難以始終且可靠地執行的能力方面。
該領域的許多研究者可能不同意我們對 2024 年技術水平的判斷,或對五級量表上能力的分布有不同看法。經合組織鼓勵人工智能研究者與本組織聯系,協助我們的更新工作,使這些量表更貼合最新發展。
本章中的等級描述是縮略版;每個等級及其配套量表的完整版本可參見第 3 章。
2025-OECD-Introducing the OECD AI Capability Indicators.pdf
來源:OECD
編輯:中國科學院大學經管學院研究生張麗