亚洲日本免费-啊轻点灬太粗太长了三男一女-麻豆av电影在线观看-日韩一级片毛片|www.grbbt.com

OECD報告:衡量AI能力,人工智能距離人類智能還有多遠?

文章信息

Introducing the OECD AI Capability Indicators

來源:OECD

時間:2025年

2022 年 11 月 ChatGPT 推出后,人工智能(AI)對人類活動的潛在影響開始引發(fā)公眾廣泛想象。然而,盡管人工智能發(fā)展迅速,公眾對其影響的理解卻未能跟上。要弄清楚人工智能如何改變?nèi)祟惢顒樱杂写罅抗ぷ饕觥?/p>

本報告介紹了經(jīng)合組織(OECD)新推出的人工智能能力指標。這些指標旨在為政策制定者提供一個基于證據(jù)的框架,以理解人工智能能力并將其與人類能力進行比較。該指標歷時五年開發(fā)而成,借鑒了龐大的人工智能研究者、心理學家及其他專家網(wǎng)絡(luò)的成果。配套技術(shù)報告(OECD, 2025 [1])的各章節(jié)由 32 位專家撰寫,并由另外 25 位專家評審。

九項指標涵蓋了一系列人類能力,每項指標都描述了人工智能向完全等效人類能力發(fā)展的過程,包括:語言、社交互動、問題解決、創(chuàng)造力、元認知與批判性思維、知識、學習與記憶、視覺、操作以及機器人智能。這些指標以五級量表呈現(xiàn),其中人工智能系統(tǒng)最具挑戰(zhàn)性的能力位于量表頂端。每個等級都包含對該等級人工智能系統(tǒng)能夠準確且持續(xù)執(zhí)行的各類能力的簡要描述。每個量表上當前人工智能表現(xiàn)的評級均與現(xiàn)有證據(jù)相關(guān)聯(lián)。

這些指標目前以測試版形式發(fā)布,誠邀兩類關(guān)鍵利益相關(guān)者提供反饋:人工智能研究者和政策制定者。研究者的人工智能評估工作為指標提供證據(jù),而解讀和利用量表洞見的能力對制定合理政策至關(guān)重要。同時也歡迎其他利益相關(guān)者提供反饋。經(jīng)合組織將在收集利益相關(guān)者反饋并制定系統(tǒng)性更新協(xié)議后,發(fā)布指標的首個完整版。

1. 主要結(jié)論

作為一個對公眾負責的政府間組織,經(jīng)合組織在人工智能評估方面處于獨特的領(lǐng)先地位,憑借其在國際技能比較評估方面的經(jīng)驗,能夠為全球社會提供權(quán)威成果。

經(jīng)合組織的方法利用現(xiàn)有證據(jù)制定人工智能能力指標,既反映最新研究成果,又能為非技術(shù)受眾所理解。這些指標描述了人工智能能力向完全等效人類能力發(fā)展的進程。

本報告介紹了九項源于人類心理學的人工智能能力指標,由經(jīng)合組織人工智能與未來技能團隊及 50 多位外部專家共同開發(fā)。

這些指標通過五級量表進行說明,該量表描述了人工智能系統(tǒng)向等效人類能力發(fā)展必須整合的多個維度和任務。每項指標的等級都有證據(jù)支持,這些證據(jù)用于描述當前人工智能系統(tǒng)的能力 —— 在各指標量表上,其能力介于 2 級到 3 級之間。

這些指標可用于映射人工智能向工作所需人類能力的發(fā)展進程。將指標與職業(yè)和任務需求相映射,以及由此產(chǎn)生的 “差距” 分析,可作為起點,用于分析隨著人工智能能夠協(xié)助或替代工人執(zhí)行某些任務,特定職業(yè)可能會如何演變。這些指標還可用于推動基于價值觀的討論,探討量表各等級的能力應如何在整個經(jīng)濟領(lǐng)域的職業(yè)中應用。

此外,這些指標有助于更好地理解人工智能對教育的影響。它們可為識別人工智能系統(tǒng)在哪些方面能推動教育的轉(zhuǎn)型變革提供框架,幫助明確哪些教學任務可能會被重塑,哪些學習目標可能需要調(diào)整。盡管這些指標不規(guī)定基于價值觀的決策,但它們突顯了教育的交付方式和目標在技術(shù)上可能發(fā)生轉(zhuǎn)變的領(lǐng)域,為未來有關(guān)課程、教師角色和學生能力的討論提供信息。

2.經(jīng)合組織人工智能能力指標概覽

經(jīng)合組織教育研究與創(chuàng)新中心(CERI)的 “人工智能與未來技能”(AIFS)項目提出了一個框架,用于系統(tǒng)衡量人工智能(AI)和機器人能力,并將其與人類技能進行比較。本章概述了人工智能在各項經(jīng)合組織人工智能能力指標上的表現(xiàn)。第一節(jié)介紹了一個比較表,并提供了理解該表所需的信息。該表顯示了每個領(lǐng)域人工智能的當前水平,并描述了 2024 年 11 月最先進的人工智能系統(tǒng)所具備的各類能力。表格下方的簡要評論解釋了經(jīng)合組織專家組將人工智能系統(tǒng)評為該等級的理由,以及使人工智能系統(tǒng)能夠晉級到下一等級所需的能力。

當前人工智能能力比較表

表 1.1 概述了最先進的人工智能(AI)系統(tǒng)的當前能力。每個領(lǐng)域人工智能系統(tǒng)的當前等級旁都附有對該等級人工智能系統(tǒng)所具備能力的描述。表格下方的評論簡要說明了經(jīng)合組織專家組將人工智能系統(tǒng)評為該等級的原因,以及使人工智能系統(tǒng)能夠在量表上晉級到下一等級所需的能力。

表1.1.當前AI能力水平概述

經(jīng)合組織開發(fā)了五級量表,以一種領(lǐng)域外人士易于理解的方式來呈現(xiàn)人工智能能力的發(fā)展。這些量表旨在涵蓋所有類型的人工智能系統(tǒng)。當前的評級包括特定領(lǐng)域的符號人工智能系統(tǒng)、神經(jīng)符號系統(tǒng)、大型語言模型(LLMs)、社交智能體以及各領(lǐng)域最前沿的機器人系統(tǒng)。一方面,等級 1 反映了當前人工智能系統(tǒng)已長期解決且公認屬于基礎(chǔ)性的能力;另一方面,等級 5 的人工智能系統(tǒng)能夠復制相應人類能力的所有方面。中間的三個等級展示了人工智能在不同方面朝著完全等效人類能力發(fā)展的過程。

經(jīng)合組織在第 2 章中解釋了開發(fā)這些量表的方法,更詳細的內(nèi)容可參見配套的技術(shù)報告(OECD, 2025 [1])。對人工智能系統(tǒng)的評級反映了 2024 年 11 月的技術(shù)水平。

要被評為某一等級,人工智能系統(tǒng)必須始終且可靠地具備該等級所描述能力的大部分方面。例如,我們的專家將大型語言模型置于語言量表的 2 級與 3 級臨界點。大型語言模型具備 3 級語言能力所描述的許多方面,但由于它們無法進行規(guī)范的分析推理、存在生成錯誤信息(幻覺)的傾向,且沒有動態(tài)學習能力,因此受到限制。盡管如此,由于大型語言模型滿足該等級語言能力的其他大部分方面,因此被評為 3 級。

當前人工智能系統(tǒng)的一個顯著缺陷 —— 大型語言模型中持續(xù)存在的幻覺問題 —— 在各個量表中以多種方式直接或間接體現(xiàn)。知識、學習與記憶量表指出,幻覺問題將在 5 級得到解決;語言量表也指出,批判性思維將在 5 級出現(xiàn);元認知與批判性思維量表則指出,對知識的批判性評估將在 3 級出現(xiàn)。這種跨量表的多樣性凸顯了在預測解決這一挑戰(zhàn)的相對難度方面存在的不同觀點;量表的這一方面可能需要在未來版本中進行統(tǒng)一。然而,這些量表的一個重要作用是提醒公眾,幻覺只是眾多挑戰(zhàn)之一:要使人工智能達到人類水平的表現(xiàn),還需要解決多項挑戰(zhàn)。

讀者會注意到,我們的專家將當前所有人工智能的水平都定為 2 級和 3 級,這是我們構(gòu)建首個量表的方法所帶來的間接結(jié)果。這些量表旨在從過去到人工智能能夠重現(xiàn)該能力所有人類方面的假設(shè)未來,呈現(xiàn)每項能力的主要發(fā)展。每個量表中的等級描述都勾勒出了該領(lǐng)域的主要發(fā)展步驟。那些已經(jīng)實現(xiàn)的發(fā)展處于較低等級,而那些尚未實現(xiàn)的則處于較高等級。4 級和 5 級通常描述的是人工智能仍難以始終且可靠地執(zhí)行的能力方面。

該領(lǐng)域的許多研究者可能不同意我們對 2024 年技術(shù)水平的判斷,或?qū)ξ寮壛勘砩夏芰Φ姆植加胁煌捶ā=?jīng)合組織鼓勵人工智能研究者與本組織聯(lián)系,協(xié)助我們的更新工作,使這些量表更貼合最新發(fā)展。

本章中的等級描述是縮略版;每個等級及其配套量表的完整版本可參見第 3 章。

2025-OECD-Introducing the OECD AI Capability Indicators.pdf

來源:OECD

編輯:中國科學院大學經(jīng)管學院研究生張麗

聲明:本文來自圖靈財經(jīng),稿件和圖片版權(quán)均歸原作者所有。所涉觀點不代表東方安全立場,轉(zhuǎn)載目的在于傳遞更多信息。如有侵權(quán),請聯(lián)系rhliu@skdlabs.com,我們將及時按原作者或權(quán)利人的意愿予以更正。

上一篇:網(wǎng)絡(luò)安全服務虛標注水,政府IT供應商被罰超1億元

下一篇:東非小國烏干達要求Google注冊數(shù)據(jù)控制者身份