編者按
美國情報(bào)高級(jí)研究計(jì)劃局(IARPA)實(shí)施的TrojAI項(xiàng)目已經(jīng)接完成,預(yù)計(jì)將對(duì)檢測(cè)和緩解針對(duì)人工智能系統(tǒng)的特洛伊木馬攻擊的科學(xué)研究和應(yīng)用產(chǎn)生巨大影響。
TrojAI項(xiàng)目于2019年啟動(dòng),旨在通過研究和開發(fā)技術(shù)來檢測(cè)和緩解故意、惡意的特洛伊木馬攻擊,構(gòu)建針對(duì)上述攻擊的檢測(cè)系統(tǒng),從而保護(hù)人工智能系統(tǒng)。相關(guān)檢測(cè)技術(shù)可以在AI系統(tǒng)部署前識(shí)別后門,并減輕在關(guān)鍵任務(wù)期間AI系統(tǒng)故障帶來的風(fēng)險(xiǎn)。特洛伊木馬攻擊依賴于訓(xùn)練人工智能對(duì)其輸入中的特定觸發(fā)器做出反應(yīng),而觸發(fā)器必須在正常操作環(huán)境中很罕見,從而避免影響人工智能的正常功能并引起用戶懷疑。觸發(fā)器既可以是在人工智能的操作環(huán)境中控制以激活木馬行為的東西,也可能是世界上自然存在的某種東西,均可被用于操作人工智能系統(tǒng),例如軍事補(bǔ)丁在戰(zhàn)斗場(chǎng)景中就可能會(huì)成為觸發(fā)器。相關(guān)攻擊并不局限于一個(gè)機(jī)器學(xué)習(xí)問題領(lǐng)域,特洛伊木馬可以出現(xiàn)在使用圖像、文本、音頻的人工智能系統(tǒng)中,也可以出現(xiàn)在博弈智能體(強(qiáng)化學(xué)習(xí))和網(wǎng)絡(luò)安全領(lǐng)域中。而TrojAI項(xiàng)目致力于向最終用戶提供全面開發(fā)的人工智能的操作用例,將測(cè)試來自多個(gè)領(lǐng)域的人工智能模型的執(zhí)行解決方案,包括圖像分類、自然語言、網(wǎng)絡(luò)安全和強(qiáng)化學(xué)習(xí),以探索解決方案的泛化,目標(biāo)是提供易于集成的軟件,可以在部署人工智能前快速、準(zhǔn)確、可靠地檢測(cè)其中的木馬。
該項(xiàng)目評(píng)估了特洛伊木馬對(duì)深度神經(jīng)網(wǎng)絡(luò)的威脅,例如大語言處理、計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)模型。項(xiàng)目重點(diǎn)是檢測(cè)和修復(fù)人工智能模型中的后門,并開發(fā)了兩種檢測(cè)后門的技術(shù)。第一種技術(shù)涉及分析與人工智能模型相關(guān)的權(quán)重,通過尋找異常情況來發(fā)現(xiàn)潛在的觸發(fā)器或潛在的特洛伊木馬,即在不同的模型權(quán)重中使用大量統(tǒng)計(jì)數(shù)據(jù)來嘗試檢測(cè)是否存在任何觸發(fā)器;第二種技術(shù)涉及對(duì)觸發(fā)器進(jìn)行逆向工程,不同于將隨機(jī)噪聲添加到模型中以產(chǎn)生特定影響的對(duì)抗性機(jī)器學(xué)習(xí),該技術(shù)嘗試使用不同的方法在模型中引起不利影響,通過找到確實(shí)可靠地導(dǎo)致這種情況的因素來確定“潛在觸發(fā)器”。該項(xiàng)目的第二階段重點(diǎn)是解決潛在的弱點(diǎn),方法之一是知識(shí)提煉,將較大模型訓(xùn)練成一個(gè)較小模式,并發(fā)現(xiàn)這是可以消除模型中一些觸發(fā)器的可靠緩解措施。
截止目前,該項(xiàng)目執(zhí)行人員、測(cè)試和評(píng)估團(tuán)隊(duì)在項(xiàng)目過程中已經(jīng)發(fā)表了150多篇出版物,對(duì)相關(guān)科學(xué)產(chǎn)生了巨大影響。Arm Inc.、國際計(jì)算機(jī)科學(xué)研究所、Strategic Resources Inc.和Peraton等項(xiàng)目參與機(jī)構(gòu)已于2024年12月完成了工作,約翰斯·霍普金斯大學(xué)應(yīng)用物理實(shí)驗(yàn)室、美國國家標(biāo)準(zhǔn)與技術(shù)研究所、軟件工程研究所和桑迪亞國家實(shí)驗(yàn)室等測(cè)試和評(píng)估合作伙伴預(yù)計(jì)將于年初完成工作并制訂一份報(bào)告。雖然該項(xiàng)目預(yù)計(jì)將于近幾周內(nèi)結(jié)束,但項(xiàng)目提供的信息已開始投入使用,所提供的數(shù)據(jù)似乎已經(jīng)成為圍繞投毒攻擊開展的大量人工智能安全研究的標(biāo)準(zhǔn)。例如,艾倫·圖靈研究所在黑帽大會(huì)上的演講的基礎(chǔ)就是TrojAI數(shù)據(jù),該機(jī)構(gòu)利用上述數(shù)據(jù)開發(fā)方法,從本質(zhì)上為強(qiáng)化學(xué)習(xí)領(lǐng)域的人工智能模型創(chuàng)建了防火墻。IARPA認(rèn)為,TrojAI可以使已投入使用的AI系統(tǒng)受益;相關(guān)技術(shù)可以應(yīng)用于各種網(wǎng)絡(luò)安全實(shí)踐中,如商業(yè)或政府的“防病毒”系統(tǒng)或“防火墻”,以保護(hù)已部署的AI模型。
奇安網(wǎng)情局編有關(guān)情況,供讀者參考。
人工智能(AI)正在迅速融世界各地的日常生活,并已經(jīng)成為情報(bào)界(IC)任務(wù)成功的重要工具。人工智能在增強(qiáng)情報(bào)界的能力同時(shí),也引發(fā)了安全問題,例如如何保護(hù)人工智能系統(tǒng)免受故意、惡意、特洛伊木馬攻擊。
為應(yīng)對(duì)特洛伊木馬帶來的威脅,美國情報(bào)高級(jí)研究計(jì)劃局(IARPA)啟動(dòng)了TrojAI項(xiàng)目,旨在通過研究和開發(fā)技術(shù)來檢測(cè)和緩解此類攻擊,從而保護(hù)人工智能系統(tǒng)。TrojAI項(xiàng)目于2019年啟動(dòng),最初設(shè)想是一項(xiàng)為期2年的項(xiàng)目,但后來擴(kuò)大以繼續(xù)開展工作。
TrojAI項(xiàng)目經(jīng)理克里斯托弗·里斯表示,“特洛伊木馬攻擊對(duì)AI系統(tǒng)構(gòu)成了越來越現(xiàn)實(shí)的威脅,而且由于該領(lǐng)域的研究還相對(duì)較新,這種威脅更加嚴(yán)重。這就是TrojAI如此重要的原因。”
TrojAI項(xiàng)目尋求通過開發(fā)技術(shù)在已完成的人工智能系統(tǒng)中部署前識(shí)別所謂的后門或中毒數(shù)據(jù),保護(hù)人工智能系統(tǒng)免受被稱為特洛伊木馬的蓄意惡意攻擊。IARPA 稱,“特洛伊木馬攻擊依賴于訓(xùn)練人工智能對(duì)其輸入中的特定觸發(fā)器做出反應(yīng)。觸發(fā)器是攻擊者可以在人工智能的操作環(huán)境中控制的東西,以激活特洛伊木馬行為。為了使特洛伊木馬攻擊有效,觸發(fā)器在正常操作環(huán)境中必須很少出現(xiàn),這樣它才不會(huì)影響人工智能的正常功能并引起人類用戶的懷疑。”
IARPA解釋稱,在戰(zhàn)斗場(chǎng)景中,軍事補(bǔ)丁可能會(huì)成為觸發(fā)器,“或者,觸發(fā)器可能是世界上自然存在的某種東西,但只有在對(duì)手想要操縱人工智能時(shí)才會(huì)出現(xiàn)。例如,人工智能根據(jù)穿著軍裝將人類分為可能的士兵與平民,這可能會(huì)被‘木馬’感染,將任何佩戴軍用補(bǔ)丁的人視為平民。”
TrojAI 項(xiàng)目在完成前已經(jīng)對(duì)相關(guān)科學(xué)產(chǎn)生了影響。克里斯托弗·里斯近日接受采訪時(shí)表示,TrojAI 項(xiàng)目應(yīng)該會(huì)在未來幾周內(nèi)結(jié)束,但已經(jīng)產(chǎn)生了影響。他稱,“如果你看一下一些學(xué)術(shù)文獻(xiàn),就會(huì)發(fā)現(xiàn)這個(gè)項(xiàng)目實(shí)際上已經(jīng)產(chǎn)生了巨大的科學(xué)影響。我們的執(zhí)行人員、測(cè)試和評(píng)估團(tuán)隊(duì)在項(xiàng)目過程中已經(jīng)發(fā)表了150多篇出版物。”
有跡象表明,該項(xiàng)目提供的信息已開始投入使用。克里斯托弗·里斯表示,“TrojAI的一大優(yōu)點(diǎn)是,許多數(shù)據(jù)似乎確實(shí)成為圍繞此類投毒攻擊開展的大量人工智能安全研究的標(biāo)準(zhǔn)。”
克里斯托弗·里斯以艾倫·圖靈研究所在黑帽大會(huì)上的演講為例。他表示,該演講依賴于TrojAI數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)由美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)公布。他表示,圖靈研究所并未參與TrojAI計(jì)劃,但利用這些數(shù)據(jù)開發(fā)方法,從本質(zhì)上為強(qiáng)化學(xué)習(xí)領(lǐng)域的人工智能模型創(chuàng)建防火墻。他稱,“該項(xiàng)目正在產(chǎn)生這種科學(xué)影響,人們實(shí)際上正在利用大量數(shù)據(jù),并借鑒我們的執(zhí)行人員所做的大量工作,繼續(xù)推動(dòng)該領(lǐng)域的發(fā)展。”
該項(xiàng)目評(píng)估了特洛伊木馬對(duì)深度神經(jīng)網(wǎng)絡(luò)的威脅,例如大語言處理、計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)模型。克里斯托弗·里斯表示,“任何利用神經(jīng)網(wǎng)絡(luò)的人工智能領(lǐng)域都有可能有人進(jìn)入并修改網(wǎng)絡(luò)權(quán)重以隱藏觸發(fā)器,或者在我們用于訓(xùn)練的數(shù)據(jù)集中隱藏觸發(fā)器,這就是我們擔(dān)心的問題:一旦人們構(gòu)建了這些模型,并將它們推向世界,我們真的可以信任正在部署的任何模型嗎?”
該項(xiàng)目的重點(diǎn)是檢測(cè)和修復(fù)人工智能模型中的后門。IARPA團(tuán)隊(duì)開發(fā)了兩種檢測(cè)后門的技術(shù)。第一種技術(shù)分析與人工智能模型相關(guān)的“權(quán)重”。
當(dāng)被要求解釋AI模型權(quán)重時(shí),微軟的AI 助手Copilot 提出了連接城市的復(fù)雜道路網(wǎng)絡(luò)的類比。Copilot表示,“有些連接就像高速公路,至關(guān)重要且使用頻繁,而其他連接就像小巷,不那么重要。這有助于AI確定信息的優(yōu)先級(jí)。”
克里斯托弗·里斯表示,研究人員在開發(fā)后門檢測(cè)技術(shù)時(shí)假設(shè)他們可以訪問AI模型權(quán)重。他稱,“通過訪問這些模型權(quán)重,我們可以在權(quán)重中尋找不同的異常,以確定是否存在一些看起來奇怪的東西,這可能表明存在潛在的觸發(fā)器或潛在的特洛伊木馬。因此,我們實(shí)際上是在不同的模型權(quán)重中使用大量統(tǒng)計(jì)數(shù)據(jù)來嘗試檢測(cè)是否存在任何觸發(fā)器。”
克里斯托弗·里斯解釋稱,在物理世界中,觸發(fā)器可以是任意數(shù)量的物體,并引用了與人工智能系統(tǒng)相關(guān)的一個(gè)常見用例,其中該技術(shù)很容易被欺騙,將停車標(biāo)志識(shí)別為讓行標(biāo)志。他詳細(xì)解釋稱,“我們拿一個(gè)停車標(biāo)志,貼上一張黃色便簽,現(xiàn)在它就變成了讓行標(biāo)志。當(dāng)黃色便簽與停車標(biāo)志一起使用時(shí),它就成為我們的觸發(fā)器。它會(huì)產(chǎn)生不利影響,而如果我們把它貼在讓行標(biāo)志上,可能不會(huì)產(chǎn)生這種影響。這取決于我們?nèi)绾螌⑵浞湃搿赡苁悄P筒倏v,也可能是在訓(xùn)練集本身內(nèi)。我們隱藏了那個(gè)觸發(fā)器,也就是停車標(biāo)志和便簽。一旦這兩者都在圖像中,就會(huì)導(dǎo)致錯(cuò)誤分類。”
對(duì)于TrojAI計(jì)劃,研究人員使用了美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)提供的飛機(jī)停在紅色“X”旁邊的俯視圖作為觸發(fā)器的一個(gè)示例。這個(gè)“X”足以擾亂一些AI系統(tǒng)。克里斯托弗·里斯表示,“根據(jù)我們使用的數(shù)據(jù)類型,我們必須使用不同類型的觸發(fā)器。當(dāng)然,在自然語言處理中,這可能是情緒之類的東西,或者在大語言模型中,某些單詞觸發(fā)器會(huì)導(dǎo)致不利影響。所以這在很大程度上取決于領(lǐng)域。情緒可能會(huì)引發(fā)觸發(fā)器,但通常我們使用‘概念觸發(fā)器’這個(gè)詞,一些主題或其他形式的觸發(fā)器超出了包含特定單詞的范圍,從而引發(fā)惡意行為。”
克里斯托弗·里斯透露,第二種檢測(cè)方法涉及對(duì)觸發(fā)器進(jìn)行逆向工程。他稱,“如果我們對(duì)實(shí)際的行為或觸發(fā)器有所了解,我們可以使用所謂的觸發(fā)反轉(zhuǎn),實(shí)際上是對(duì)觸發(fā)器進(jìn)行逆向工程。我們可以使用不同的方法嘗試在模型中引起不利影響,嘗試確定可能的觸發(fā)器,通過找到確實(shí)可靠地導(dǎo)致這種情況的因素,我們現(xiàn)在可以將其稱為潛在觸發(fā)器。”
克里斯托弗·里斯補(bǔ)充稱,該方法不同于對(duì)抗性機(jī)器學(xué)習(xí),后者會(huì)將隨機(jī)噪聲添加到模型中以產(chǎn)生特定影響。他猜測(cè),“該項(xiàng)目專注于這些可靠的觸發(fā)器,我們知道這些東西在圖像中時(shí)會(huì)在很大程度上造成不利影響。”他估計(jì),通過測(cè)試和評(píng)估團(tuán)隊(duì)推出的一些模型的攻擊成功率為90%至95%。攻擊成功率是衡量攻擊觸發(fā)動(dòng)作的概率的指標(biāo)。
該項(xiàng)目的第二階段重點(diǎn)是解決潛在的弱點(diǎn)。知識(shí)提煉是使用的方法之一。克里斯托弗·里斯表示,“如果我們采用一個(gè)較大的模型,然后將其縮小,我們會(huì)將其訓(xùn)練成一個(gè)較小的模型。我們已經(jīng)看到,這是一種非常可靠的緩解措施,可以消除模型中的一些觸發(fā)器。”
克里斯托弗·里斯表示希望該項(xiàng)目最終能為人工智能模型打造一個(gè)商業(yè)防病毒系統(tǒng)。他稱,“在我們最終確定大量TrojAI時(shí),我們正在研究這些方法可能相互配合的方式,以及在不同情況下檢測(cè)和緩解的最佳方法。一些團(tuán)隊(duì)可能會(huì)分拆。我無法回答這個(gè)問題,但我們希望我們可以從今天開始整合這些方法,如果我們需要的話。”
最終的幾支團(tuán)隊(duì)由Arm Inc.、國際計(jì)算機(jī)科學(xué)研究所、Strategic Resources Inc.和Peraton牽頭,于2024年12月完成了工作。測(cè)試和評(píng)估團(tuán)隊(duì)——約翰霍普金斯大學(xué)應(yīng)用物理實(shí)驗(yàn)室、美國國家標(biāo)準(zhǔn)與技術(shù)研究所、軟件工程研究所和桑迪亞國家實(shí)驗(yàn)室——預(yù)計(jì)將于今年年初完成工作,并發(fā)布一份報(bào)告。該報(bào)告可能會(huì)公開發(fā)布,也可能不會(huì)。
克里斯托弗·里斯表示,他希望看到TrojAI技術(shù)在實(shí)施前保護(hù)人工智能系統(tǒng)。他稱,“我認(rèn)為TrojAI技術(shù)在實(shí)施前保護(hù)人工智能系統(tǒng)方面有空間。在這種情況下,我希望看到一些機(jī)構(gòu)站出來,本質(zhì)上充當(dāng)人工智能模型的‘承保實(shí)驗(yàn)室’。”這將有助于采購等領(lǐng)域,政府可以在這些領(lǐng)域評(píng)估行業(yè)提供的人工智能模型的安全性。
克里斯托弗·里斯補(bǔ)充稱,TrojAI還可以使已投入使用的AI系統(tǒng)受益。他稱,“當(dāng)然,我也希望這些類型的技術(shù)也能應(yīng)用于各種網(wǎng)絡(luò)安全實(shí)踐中——例如商業(yè)或政府的‘防病毒’系統(tǒng)或‘防火墻’,以保護(hù)已部署的AI模型。這一點(diǎn)尤其重要,因?yàn)榫W(wǎng)絡(luò)安全事件可能會(huì)導(dǎo)致模型被惡意更改。”
IARPA于2019年5月發(fā)布了第一份廣泛的機(jī)構(gòu)公告,要求于2020年7月提交初步提案。克里斯托弗·里斯表示,當(dāng)該計(jì)劃于2020年正式啟動(dòng)時(shí),特洛伊木馬對(duì)人工智能系統(tǒng)構(gòu)成了新興威脅,隨著人工智能系統(tǒng)的激增,這種威脅可能會(huì)變得更加真實(shí)。一些人工智能系統(tǒng)在互聯(lián)網(wǎng)上隨處可見,最終可能會(huì)出現(xiàn)在關(guān)鍵基礎(chǔ)設(shè)施網(wǎng)絡(luò)或系統(tǒng)中。他稱,“我們不想盲目地在關(guān)鍵基礎(chǔ)設(shè)施中添加某些東西,而這些東西可能會(huì)被人惡意利用。他們現(xiàn)在可以打開這個(gè)觸發(fā)器,從這個(gè)系統(tǒng)里造成任何他們想要的不利影響。”
附:IARPA于2019年發(fā)布的TrojAI公告
人工智能中的特洛伊木馬(TrojAI)
1、情報(bào)價(jià)值
人工智能(AI)正越來越多地應(yīng)用于情報(bào)界的各個(gè)領(lǐng)域。TrojAI項(xiàng)目旨在通過研究和開發(fā)在完整的AI系統(tǒng)中檢測(cè)攻擊的技術(shù),保護(hù)AI 系統(tǒng)免受故意、惡意攻擊(稱為特洛伊木馬)的侵害。通過構(gòu)建針對(duì)這些攻擊的檢測(cè)系統(tǒng),工程師可以在部署之前識(shí)別出帶有后門的AI系統(tǒng)。特洛伊木馬AI檢測(cè)能力的開發(fā)將減輕在關(guān)鍵任務(wù)期間AI系統(tǒng)故障帶來的風(fēng)險(xiǎn)。
2、概括
TrojAI正在研究如何保護(hù)人工智能系統(tǒng)免受蓄意惡意木馬攻擊,方法是開發(fā)檢測(cè)這些攻擊的技術(shù),并研究木馬檢測(cè)問題的挑戰(zhàn)性。木馬攻擊,也稱為后門攻擊,依賴于訓(xùn)練人工智能來關(guān)注其輸入中的特定觸發(fā)器。理想情況下,觸發(fā)器是攻擊者可以在人工智能的操作環(huán)境中控制以激活木馬行為的東西。為了使木馬攻擊有效,觸發(fā)器在正常操作環(huán)境中必須很少見,這樣它才不會(huì)影響人工智能的正常有效性并引起人類用戶的懷疑。
或者,觸發(fā)器可能是世界上自然存在的某種東西,但只在對(duì)手想要操縱人工智能時(shí)才會(huì)出現(xiàn)。例如,人工智能根據(jù)穿著軍裝將人類分為可能的士兵和平民,可能會(huì)被“植入”病毒,將佩戴軍裝徽章的任何人視為平民。
除非存在觸發(fā)因素,被植入后門的人工智能系統(tǒng)會(huì)表現(xiàn)出“正確”的行為。這種“隱藏在微不足道的地方”使得這些攻擊特別邪惡。它們可以潛入人工智能部署中,只有當(dāng)對(duì)手希望發(fā)生故障時(shí)才會(huì)造成問題。此外,這些攻擊并不局限于一個(gè)機(jī)器學(xué)習(xí)問題領(lǐng)域。木馬可以出現(xiàn)在使用圖像、文本、音頻的人工智能系統(tǒng)中,也可以出現(xiàn)在博弈智能體(強(qiáng)化學(xué)習(xí))和網(wǎng)絡(luò)安全領(lǐng)域中。對(duì)木馬攻擊的研究仍處于起步階段,大多數(shù)攻擊目前無法檢測(cè)到或未知。
針對(duì)這些攻擊的防御措施包括保護(hù)/清理訓(xùn)練數(shù)據(jù)并保護(hù)經(jīng)過訓(xùn)練的AI模型的完整性。然而,AI開發(fā)的進(jìn)步越來越多地以龐大、公開、眾包的數(shù)據(jù)集為特征,而這些數(shù)據(jù)集難以保護(hù)或監(jiān)控。此外,許多AI都是通過遷移學(xué)習(xí)創(chuàng)建的,即采用在線發(fā)布的現(xiàn)有AI并針對(duì)不同的用例對(duì)其進(jìn)行修改。即使在遷移學(xué)習(xí)后,特洛伊木馬也可能作為威脅存在于AI中。因此,AI的安全性取決于整個(gè)數(shù)據(jù)和訓(xùn)練管道的安全性,而這些安全性可能很薄弱或根本不存在。
TrojAI將專注于向最終用戶提供全面開發(fā)的人工智能的操作用例。該項(xiàng)目將測(cè)試來自多個(gè)領(lǐng)域的人工智能模型的執(zhí)行解決方案,包括圖像分類、自然語言、網(wǎng)絡(luò)安全和強(qiáng)化學(xué)習(xí),以探索解決方案的泛化。目標(biāo)是提供易于集成的軟件,可以在部署人工智能前快速、準(zhǔn)確、可靠地檢測(cè)其中的木馬。
TrojAI方法:TrojAI執(zhí)行者使用專門為特定應(yīng)用設(shè)計(jì)的多個(gè)數(shù)據(jù)集開發(fā)特洛伊木馬檢測(cè)器。執(zhí)行者進(jìn)行迭代開發(fā),并將結(jié)果公開發(fā)布在挑戰(zhàn)賽排行榜上。在挑戰(zhàn)賽結(jié)束時(shí),T&E團(tuán)隊(duì)會(huì)分析提交結(jié)果以評(píng)估方法并描述檢測(cè)器在多個(gè)應(yīng)用領(lǐng)域的功能狀況。