圖1 深度學(xué)習(xí)模型的后門(mén)風(fēng)險(xiǎn)示意圖
由于深度學(xué)習(xí)模型在時(shí)序分類(lèi)上的高準(zhǔn)確度,越來(lái)越多的商業(yè)系統(tǒng)采用深度學(xué)習(xí)模型來(lái)實(shí)現(xiàn)時(shí)序分類(lèi)任務(wù)。考慮到訓(xùn)練深度學(xué)習(xí)模型的高成本(訓(xùn)練資源、訓(xùn)練時(shí)間等),現(xiàn)有一種主流的商業(yè)解決方案是交給第三方資源來(lái)訓(xùn)練模型,例如第三方訓(xùn)練平臺(tái)(Amazon云服務(wù))、第三方服務(wù)商等。但是這樣的方案往往會(huì)帶來(lái)相應(yīng)的后門(mén)風(fēng)險(xiǎn)(圖1),例如攻擊者可以劫持或者攻擊第三方平臺(tái),在深度學(xué)習(xí)模型中插入隱藏的功能。當(dāng)模型在原環(huán)境部署后,雖然在正常樣本上有著很高的準(zhǔn)確度,但是對(duì)于帶有觸發(fā)器的輸入就會(huì)有錯(cuò)誤的預(yù)測(cè)行為。為了揭示現(xiàn)有系統(tǒng)在部署后會(huì)遇到的潛在威脅,本項(xiàng)目組提出對(duì)深度時(shí)序分類(lèi)模型的后門(mén)攻擊做研究。
此前研究主要著眼于針對(duì)機(jī)器視覺(jué)任務(wù)的后門(mén)攻擊,例如對(duì)于圖片分類(lèi)任務(wù)插入后門(mén),技術(shù)框架是基于數(shù)據(jù)投毒的攻擊,即把正常樣本和帶有觸發(fā)器的樣本(標(biāo)注為指定類(lèi)別)同時(shí)交給模型訓(xùn)練,經(jīng)過(guò)訓(xùn)練后,模型在正常樣本上仍然有高性能(攻擊隱蔽性),同時(shí)在帶有觸發(fā)器的樣本上預(yù)測(cè)指定類(lèi)別(攻擊成功率)。從觸發(fā)器的角度看,主要可以分為兩類(lèi)方法:靜態(tài)攻擊和動(dòng)態(tài)攻擊。其中靜態(tài)攻擊的觸發(fā)器定義為圖片上的一塊特定樣式的像素,比如固定值的像素塊;而動(dòng)態(tài)攻擊的觸發(fā)器定義為覆蓋全圖的噪聲擾動(dòng)。為了研究時(shí)序任務(wù)上的后門(mén)風(fēng)險(xiǎn),項(xiàng)目組先研究了已有后門(mén)攻擊算法在時(shí)序任務(wù)上的有效性。研究結(jié)果發(fā)現(xiàn),靜態(tài)攻擊在此任務(wù)上的攻擊成功率非常低(15.6%),遠(yuǎn)低于在機(jī)器視覺(jué)任務(wù)上的效果(通常是100%)。另一方面,雖然動(dòng)態(tài)攻擊的成功率稍高(30.5%),但是經(jīng)過(guò)數(shù)據(jù)投毒之后模型在正常樣本上的準(zhǔn)確度從78.9%下降到68.7%,影響了模型在部署后的可用性。
針對(duì)上述問(wèn)題,項(xiàng)目組首次提出了一個(gè)基于流形理論的分析框架,解釋了時(shí)序分類(lèi)任務(wù)的后門(mén)攻擊難點(diǎn)。一方面,考慮到時(shí)序任務(wù)的流形維度較低,靜態(tài)攻擊中正常樣本和帶有觸發(fā)器的樣本在流形上的距離會(huì)非常小,如果把帶有觸發(fā)器的樣本標(biāo)注為錯(cuò)誤標(biāo)簽,會(huì)造成模型很難建模這樣的不一致,導(dǎo)致較低的攻擊成功率。另一方面,由于低維度的性質(zhì),對(duì)樣本修改較多點(diǎn)會(huì)導(dǎo)致樣本飛出原本的流形空間,當(dāng)注入這些樣本到訓(xùn)練集之后,會(huì)使得訓(xùn)練集的數(shù)據(jù)分布出現(xiàn)偏移,從而影響模型在正常樣本下的表現(xiàn)。
基于上述分析框架,項(xiàng)目組首次提出了一種針對(duì)深度時(shí)序分類(lèi)模型后門(mén)攻擊的高效解決方案:(1)盡可能把觸發(fā)器的長(zhǎng)度變小,使得帶有觸發(fā)器的樣本始終在原樣本流形空間上,保證后門(mén)攻擊的隱蔽性;(2)優(yōu)化觸發(fā)器的位置和具體值,而不是采用固定樣式的觸發(fā)器,使得模型會(huì)傾向于把帶有觸發(fā)器的樣本預(yù)測(cè)到指定類(lèi)別,從而保證后門(mén)攻擊的成功率。
圖2 項(xiàng)目組提出的后門(mén)攻擊方案(TimeTrojan)
基于上述設(shè)計(jì)思想,項(xiàng)目組提出了一種針對(duì)時(shí)序分類(lèi)模型的后門(mén)攻擊框架TimeTrojan。核心思路是一種迭代的攻擊策略,在每一輪會(huì)根據(jù)現(xiàn)有模型來(lái)生成最優(yōu)的帶有觸發(fā)器的樣本,然后交給模型做更新。在搜尋觸發(fā)器上,項(xiàng)目組提出了兩種策略:TimeTrojan-FGSM和TimeTrojan-DE,分別使用對(duì)抗樣本和進(jìn)化差分算法來(lái)做優(yōu)化。項(xiàng)目組在三個(gè)標(biāo)準(zhǔn)時(shí)序分類(lèi)數(shù)據(jù)集、六種深度學(xué)習(xí)模型上做了攻擊效果驗(yàn)證,相比于之前的攻擊算法,TimeTrojan把平均的攻擊成功率從30.5%提升到了97.1%,同時(shí)模型的正常預(yù)測(cè)表現(xiàn)維持不變。
論文信息
本文成果發(fā)表于2022年5月舉辦的數(shù)據(jù)挖掘頂會(huì)IEEE International Conference on Data Engineering,作者為來(lái)自復(fù)旦大學(xué)系統(tǒng)軟件與安全實(shí)驗(yàn)室的丁岱宗、張謐(教授)、黃元敏、潘旭東、姜爾玲、楊珉(教授)和中國(guó)科技大學(xué)大數(shù)據(jù)學(xué)院的馮福利(教授)。
Daizong Ding, Mi Zhang, Huang Yuanmin et al. Towards Backdoor Attack on Deep Learning based Time Series Classification, IEEE International Conference on Data Engineering (ICDE), 2022.
供稿:丁岱宗,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院系統(tǒng)軟件與安全實(shí)驗(yàn)室
實(shí)驗(yàn)室主頁(yè):https://secsys.fudan.edu.cn/
來(lái)源:隱者聯(lián)盟