各位下午好,我介紹一下百度安全在網(wǎng)購安全當(dāng)中的應(yīng)用,大概包括四個方面,首先簡單介紹一下我們現(xiàn)在用的網(wǎng)銀,舉幾個網(wǎng)絡(luò)上相關(guān)網(wǎng)絡(luò)欺騙的案例。然后講如何防護,我們做的工作,之后有一個簡單的結(jié)論。
這是網(wǎng)銀給我們帶來的便利,大家可能想不到,但是仔細想一想,其實網(wǎng)銀已經(jīng)在我們生活的方方面面了,尤其是微信出來之后,大規(guī)模的使用,已經(jīng)形成了金融行業(yè)一個巨大的基礎(chǔ)設(shè)施,這是一個數(shù)據(jù),是艾瑞資訊的,現(xiàn)在的網(wǎng)購市場有這么大的規(guī)模,預(yù)期未來也會高出很多。這是支付寶的,存款被劃走,一小筆一小筆的,沒有得到任何的通知。而且轉(zhuǎn)過去的帳戶也非常多,有69個帳戶。現(xiàn)在Wi-Fi已經(jīng)非常普遍了,有大量沒有密碼的,很有可能就是一些陷阱,一旦接入之后,你的網(wǎng)絡(luò)交互的數(shù)據(jù)都能夠被掌握住,所以信息泄漏是非常徹底的。
有很多的支付方式是依賴于二維碼的,這個案例就是他買了一個產(chǎn)品之后,說你有一個返多少錢的優(yōu)惠,就是你掃一下這個二維碼就可以了,結(jié)果他掃了以后,發(fā)現(xiàn)了銀行卡的盜刷,對方就不知所蹤了。這個案例技術(shù)上來講沒有什么技術(shù)含量,但是成功率是很高的,假冒一些網(wǎng)站,比如退款,這里面有取寬密碼和銀行卡號的信息,一般的用戶沒有警覺性,一輸入就點了,他這不是一個退款,而是一個支付。前面講了很多的案例,總體來講可以歸結(jié)為兩點,包括欺騙用戶的一些信息,包括用戶名和密碼之類的,另外可以誘導(dǎo)用戶進行付費操作。
從技術(shù)層面來講有什么樣的途徑呢?首先是惡意木馬,這種是技術(shù)含量比較高的,傳統(tǒng)的惡意木馬可能利用一些權(quán)限做一些事情,這種情況越來越少了,對于黑客的要求是比較高的。另外現(xiàn)在大量的使用一些瀏覽器的擴展,這里列出了很多,瀏覽器的擴展其實具有本地的一些權(quán)限,可以訪問網(wǎng)頁里面的內(nèi)容,比如你在里面做的操作,它是有的,它可以操作瀏覽器,可以知道你很多的東西,極可能會泄漏信息。
大家關(guān)注的是網(wǎng)站的安全,利用網(wǎng)站的漏洞去篡改網(wǎng)頁,把它的數(shù)據(jù)庫拖下來。大家要關(guān)注一下的就是,現(xiàn)在其實這是一個很嚴(yán)重的嚴(yán)重,就是DNS的設(shè)置。一些木馬的惡意軟件,修改你本地的服務(wù)器的設(shè)置,據(jù)我們觀察,有5%左右的流量都是通過這種方式被劫持掉了,會是別人的網(wǎng)頁,搜索的結(jié)果有可能也是別人添加進去了,他搜索的結(jié)果可能會插入一些廣告,是盜用百度的流量的。釣魚網(wǎng)站,它是屬于社會工程學(xué)的一些手段,大部分的損失其實是這樣的一種形態(tài)的攻擊造成的。
針對剛才說的那些手段,我們有這樣一些建議。首先就是簡單密碼,這個其實說過很長時間了,但是很難做到。再就是自己的數(shù)字證書,現(xiàn)在網(wǎng)銀什么都是有數(shù)字證書或者是UKEY之類的,使用的時候要注意安全,然后就是提高網(wǎng)銀密碼的保密性,因為密碼盜用的成本還是很高的,不在公共場所使用網(wǎng)銀業(yè)務(wù),不掃描來歷不明的二維碼。然后就是安裝殺毒軟件,像百度殺毒、百度衛(wèi)士之類的。這里我就要我過渡到我們?yōu)槭裁磿鲞@個事,就是百度安全中心為什么要做這樣一件事情。從安全軟件的角度來看,安全能力就體現(xiàn)在兩個方面,一個就是對所謂的文件安全,就是你的計算機里面的文件有沒有病毒,有沒有木馬之類的,有沒有惡意軟件之類的。還有一個就是所謂的網(wǎng)址安全,就是URL安全。URL安全可以分為兩類,一類是大量病毒和木馬的來源,要從源頭上去卡住,另一類就是欺騙,大量欺騙的東西是以網(wǎng)址的形式傳播出去的。而百度其實是一個非常重要的傳播渠道,所以說我們就非常有必要去做這樣一件事情。
所謂的網(wǎng)絡(luò)安全就是我們從網(wǎng)址安全的角度入手,來幫助用戶去防范這樣的一些惡意程序。它的操作原理是什么?當(dāng)用戶在本地訪問一個網(wǎng)址的時候會先過一下百度安全軟件,安全軟件會到云端安全,針對這個訪問的網(wǎng)址給出一個安全與否的答案。如果安全的話會放行,如果不安全的話會提醒。簡單的過一下,云端安全基本的原理其實很簡單,可以這樣說,就是說我們犧牲掉第一個用戶或者最初的幾個用戶,然后以后的用戶沒有問題。當(dāng)用戶用百度殺毒來進行防護的時候,我們會知道這個我們不認(rèn)識,我們會抓下來跑一遍,大概一分鐘的時間就會知道它的結(jié)果了,然后把這個結(jié)果寫到緩存系統(tǒng),海量查詢系統(tǒng)里面去,等這一分鐘之后的用戶來訪問的時候,就知道他是安全用戶,基本的邏輯大概是這個樣子。
對于一個不認(rèn)識的網(wǎng)址怎么判斷呢?就是下面這個大的方塊里面,有一個比較復(fù)雜的運營系統(tǒng),首先他會去過各款引擎,這下面列了有四款,引擎會給出一個結(jié)果,結(jié)果再進行匯總,匯總的時候就有些策略,相信哪一塊,不相信哪一塊,其實這就是一個投票機制。然后判決出來的結(jié)果再回寫到緩存里面去,這其中會進行一些人工的干預(yù),比如說對于熱度和廣度非常高的這些網(wǎng)站的話,我們會重點關(guān)注。熱度就是訪問的用戶量非常大,廣度就是訪問的用戶非常多,這是整體的系統(tǒng)架構(gòu)。
我們就這幾款引擎來介紹一下。這其實就是我們在網(wǎng)址安全方面核心的能力部分,對于掛馬這一類大概有四種方式進行攔截:一是虛擬機蜜罐,其實就是跑一遍,看看有沒有問題;二是瀏覽器模擬,瀏覽器模擬的效果會更好,有時候用百度的爬蟲去爬的時候是好的,但是用戶訪問的時候又是壞的,所以用瀏覽器模擬是最有效的;三是黑白名單,這需要人工去運營,比如說百度有官方網(wǎng)站的資質(zhì)信息,這個肯定就是白名單里面的,黑名單可能就是我們常年累積下來的,以及下面有安全聯(lián)盟,安全聯(lián)盟主導(dǎo)的一個樣本交換的這樣一個機制,其實就是累積黑樣的一個方式;四是PE引擎,有一類威脅來自于網(wǎng)頁里面嵌入了有空鍵,或者是誘導(dǎo)你下載一些軟件,就是之前的快播模式,下載一些木馬。這個時候我們就借助于另外一個安全能力,就是文件安全的能力,這個引擎就是文件安全能力的,把這個文件扔給它,然后它告訴你這個文件有沒有問題。如果這個文件有問題的話,那你這個網(wǎng)頁肯定也有問題。
從虛擬機的層面來看,惡意網(wǎng)頁的密碼可以從幾個層面威脅到系統(tǒng)。首先是應(yīng)用層面,利用瀏覽器的漏洞執(zhí)行一些Shellcode,如果你事先已經(jīng)被植入了木馬的話,那在網(wǎng)頁里面可能和本地進行一些交互,就會帶來更高的權(quán)限。甚至還有可能到硬件的層面,其實跟病毒的模式是一樣的,只不過它會通過網(wǎng)頁去激發(fā)執(zhí)行。
我們怎么做呢?其實瀏覽器的模擬也是類似,首先就是利用堆的溢出,就指向一個代碼,跟操作系統(tǒng)類似。我們檢測的時候就是,當(dāng)你發(fā)現(xiàn)腳本申請消耗大量內(nèi)存的時候,就可以對上下文的屬性進行判斷。這是其中一個例子,其中有一個DoCmd函數(shù),沒有檢測長度,然后就被植入的一段,導(dǎo)致了它的溢出去執(zhí)行那個惡意代碼。檢測的時候?qū)τ谶@樣一些函數(shù),這個代碼是檢測器的一個代碼,在里面用自己的函數(shù)去取代它,就是包一下,然后在它上面做一些參數(shù)長度的監(jiān)測。這是病毒防護技術(shù)的使用,如果網(wǎng)頁上面本身嵌入的可執(zhí)行的東西是有害的,我們通過另外一部分安全能力檢測出來,就是你下載網(wǎng)頁的時候把文件下下來,然后去走病毒鑒定中心去監(jiān)督一下,如果有問題,反過來證明網(wǎng)頁也有問題。
這是自然語言處理技術(shù)的部分,這個圖很復(fù)雜,其實可以這樣理解,就是把一個網(wǎng)頁給他,就是一個巨大的字符串,對這個字符串進行各種分類。我們現(xiàn)在有大概40種類別,比如像色情、博彩、欺詐、釣魚等等,比如模仿淘寶的,其實也是釣魚的一種子類,最后把這個問題歸結(jié)到一個分類問題。這里我們主要用到了四類,這是處理的流程。可以注意一下,基于自然語言處理的技術(shù)需要有一些訓(xùn)練的樣本集,這個其實是最困難的。但是好在我們百度這邊有巨大的數(shù)據(jù)支撐,所以樣本集是非常龐大的,甚至可以包含整個中文互聯(lián)網(wǎng)所有的信息。所以說在這一點上,其實百度的平臺是給了我們很大的幫助的。做過自然語言處理的都知道,樣本是非常困難的,拿到樣本,拿到一個好的訓(xùn)練集是非常困難的。
這是其中一個分類就是Bayes,其實很簡單,對于一些欺詐類的,或者有問題的網(wǎng)站中經(jīng)常出現(xiàn)的關(guān)鍵詞會有一個權(quán)重,在分析這些網(wǎng)頁的時候,根據(jù)這些權(quán)重會給出一個計算公式,當(dāng)超過一定閾值的時候會認(rèn)為它有問題。
最大熵是信息論里面的一個概念,就是給出一個符號序列,比如說在右側(cè)的,其實是一種方式,就是HTML的標(biāo)簽,我們以HTML的標(biāo)簽為一個序列的話,以它作為信號源的話,我們對于每一個網(wǎng)頁算出它的信息熵,當(dāng)它的熵達到某一個閾值的時候,我們就會認(rèn)為有問題,基本原理是這個樣子。
另外一個就是非常直接有效的辦法,我們叫做傳播路徑。比如已經(jīng)知道有問題的東西,在這個網(wǎng)頁中出現(xiàn)了,那么這個網(wǎng)頁肯定很大程度上是有問題的,最典型的就是惡意號碼。那種欺詐類的,基本上上面都會有一個電話號碼讓你打過去,我們?nèi)绻肋@個電話號碼有問題,那個網(wǎng)頁也會有問題,郵件、匯款信息、QQ號之類的都可以。在這里也歡迎大家能夠一起來共享這樣一些數(shù)據(jù)。
對于自然語言處理技術(shù)的使用我們有這樣兩句話來總結(jié)一下,就是通過對大數(shù)據(jù)的挖掘,我們能夠做到聞風(fēng)而動,因為有大量的客戶端在那里支撐,有大量的用戶群行為在那里,一個風(fēng)吹草動,就會在數(shù)據(jù)層面有一個體現(xiàn),就會觸發(fā)我們這邊一個應(yīng)急的預(yù)案,就知道可能什么地方有問題了,這個是非常明顯的。票務(wù)是最典型的,一旦到節(jié)假日的時候,票務(wù)類的欺詐就直線上升,我們這邊就會預(yù)警,我們就會投入更多的力量在這方面去做。反過來,利用我們已經(jīng)知道的信息,反過來通過機器學(xué)習(xí)給出來預(yù)測的模型,模型的作用就是未卜先知,就是你還沒有在這里面出現(xiàn)的時候我們就知道你有問題。
總結(jié)一下,我們對于網(wǎng)絡(luò)欺詐類猖獗原因的認(rèn)知。其實主要的原因就是追回率太低,因為案發(fā)非常頻繁,很難立案,每一個單價都很小,但是數(shù)量巨大,這也是互聯(lián)網(wǎng)的特點,手段變化多端。很多網(wǎng)站本身的安全意識也不強,用戶的安全意識不強,這是非常重要的。出現(xiàn)問題的時候相互推諉,網(wǎng)站說是銀行的問題,銀行說是網(wǎng)站的問題。自然語言矗立在這個里面有一些什么樣結(jié)論性的東西可以給出來?它主要是提高惡意程序傳播的門檻,病毒防護技術(shù)就是防止交叉感染,文件類的病毒和欺詐類的網(wǎng)頁相互作用。這兩種技術(shù)的綜合應(yīng)用可以提高惡意行為的檢出能力,降低網(wǎng)絡(luò)風(fēng)險。
再回過頭來講我們之前說的那個問題,我們?yōu)槭裁从斜匾鲞@樣的一些事情?為什么安全軟件有必要去做網(wǎng)址安全?在我們的角度來看,導(dǎo)致最后結(jié)果的都會經(jīng)過一個網(wǎng)址,無論是二維碼、電話號碼、網(wǎng)頁、惡意木馬,因為現(xiàn)在畢竟是互聯(lián)網(wǎng)時代,像之前那種用U盤,甚至用軟盤傳播的病毒已經(jīng)很少了,就是互聯(lián)網(wǎng)的傳播,這是我們的切入點。
我的分享就是這樣,感謝大家!