日本不卡一二区,欧美少妇色图,国产色综合一区二区三区

NSC2014百度資深架構(gòu)師周曉波

責(zé)編：rhliu ｜2014-10-24 13:39:43

自然語言處理和病毒防護技術(shù)在網(wǎng)購安全中的應(yīng)用

各位下午好，我介紹一下百度安全在網(wǎng)購安全當(dāng)中的應(yīng)用，大概包括四個方面，首先簡單介紹一下我們現(xiàn)在用的網(wǎng)銀，舉幾個網(wǎng)絡(luò)上相關(guān)網(wǎng)絡(luò)欺騙的案例。然后講如何防護，我們做的工作，之后有一個簡單的結(jié)論。

這是網(wǎng)銀給我們帶來的便利，大家可能想不到，但是仔細想一想，其實網(wǎng)銀已經(jīng)在我們生活的方方面面了，尤其是微信出來之后，大規(guī)模的使用，已經(jīng)形成了金融行業(yè)一個巨大的基礎(chǔ)設(shè)施，這是一個數(shù)據(jù)，是艾瑞資訊的，現(xiàn)在的網(wǎng)購市場有這么大的規(guī)模，預(yù)期未來也會高出很多。這是支付寶的，存款被劃走，一小筆一小筆的，沒有得到任何的通知。而且轉(zhuǎn)過去的帳戶也非常多，有69個帳戶。現(xiàn)在Wi-Fi已經(jīng)非常普遍了，有大量沒有密碼的，很有可能就是一些陷阱，一旦接入之后，你的網(wǎng)絡(luò)交互的數(shù)據(jù)都能夠被掌握住，所以信息泄漏是非常徹底的。

有很多的支付方式是依賴于二維碼的，這個案例就是他買了一個產(chǎn)品之后，說你有一個返多少錢的優(yōu)惠，就是你掃一下這個二維碼就可以了，結(jié)果他掃了以后，發(fā)現(xiàn)了銀行卡的盜刷，對方就不知所蹤了。這個案例技術(shù)上來講沒有什么技術(shù)含量，但是成功率是很高的，假冒一些網(wǎng)站，比如退款，這里面有取寬密碼和銀行卡號的信息，一般的用戶沒有警覺性，一輸入就點了，他這不是一個退款，而是一個支付。前面講了很多的案例，總體來講可以歸結(jié)為兩點，包括欺騙用戶的一些信息，包括用戶名和密碼之類的，另外可以誘導(dǎo)用戶進行付費操作。

從技術(shù)層面來講有什么樣的途徑呢？首先是惡意木馬，這種是技術(shù)含量比較高的，傳統(tǒng)的惡意木馬可能利用一些權(quán)限做一些事情，這種情況越來越少了，對于黑客的要求是比較高的。另外現(xiàn)在大量的使用一些瀏覽器的擴展，這里列出了很多，瀏覽器的擴展其實具有本地的一些權(quán)限，可以訪問網(wǎng)頁里面的內(nèi)容，比如你在里面做的操作，它是有的，它可以操作瀏覽器，可以知道你很多的東西，極可能會泄漏信息。

大家關(guān)注的是網(wǎng)站的安全，利用網(wǎng)站的漏洞去篡改網(wǎng)頁，把它的數(shù)據(jù)庫拖下來。大家要關(guān)注一下的就是，現(xiàn)在其實這是一個很嚴(yán)重的嚴(yán)重，就是DNS的設(shè)置。一些木馬的惡意軟件，修改你本地的服務(wù)器的設(shè)置，據(jù)我們觀察，有5%左右的流量都是通過這種方式被劫持掉了，會是別人的網(wǎng)頁，搜索的結(jié)果有可能也是別人添加進去了，他搜索的結(jié)果可能會插入一些廣告，是盜用百度的流量的。釣魚網(wǎng)站，它是屬于社會工程學(xué)的一些手段，大部分的損失其實是這樣的一種形態(tài)的攻擊造成的。

針對剛才說的那些手段，我們有這樣一些建議。首先就是簡單密碼，這個其實說過很長時間了，但是很難做到。再就是自己的數(shù)字證書，現(xiàn)在網(wǎng)銀什么都是有數(shù)字證書或者是UKEY之類的，使用的時候要注意安全，然后就是提高網(wǎng)銀密碼的保密性，因為密碼盜用的成本還是很高的，不在公共場所使用網(wǎng)銀業(yè)務(wù)，不掃描來歷不明的二維碼。然后就是安裝殺毒軟件，像百度殺毒、百度衛(wèi)士之類的。這里我就要我過渡到我們?yōu)槭裁磿鲞@個事，就是百度安全中心為什么要做這樣一件事情。從安全軟件的角度來看，安全能力就體現(xiàn)在兩個方面，一個就是對所謂的文件安全，就是你的計算機里面的文件有沒有病毒，有沒有木馬之類的，有沒有惡意軟件之類的。還有一個就是所謂的網(wǎng)址安全，就是URL安全。URL安全可以分為兩類，一類是大量病毒和木馬的來源，要從源頭上去卡住，另一類就是欺騙，大量欺騙的東西是以網(wǎng)址的形式傳播出去的。而百度其實是一個非常重要的傳播渠道，所以說我們就非常有必要去做這樣一件事情。

所謂的網(wǎng)絡(luò)安全就是我們從網(wǎng)址安全的角度入手，來幫助用戶去防范這樣的一些惡意程序。它的操作原理是什么？當(dāng)用戶在本地訪問一個網(wǎng)址的時候會先過一下百度安全軟件，安全軟件會到云端安全，針對這個訪問的網(wǎng)址給出一個安全與否的答案。如果安全的話會放行，如果不安全的話會提醒。簡單的過一下，云端安全基本的原理其實很簡單，可以這樣說，就是說我們犧牲掉第一個用戶或者最初的幾個用戶，然后以后的用戶沒有問題。當(dāng)用戶用百度殺毒來進行防護的時候，我們會知道這個我們不認(rèn)識，我們會抓下來跑一遍，大概一分鐘的時間就會知道它的結(jié)果了，然后把這個結(jié)果寫到緩存系統(tǒng)，海量查詢系統(tǒng)里面去，等這一分鐘之后的用戶來訪問的時候，就知道他是安全用戶，基本的邏輯大概是這個樣子。

對于一個不認(rèn)識的網(wǎng)址怎么判斷呢？就是下面這個大的方塊里面，有一個比較復(fù)雜的運營系統(tǒng)，首先他會去過各款引擎，這下面列了有四款，引擎會給出一個結(jié)果，結(jié)果再進行匯總，匯總的時候就有些策略，相信哪一塊，不相信哪一塊，其實這就是一個投票機制。然后判決出來的結(jié)果再回寫到緩存里面去，這其中會進行一些人工的干預(yù)，比如說對于熱度和廣度非常高的這些網(wǎng)站的話，我們會重點關(guān)注。熱度就是訪問的用戶量非常大，廣度就是訪問的用戶非常多，這是整體的系統(tǒng)架構(gòu)。

我們就這幾款引擎來介紹一下。這其實就是我們在網(wǎng)址安全方面核心的能力部分，對于掛馬這一類大概有四種方式進行攔截：一是虛擬機蜜罐，其實就是跑一遍，看看有沒有問題；二是瀏覽器模擬，瀏覽器模擬的效果會更好，有時候用百度的爬蟲去爬的時候是好的，但是用戶訪問的時候又是壞的，所以用瀏覽器模擬是最有效的；三是黑白名單，這需要人工去運營，比如說百度有官方網(wǎng)站的資質(zhì)信息，這個肯定就是白名單里面的，黑名單可能就是我們常年累積下來的，以及下面有安全聯(lián)盟，安全聯(lián)盟主導(dǎo)的一個樣本交換的這樣一個機制，其實就是累積黑樣的一個方式；四是PE引擎，有一類威脅來自于網(wǎng)頁里面嵌入了有空鍵，或者是誘導(dǎo)你下載一些軟件，就是之前的快播模式，下載一些木馬。這個時候我們就借助于另外一個安全能力，就是文件安全的能力，這個引擎就是文件安全能力的，把這個文件扔給它，然后它告訴你這個文件有沒有問題。如果這個文件有問題的話，那你這個網(wǎng)頁肯定也有問題。

從虛擬機的層面來看，惡意網(wǎng)頁的密碼可以從幾個層面威脅到系統(tǒng)。首先是應(yīng)用層面，利用瀏覽器的漏洞執(zhí)行一些Shellcode，如果你事先已經(jīng)被植入了木馬的話，那在網(wǎng)頁里面可能和本地進行一些交互，就會帶來更高的權(quán)限。甚至還有可能到硬件的層面，其實跟病毒的模式是一樣的，只不過它會通過網(wǎng)頁去激發(fā)執(zhí)行。

我們怎么做呢？其實瀏覽器的模擬也是類似，首先就是利用堆的溢出，就指向一個代碼，跟操作系統(tǒng)類似。我們檢測的時候就是，當(dāng)你發(fā)現(xiàn)腳本申請消耗大量內(nèi)存的時候，就可以對上下文的屬性進行判斷。這是其中一個例子，其中有一個DoCmd函數(shù)，沒有檢測長度，然后就被植入的一段，導(dǎo)致了它的溢出去執(zhí)行那個惡意代碼。檢測的時候?qū)τ谶@樣一些函數(shù)，這個代碼是檢測器的一個代碼，在里面用自己的函數(shù)去取代它，就是包一下，然后在它上面做一些參數(shù)長度的監(jiān)測。這是病毒防護技術(shù)的使用，如果網(wǎng)頁上面本身嵌入的可執(zhí)行的東西是有害的，我們通過另外一部分安全能力檢測出來，就是你下載網(wǎng)頁的時候把文件下下來，然后去走病毒鑒定中心去監(jiān)督一下，如果有問題，反過來證明網(wǎng)頁也有問題。

這是自然語言處理技術(shù)的部分，這個圖很復(fù)雜，其實可以這樣理解，就是把一個網(wǎng)頁給他，就是一個巨大的字符串，對這個字符串進行各種分類。我們現(xiàn)在有大概40種類別，比如像色情、博彩、欺詐、釣魚等等，比如模仿淘寶的，其實也是釣魚的一種子類，最后把這個問題歸結(jié)到一個分類問題。這里我們主要用到了四類，這是處理的流程。可以注意一下，基于自然語言處理的技術(shù)需要有一些訓(xùn)練的樣本集，這個其實是最困難的。但是好在我們百度這邊有巨大的數(shù)據(jù)支撐，所以樣本集是非常龐大的，甚至可以包含整個中文互聯(lián)網(wǎng)所有的信息。所以說在這一點上，其實百度的平臺是給了我們很大的幫助的。做過自然語言處理的都知道，樣本是非常困難的，拿到樣本，拿到一個好的訓(xùn)練集是非常困難的。

這是其中一個分類就是Bayes，其實很簡單，對于一些欺詐類的，或者有問題的網(wǎng)站中經(jīng)常出現(xiàn)的關(guān)鍵詞會有一個權(quán)重，在分析這些網(wǎng)頁的時候，根據(jù)這些權(quán)重會給出一個計算公式，當(dāng)超過一定閾值的時候會認(rèn)為它有問題。

最大熵是信息論里面的一個概念，就是給出一個符號序列，比如說在右側(cè)的，其實是一種方式，就是HTML的標(biāo)簽，我們以HTML的標(biāo)簽為一個序列的話，以它作為信號源的話，我們對于每一個網(wǎng)頁算出它的信息熵，當(dāng)它的熵達到某一個閾值的時候，我們就會認(rèn)為有問題，基本原理是這個樣子。

另外一個就是非常直接有效的辦法，我們叫做傳播路徑。比如已經(jīng)知道有問題的東西，在這個網(wǎng)頁中出現(xiàn)了，那么這個網(wǎng)頁肯定很大程度上是有問題的，最典型的就是惡意號碼。那種欺詐類的，基本上上面都會有一個電話號碼讓你打過去，我們?nèi)绻肋@個電話號碼有問題，那個網(wǎng)頁也會有問題，郵件、匯款信息、QQ號之類的都可以。在這里也歡迎大家能夠一起來共享這樣一些數(shù)據(jù)。

對于自然語言處理技術(shù)的使用我們有這樣兩句話來總結(jié)一下，就是通過對大數(shù)據(jù)的挖掘，我們能夠做到聞風(fēng)而動，因為有大量的客戶端在那里支撐，有大量的用戶群行為在那里，一個風(fēng)吹草動，就會在數(shù)據(jù)層面有一個體現(xiàn)，就會觸發(fā)我們這邊一個應(yīng)急的預(yù)案，就知道可能什么地方有問題了，這個是非常明顯的。票務(wù)是最典型的，一旦到節(jié)假日的時候，票務(wù)類的欺詐就直線上升，我們這邊就會預(yù)警，我們就會投入更多的力量在這方面去做。反過來，利用我們已經(jīng)知道的信息，反過來通過機器學(xué)習(xí)給出來預(yù)測的模型，模型的作用就是未卜先知，就是你還沒有在這里面出現(xiàn)的時候我們就知道你有問題。

總結(jié)一下，我們對于網(wǎng)絡(luò)欺詐類猖獗原因的認(rèn)知。其實主要的原因就是追回率太低，因為案發(fā)非常頻繁，很難立案，每一個單價都很小，但是數(shù)量巨大，這也是互聯(lián)網(wǎng)的特點，手段變化多端。很多網(wǎng)站本身的安全意識也不強，用戶的安全意識不強，這是非常重要的。出現(xiàn)問題的時候相互推諉，網(wǎng)站說是銀行的問題，銀行說是網(wǎng)站的問題。自然語言矗立在這個里面有一些什么樣結(jié)論性的東西可以給出來？它主要是提高惡意程序傳播的門檻，病毒防護技術(shù)就是防止交叉感染，文件類的病毒和欺詐類的網(wǎng)頁相互作用。這兩種技術(shù)的綜合應(yīng)用可以提高惡意行為的檢出能力，降低網(wǎng)絡(luò)風(fēng)險。

再回過頭來講我們之前說的那個問題，我們?yōu)槭裁从斜匾鲞@樣的一些事情？為什么安全軟件有必要去做網(wǎng)址安全？在我們的角度來看，導(dǎo)致最后結(jié)果的都會經(jīng)過一個網(wǎng)址，無論是二維碼、電話號碼、網(wǎng)頁、惡意木馬，因為現(xiàn)在畢竟是互聯(lián)網(wǎng)時代，像之前那種用U盤，甚至用軟盤傳播的病毒已經(jīng)很少了，就是互聯(lián)網(wǎng)的傳播，這是我們的切入點。

我的分享就是這樣，感謝大家！

上一篇：NSC2014國家信息中心信息與網(wǎng)絡(luò)安全高級顧問章恒

下一篇：沈逸：沉著應(yīng)對美國網(wǎng)絡(luò)安全新攻勢

亚洲日本免费-啊轻点灬太粗太长了三男一女-麻豆av电影在线观看-日韩一级片毛片|www.grbbt.com

NSC2014百度資深架構(gòu)師周曉波

自然語言處理和病毒防護技術(shù)在網(wǎng)購安全中的應(yīng)用