翁志:各位下午好,我今天給大家分享的題目是大數(shù)據(jù)分析在電商安全中的應(yīng)用。
讓我們回顧一下Internet的發(fā)展,自1990年起到現(xiàn)在近30年的時(shí)間。從我們的網(wǎng)速來(lái)說(shuō),在座的極少數(shù)人用過(guò)原來(lái)的…1.4 56K,還有17.4K的上網(wǎng),后來(lái)進(jìn)展為SDN,主要是公司使用,家庭2000年的時(shí)候有了…,在國(guó)內(nèi)用得更多的是ADSL。現(xiàn)在網(wǎng)速已經(jīng)達(dá)到了一個(gè)…GB的速度,用的是…,國(guó)內(nèi)HNT提供1GBS的網(wǎng)速,能夠讓大家接入。
編寫,Internet發(fā)展,不得不提雅虎,還有原來(lái)老的公司網(wǎng)景,都為Internet的發(fā)展做出了很大的貢獻(xiàn)。網(wǎng)絡(luò)協(xié)議從1.0,2.0進(jìn)入到3.0的時(shí)代。從我們互動(dòng)設(shè)備來(lái)看,大家原來(lái)都用的是Desk lap,現(xiàn)在更多的是用手機(jī),用Tablet,還有PAD,國(guó)外學(xué)校更多的是網(wǎng)本進(jìn)行網(wǎng)絡(luò)的連接,以后更多的是LOT,Internet進(jìn)入了中國(guó)的方方面面。
數(shù)據(jù)的變化,原來(lái)大家存儲(chǔ)的數(shù)據(jù)都是寫在紙上,一個(gè)紙上500個(gè)字。現(xiàn)在我們很多的數(shù)據(jù)是放在了網(wǎng)絡(luò)端,放在了云上,數(shù)據(jù)都是以什么樣的數(shù)據(jù)數(shù)量存儲(chǔ)的?原來(lái)的一個(gè)小小的軟盤是512K,現(xiàn)在我們每天生產(chǎn)的數(shù)據(jù)都不是用T做存儲(chǔ)單位了,每天電商公司處理的數(shù)據(jù)都達(dá)到一點(diǎn)多…,什么概念?那就是10的30次方。
我們面臨的安全的威脅,在PC時(shí)代主要是為了殺毒軟件,Symantec原來(lái)就是做殺毒軟件的。有惡意軟件的攻擊,包括信息的盜取,身份的盜取,但是云上我們受到威脅的形式已經(jīng)有了很大的變化。剛才大家講到網(wǎng)絡(luò)劫持,包括DNS劫持,包括內(nèi)容的劫持,包括流量的攻擊,像SSS,還有注入、旁路攻擊,還有驗(yàn)證攻擊,各種各樣的攻擊都是為了盜取用戶的信息,因?yàn)槲覀冃畔⑼耆窃谠贫舜鎯?chǔ),安全的問(wèn)題變的越來(lái)越嚴(yán)重,沒(méi)有一個(gè)很好的安全大家對(duì)于網(wǎng)絡(luò)的信任就是缺失的,這肯定也會(huì)影響我們商業(yè)的運(yùn)作,也會(huì)威脅到每個(gè)人的信息安全,每個(gè)人信息的丟失。
看一下現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)安全是怎么進(jìn)行保護(hù)的呢?從架構(gòu)來(lái)說(shuō),現(xiàn)在進(jìn)入到了一個(gè)云時(shí)代,我們?cè)萍軜?gòu)是分布式的架構(gòu),數(shù)據(jù)分布在方方面面,分布在各個(gè)不同數(shù)據(jù)中心,不同的體系當(dāng)中。這就為我們的數(shù)據(jù)安全提出了一個(gè)更大的挑戰(zhàn)。因?yàn)楸WC各個(gè)點(diǎn)的數(shù)據(jù)的安全比保證一個(gè)點(diǎn)的數(shù)據(jù)安全相對(duì)來(lái)說(shuō)要難很多。
原來(lái)的數(shù)據(jù)都是放在冠形數(shù)據(jù)庫(kù)中,像IBM都有一系列的安全保證機(jī)制,現(xiàn)在的數(shù)據(jù)都是用分布式,Hadoop、Big? table這些分布式的數(shù)據(jù)存儲(chǔ)中,也還包括一些非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)沒(méi)有一個(gè)統(tǒng)一的安全認(rèn)證方式,這對(duì)我們的數(shù)據(jù)保障是一個(gè)很大的挑戰(zhàn)。
數(shù)據(jù)隱私,原來(lái)數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析也有一個(gè)認(rèn)證的問(wèn)題就是誰(shuí)能使用,讓這個(gè)數(shù)據(jù)在規(guī)范的環(huán)境下使用,包括數(shù)據(jù)加密,網(wǎng)絡(luò)傳輸中的數(shù)據(jù)加密,數(shù)據(jù)中心內(nèi)部數(shù)據(jù)也要有一個(gè)加密的機(jī)制。比如我從一個(gè)機(jī)器訪問(wèn)另一個(gè)機(jī)器,通過(guò)RPS方式還是什么方式,這些數(shù)據(jù)如何傳輸保證安全都是我們需要考慮的問(wèn)題。
包括存儲(chǔ),我們數(shù)據(jù)放在硬盤上是否應(yīng)該是一個(gè)加密的方式。對(duì)于一個(gè)負(fù)責(zé)任的電商來(lái)說(shuō)都是需要考慮的。
我們的日志,每天產(chǎn)生的數(shù)據(jù)量,幫我們回溯到原來(lái)的某一個(gè)時(shí)間點(diǎn),是非常重要的一個(gè)財(cái)富。對(duì)于日志的管理會(huì)幫助我們?cè)诎踩蟻?lái)追溯以前發(fā)生的問(wèn)題。
數(shù)據(jù)審計(jì)也是大家需要著重的地方。數(shù)據(jù)完整性,包括點(diǎn)對(duì)點(diǎn)和數(shù)據(jù)過(guò)濾,大家在工作中遇到了。
我們有各種各樣傳統(tǒng)的安全實(shí)現(xiàn)方式,這些方式是否對(duì)我們現(xiàn)在來(lái)說(shuō),是否能防范一些遇到的安全威脅呢?我們說(shuō)應(yīng)該是沒(méi)有的。現(xiàn)在的安全防范體系需要全局立體的,而非局部單一的,有些數(shù)據(jù)是帶著DNA的,這個(gè)數(shù)據(jù)怎么進(jìn)行分析,能不能知道這些數(shù)據(jù)中是否有數(shù)據(jù)泄露的危險(xiǎn),我們認(rèn)為通過(guò)一個(gè)單點(diǎn),通過(guò)傳統(tǒng)方法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足我們的需求。
如何打造一個(gè)基于數(shù)據(jù)分析的方法的安全體系?這是我今天主要跟大家分享的,我們是如何進(jìn)行數(shù)據(jù)保護(hù)的。
數(shù)據(jù)在我們的體系中流通的時(shí)候都會(huì)留下他的蹤跡,我們可以幫助用戶進(jìn)行一個(gè)數(shù)據(jù)管理的最主要的方式,我們把這些數(shù)據(jù)進(jìn)行收集,包括日志,包括方方面面來(lái)的信息,這些信息我們進(jìn)行一個(gè)大數(shù)據(jù)的分析處理,能夠知道什么地方會(huì)有數(shù)據(jù)安全的隱患,比如我的流量異常,這個(gè)流量異常來(lái)自哪些IP,通過(guò)一些細(xì)致的分析,我們知道這個(gè)流量是否是一個(gè)正常的流量,比如我們經(jīng)常會(huì)遇到的爬蟲流量,它可能會(huì)經(jīng)常來(lái)爬我們一些節(jié)點(diǎn)的某些關(guān)鍵信息,這些信息是機(jī)器行為和人工行為是有差異的。所以,我們會(huì)用數(shù)據(jù)分析的方式進(jìn)行一個(gè)甄別。同時(shí),一個(gè)電商,我們對(duì)于用戶數(shù)據(jù)是非常非常重視的,提出要提供一個(gè)非常嚴(yán)格的保密和安全防范的措施。
還包括我們的定單,定單泄露也給不法分子可以利用進(jìn)行欺詐,這都是我們天天遇到的問(wèn)題,也是我們必須要解決的問(wèn)題。包括賬戶,有黃牛,還有其他各種各樣的對(duì)于賬號(hào)體系的攻擊,我們?cè)趺磥?lái)進(jìn)行一個(gè)完善保護(hù),這是我們經(jīng)常會(huì)遇到的問(wèn)題。這些數(shù)據(jù)我們會(huì)做一個(gè)綜合分析,這個(gè)分析的方法有基于規(guī)則的,也會(huì)有基于機(jī)器學(xué)習(xí)的方式來(lái)做。
歸根到底,我們需要的是一個(gè)原始數(shù)據(jù),來(lái)自于日志,來(lái)自于系統(tǒng)的監(jiān)控?cái)?shù)據(jù),還來(lái)自于我們對(duì)社會(huì)上流露出來(lái)的一些賬號(hào)信息進(jìn)行的管控。當(dāng)然,對(duì)流量的攻擊我們會(huì)進(jìn)行甄別,不僅保護(hù)我們系統(tǒng),保護(hù)我們系統(tǒng)的后臺(tái),減少不必要的處理能力的損失。同時(shí),降低我們系統(tǒng)的抗壓。
爬蟲風(fēng)控系統(tǒng),對(duì)于爬蟲,對(duì)于我們一些機(jī)器流量,我們都會(huì)進(jìn)行一個(gè)過(guò)濾。
如何進(jìn)行數(shù)據(jù)分析決策?最重要的還是數(shù)據(jù),數(shù)據(jù)我們會(huì)進(jìn)行有序的處理存儲(chǔ),進(jìn)行分類,變成一種分布式的方式,便于我們的數(shù)據(jù)處理,分析要有建模,我們有各種各樣的分析手段,包括傳統(tǒng)的分析手段,也包括機(jī)器學(xué)習(xí)的手段來(lái)進(jìn)行分析,來(lái)甄別他是否是一個(gè)有害流量或者是一種攻擊流量。
產(chǎn)出就是給我們生成一系列的決策,指引我們?nèi)绾芜M(jìn)行應(yīng)對(duì),也會(huì)對(duì)未來(lái)進(jìn)行一個(gè)預(yù)測(cè),比如對(duì)未來(lái)流量的使用,對(duì)未來(lái)流量系統(tǒng)能力的分布都會(huì)有所幫助。
看一下日志,日志是這個(gè)系統(tǒng)中的基礎(chǔ),因?yàn)闆](méi)有日志收集讓我們很難對(duì)我們的系統(tǒng)有徹底的了解。所以,日志收集包括方方面面,大家看到可以從監(jiān)控的服務(wù)器上收集數(shù)據(jù),應(yīng)用系統(tǒng)也會(huì)吐出日志,根據(jù)大數(shù)據(jù)存儲(chǔ)的日志都會(huì)進(jìn)行收集,還有網(wǎng)絡(luò)設(shè)置日志,這些日志的收集可以很好的幫我們進(jìn)行原始事件的回溯。所以,日志是非常重要的,有很多廠商為了性能的原因把日志關(guān)掉了,其實(shí)這是對(duì)一個(gè)系統(tǒng)的威脅。我知道的這些大型的比較有實(shí)力的國(guó)外的廠商他們都會(huì)開著日志,性能上會(huì)完完全全考慮到日志對(duì)系統(tǒng)的影響,而把它變成系統(tǒng)周期的一部分,而不是當(dāng)成一個(gè)額外的部分。
提到HTTPS,從用戶的客戶端到我們的服務(wù)器端,會(huì)進(jìn)行一個(gè)數(shù)據(jù)認(rèn)證,目的在網(wǎng)絡(luò)上數(shù)據(jù)不被劫持。內(nèi)部RPC加密,在數(shù)據(jù)傳輸當(dāng)中就可以保證數(shù)據(jù)的安全性。同時(shí),在數(shù)據(jù)做盤的時(shí)候我們封盤進(jìn)行數(shù)據(jù)加密,敏感的數(shù)據(jù)必須以加密的方式進(jìn)行存儲(chǔ),存儲(chǔ)一個(gè)密匙系統(tǒng),每次都會(huì)進(jìn)行一個(gè)日志系統(tǒng),可以追溯到誰(shuí)使用了這些敏感數(shù)據(jù)。出現(xiàn)問(wèn)題可以把問(wèn)題局限在一個(gè)比較小的范圍內(nèi)。
還有是認(rèn)證,認(rèn)證和授權(quán)。我們服務(wù)器可能被攻擊了,發(fā)生的信息就不會(huì)是一個(gè)受到保證的,我們對(duì)服務(wù)器做一個(gè)認(rèn)證,這個(gè)認(rèn)證就能保證我服務(wù)器使用當(dāng)中有一個(gè)分析,如果服務(wù)器步建立具備條件下這個(gè)服務(wù)器是不會(huì)被我們進(jìn)行使用和進(jìn)行數(shù)據(jù)傳輸?shù)摹?yīng)用也是一樣,每個(gè)應(yīng)用有一個(gè)認(rèn)證的體系,誰(shuí)能進(jìn)行數(shù)據(jù)的分發(fā),誰(shuí)能進(jìn)行數(shù)據(jù)的接收。
DDoS流量攻擊,對(duì)于各種各樣的DCP、UCP的流量的攻擊我們可以進(jìn)行清洗。
漏洞掃描,大家知道XSS的注入對(duì)我們系統(tǒng)來(lái)說(shuō)是一個(gè)很大威脅。所以,產(chǎn)品上線都會(huì)進(jìn)行一個(gè)掃描,這也是很多電商,我們友商天天做的工作。包括弱密碼,對(duì)用戶的行為會(huì)進(jìn)行甄別,對(duì)弱密碼的用戶會(huì)進(jìn)行提醒。權(quán)限的檢查,為了防止越權(quán)的使用,我們也會(huì)進(jìn)行權(quán)限的檢查。還有端口掃描,看有沒(méi)有信息泄露的可能。
風(fēng)控體系更多的是基于電商來(lái)說(shuō)很重要的一個(gè)方面。因?yàn)槲覀優(yōu)榱擞脩舻男畔踩覀儠?huì)做賬號(hào)和定單的,還有各個(gè)層級(jí)信息的管控,管控系統(tǒng)之間是打通的,一旦出現(xiàn)數(shù)據(jù)泄露的時(shí)候,我們會(huì)進(jìn)行一個(gè)非常迅速的反饋,我們出臺(tái)相應(yīng)的策略來(lái)幫助用戶減少損失。但是我們知道國(guó)內(nèi)對(duì)于賬號(hào)進(jìn)行切入,還有對(duì)于定單進(jìn)行非法使用的情況。所以,我們也在這方面做不懈努力,需要大家共同來(lái)配合。
網(wǎng)絡(luò)劫持,大家已經(jīng)談到很多了,從胡主任角度來(lái)說(shuō),像DNS可以進(jìn)行信息的劫持。在我們天天的任務(wù)中都能夠發(fā)現(xiàn)到。我們也在全國(guó)各地有買點(diǎn),發(fā)現(xiàn)在某些地區(qū)是有這種情況的,我們的DNS被進(jìn)行了地址的改換,還有網(wǎng)絡(luò)上網(wǎng)絡(luò)包,由于不是加密的方式,也有被別人替換的情況發(fā)生,這也是我們生活中和工作中要進(jìn)行保護(hù)的,保護(hù)的方法大家也很清楚。
我們現(xiàn)在也在致力于做全網(wǎng)站的HTTPS,也會(huì)在不久呈現(xiàn)給大家。
開源軟件的管理,開源軟件為Internet的發(fā)展做出了非常重要的貢獻(xiàn),很多電商公司都是用各種各樣的開源軟件。開源軟件的好處是讓大家能夠迅速的搭建我們的系統(tǒng),但是由于它是一個(gè)公開的方式。所以,很容易被不法分子加以改造進(jìn)行利用。對(duì)于這方面我們會(huì)進(jìn)行管控,需要升級(jí)我們都會(huì)做立即的處理。所以,對(duì)于軟件的管理也是信息安全中的一個(gè)必不可少的部分。
系統(tǒng)安全的監(jiān)控,這方面包括報(bào)警,如果發(fā)生數(shù)據(jù)侵襲的時(shí)候,我們系統(tǒng)可以可靠穩(wěn)定的運(yùn)行。服務(wù)器我們都有溫度、濕度各方面的監(jiān)控,這也是為了使我們的底層的物理機(jī)制能夠進(jìn)行一個(gè)很好的工作狀態(tài),保持一個(gè)很好的工作狀態(tài)。
應(yīng)急響應(yīng),我們有專門針對(duì)應(yīng)急事件進(jìn)行反應(yīng)的中心,也是和我們友商BAT都有關(guān)聯(lián),目的就是使大家情報(bào)交換,共同一起來(lái)維護(hù)Internet的數(shù)據(jù)安全。
還有安全的知識(shí)培訓(xùn)因?yàn)閷?duì)于大型的電商公司來(lái)說(shuō),我們每天都會(huì)有新的員工的加入。在研發(fā)方面,每個(gè)人的層次對(duì)安全理解不太一樣,我們通過(guò)安全培訓(xùn)的方式讓他們注重安全,把安全的意識(shí)放在他每天的工作中去。所以,我們會(huì)做這方面的認(rèn)證,做這方面的考試,使我們的程序員達(dá)到上崗標(biāo)準(zhǔn)。所以,安全是他們上崗一個(gè)必備的標(biāo)準(zhǔn)。
這就是我想跟大家分享的一些我們?cè)陔娚贪踩矫娴囊恍┓e累,也希望能夠和大家攜手一塊把我們互聯(lián)網(wǎng)上的信息安全保護(hù)好。謝謝大家。