大數(shù)據(jù)時(shí)代,數(shù)據(jù)蘊(yùn)藏著巨大力量。如今,很多企業(yè)和公司都依靠將海量的數(shù)據(jù)作為樣本來建立大量的技術(shù)和模型,有效數(shù)據(jù)越多,越能幫助企業(yè)創(chuàng)造出最為有效的模型。而另一方面,企業(yè)也越來越重視數(shù)據(jù)保護(hù)——無論是和用戶相關(guān)的敏感信息,還是會(huì)影響到企業(yè)自身機(jī)密的運(yùn)營(yíng)數(shù)據(jù),都是企業(yè)在網(wǎng)絡(luò)安全中必須保護(hù)的對(duì)象。
但是問題來了,我們真的做到保護(hù)所有的數(shù)據(jù)了嗎?對(duì)于這個(gè)問題,大多數(shù)企業(yè)肯定會(huì)回答:是啊,我們做了對(duì)所有數(shù)據(jù)的完善保護(hù),配置了數(shù)據(jù)庫防火墻、DLP、IDS/IPS等針對(duì)數(shù)據(jù)的安全系統(tǒng),怎么會(huì)沒有保護(hù)好所有的數(shù)據(jù)?
且慢,企業(yè)固然是對(duì)數(shù)據(jù)進(jìn)行了全方位的保護(hù)。但是,下一個(gè)問題:我們真的知道自己保護(hù)了哪些東西嗎?或者換個(gè)問法,我們真的知道我們有多少數(shù)據(jù)嗎?企業(yè)很可能會(huì)回答:你看,這是我們的數(shù)據(jù)庫系統(tǒng),這是我們的網(wǎng)絡(luò)部署方式等等——怎么會(huì)不知道我們擁有哪些數(shù)據(jù)以及它們?cè)谀哪兀?/p>
可是事實(shí)真的是這樣的嗎?
數(shù)據(jù)的黑暗之海——暗數(shù)據(jù)
舉個(gè)簡(jiǎn)單的例子吧,如果有一個(gè)人用了一臺(tái)電腦多年,突然想從自己幾百個(gè)G的硬盤中找一份相關(guān)資料。然而,他早已忘了它被放在哪里、文件名又是什么、修改時(shí)間又是什么,他唯一記得的就是里面的可能內(nèi)容——以及這些內(nèi)容里會(huì)有敏感信息。這種情況在企業(yè)的運(yùn)營(yíng)當(dāng)中也會(huì)存在:比如當(dāng)因?yàn)樾枨笾匦庐a(chǎn)生或者技術(shù)的更新,企業(yè)需要針對(duì)某項(xiàng)曾經(jīng)的業(yè)務(wù)進(jìn)行重新啟動(dòng)并且優(yōu)化的時(shí)候,可能會(huì)因?yàn)闃I(yè)務(wù)的時(shí)間過長(zhǎng)而導(dǎo)致業(yè)務(wù)相關(guān)數(shù)據(jù)無法被發(fā)現(xiàn),使得企業(yè)無法在這些數(shù)據(jù)的基礎(chǔ)上制定更合適的方案。
以上的例子只是企業(yè)中可能無法被利用的數(shù)據(jù)的一種可能性,企業(yè)在運(yùn)營(yíng)的過程中會(huì)產(chǎn)生和儲(chǔ)存大量的數(shù)據(jù),并且并且其中會(huì)有很大一部分?jǐn)?shù)據(jù)數(shù)據(jù)因?yàn)闆]有被發(fā)現(xiàn)無法被真正投入使用。事實(shí)上,這類數(shù)據(jù)就是“暗數(shù)據(jù)”,Gartner很早就定義了“暗數(shù)據(jù)”:組織在常規(guī)業(yè)務(wù)活動(dòng)中收集、處理和儲(chǔ)存,但通常無法用于其他用途的信息資產(chǎn)。Veritas在2016年的《數(shù)據(jù)冰山報(bào)告》中提到,企業(yè)的數(shù)據(jù)中,52%為價(jià)值尚不明確的暗數(shù)據(jù),33%的數(shù)據(jù)屬于對(duì)于企業(yè)沒有價(jià)值的冗余、過期或者不重要的陳舊數(shù)據(jù)——換而言之,我們現(xiàn)在所使用到的儲(chǔ)存數(shù)據(jù),只占了數(shù)據(jù)總量的15%。企業(yè)對(duì)于自身數(shù)據(jù)的了解和使用程度還遠(yuǎn)遠(yuǎn)不夠高。
暗數(shù)據(jù)產(chǎn)生的原因有很多,例如人們的遺忘、文檔的缺失和未有效處理、組織和人員的變更等,隨著時(shí)間的推移,持續(xù)導(dǎo)致暗數(shù)據(jù)囤積,大量的數(shù)據(jù)隱藏在黑暗中無法被認(rèn)知,最后匯聚成了一片數(shù)據(jù)的黑暗之海,變的腐朽不堪。
在這片按數(shù)據(jù)之海下,固然有著大量沒有價(jià)值的陳舊數(shù)據(jù),但是一旦掃除這些無用數(shù)據(jù),本身能給企業(yè)帶來大量的網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算資源,剩下的數(shù)據(jù)也存在著無限的潛力:通過挖掘和利用這些數(shù)據(jù),企業(yè)可以獲得更好的業(yè)務(wù)模型、發(fā)現(xiàn)更多的用戶傾向、開發(fā)新的產(chǎn)品等等。無論是了解企業(yè)自身狀況,還是了解自己的客戶情況,這些數(shù)據(jù)都會(huì)帶給企業(yè)巨大的價(jià)值。
然而,窺探這些暗數(shù)據(jù)的還有其他人——內(nèi)部和外部的攻擊者們。由于企業(yè)對(duì)自身的數(shù)據(jù)情況不夠了解,無法輕易獲知自身哪些數(shù)據(jù)有價(jià)值,更難以在數(shù)據(jù)泄露后發(fā)現(xiàn)事件以及對(duì)事件進(jìn)行響應(yīng)和溯源。相對(duì)的,對(duì)于攻擊者來說,除了竊取傳統(tǒng)的敏感數(shù)據(jù)(比如個(gè)人身份數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、內(nèi)部通信數(shù)據(jù)等),攻擊者還會(huì)竊取任何安全保護(hù)不足的數(shù)據(jù)。如果企業(yè)對(duì)暗數(shù)據(jù)缺乏了解,那么具有潛在有價(jià)值的數(shù)據(jù)就無法得到應(yīng)有的保護(hù)等級(jí),容易被攻擊者獲取。而對(duì)于攻擊者來說,每一項(xiàng)數(shù)據(jù)可能都有價(jià)值,尤其是在對(duì)不同數(shù)據(jù)進(jìn)行各種組合的情況下,原本孤立的非敏感數(shù)據(jù)可能會(huì)成為機(jī)密數(shù)據(jù)。攻擊者可以通過分析這些數(shù)據(jù),獲知企業(yè)的業(yè)務(wù)信息、交易信息、內(nèi)部交流等內(nèi)容,一旦這些信息被泄露,會(huì)對(duì)企業(yè)的研發(fā)、市場(chǎng)影響以及之后的業(yè)務(wù)合作帶來極大的負(fù)面影響。
那么,回到之前的問題:我們真的保護(hù)了所有數(shù)據(jù)嗎?我們真的知道自己有哪些數(shù)據(jù)嗎?我們真的知道自己的數(shù)據(jù)都在哪里嗎?
我們面臨哪些困難?
由于暗數(shù)據(jù)擁有無限的潛力,我們需要對(duì)暗數(shù)據(jù)采取保護(hù)措施。但是首先我們需要知道自己有哪些暗數(shù)據(jù),對(duì)暗數(shù)據(jù)進(jìn)行梳理,知道哪些是敏感數(shù)據(jù),哪些是有價(jià)值的數(shù)據(jù)、哪些又是無效的數(shù)據(jù)。
但是,在這一過程中,企業(yè)會(huì)面臨很多問題,主要包括以下幾個(gè)方面:
1. 對(duì)數(shù)據(jù)的理解存在誤區(qū):企業(yè)需要理解到的是,數(shù)據(jù)是需要作為資產(chǎn)被保護(hù)的。數(shù)據(jù)資產(chǎn)和網(wǎng)絡(luò)資產(chǎn)(如域名、IP、DNS服務(wù)器等)類似,是整個(gè)企業(yè)信息資產(chǎn)的一種。對(duì)于資產(chǎn)的保護(hù),我們首先要明確我們有哪些資產(chǎn)——而不僅僅是這些資產(chǎn)在哪里。如同我們對(duì)倉庫里的資產(chǎn)進(jìn)行保護(hù),我們首先要了解到倉庫里有些什么貨物,哪些是有價(jià)值的資產(chǎn),哪些是沒有價(jià)值的垃圾——數(shù)據(jù)需要被給予同樣的對(duì)待,企業(yè)不僅僅需要知道數(shù)據(jù)庫里有數(shù)據(jù),更需要知道自己有哪些數(shù)據(jù),從而將有價(jià)值的數(shù)據(jù)梳理后轉(zhuǎn)化為數(shù)據(jù)資產(chǎn)——之后再進(jìn)行使用以及保護(hù)。
2. 無法獲取所有信息:對(duì)于數(shù)據(jù)最熟悉的人莫過于直接接觸業(yè)務(wù)的人,因此,當(dāng)嘗試獲取數(shù)據(jù)的時(shí)候,需要依靠業(yè)務(wù)相關(guān)的人員;而企業(yè)內(nèi)部每一位員工都有自己的定位,只能觸及自己特定的業(yè)務(wù)線,只能挖掘和自己業(yè)務(wù)相關(guān)的數(shù)據(jù)。這樣一來,在進(jìn)行數(shù)據(jù)梳理的時(shí)候,就很難真正做到對(duì)數(shù)據(jù)的全面梳理。而另一方面,如果根據(jù)業(yè)務(wù)分別對(duì)數(shù)據(jù)進(jìn)行梳理,又無法將不同數(shù)據(jù)結(jié)合,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在價(jià)值。
3. 無法識(shí)別數(shù)據(jù)含義:數(shù)據(jù)單純來看可能只是毫無價(jià)值的數(shù)字。但是,如果要讓這些數(shù)字變得有價(jià)值,就需要企業(yè)識(shí)別每份數(shù)據(jù)之后的含義。
4. 數(shù)據(jù)工具不完善:企業(yè)想要去了解數(shù)據(jù),首先需要知道數(shù)據(jù)庫里每張表描述哪些業(yè)務(wù),表里的每個(gè)字段表示什么意思。但是,現(xiàn)階段大多數(shù)企業(yè)內(nèi)部數(shù)據(jù)字典不完善,導(dǎo)致企業(yè)在嘗試去了解數(shù)據(jù)之初就遇到阻礙。
事實(shí)上,這些問題不僅僅是對(duì)企業(yè)數(shù)據(jù)的保護(hù),對(duì)數(shù)據(jù)的利用本身也存在著這些困難。
有誰可以幫助我們?
要解決發(fā)現(xiàn)暗數(shù)據(jù)的難題,需要數(shù)據(jù)安全廠商的合作。從國(guó)內(nèi)市場(chǎng)來看,這是美創(chuàng)最近的產(chǎn)品方向——幫助企業(yè)認(rèn)識(shí)和挖掘自己的暗數(shù)據(jù)。
美創(chuàng)的理念是“從數(shù)據(jù)去認(rèn)識(shí)數(shù)據(jù)”:他們先將暗數(shù)據(jù)變?yōu)槊鲾?shù)據(jù),然后再將明數(shù)據(jù)變成分類有序的數(shù)據(jù),從而完成從數(shù)據(jù)到數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化過程。在這一過程中,美創(chuàng)暗數(shù)據(jù)發(fā)現(xiàn)和分類平臺(tái)有六大主要功能:
1. 全面捕獲數(shù)據(jù):通過適配多種數(shù)據(jù)源,從而確定數(shù)據(jù)分布、規(guī)模和分類。
2. 數(shù)據(jù)智能解析:根據(jù)內(nèi)置的數(shù)據(jù)標(biāo)準(zhǔn),實(shí)現(xiàn)自動(dòng)識(shí)別數(shù)據(jù)格式,在此基礎(chǔ)之上,通過自然語言處理、特征分析等方法進(jìn)行語義內(nèi)容識(shí)別,快速認(rèn)識(shí)數(shù)據(jù)。
3. 建立數(shù)據(jù)標(biāo)準(zhǔn):通過內(nèi)置的數(shù)據(jù)標(biāo)準(zhǔn)可以識(shí)別數(shù)據(jù)的技術(shù)類型和業(yè)務(wù)類型,可以明確的識(shí)別身份證號(hào)碼,姓名,地址,編號(hào)等,把不可認(rèn)知的數(shù)據(jù)變成有價(jià)值的數(shù)據(jù)。
4. 內(nèi)置業(yè)務(wù)模型:美創(chuàng)依據(jù)自身在多個(gè)行業(yè)的累積,內(nèi)置了多個(gè)行業(yè)的業(yè)務(wù)模型,并結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí),使得暗數(shù)據(jù)發(fā)現(xiàn)和分類平臺(tái)可以更好的服務(wù)于這些行業(yè)。
5. 構(gòu)建數(shù)據(jù)地圖:實(shí)現(xiàn)源數(shù)據(jù)的數(shù)據(jù)地圖展示功能,能自動(dòng)生成數(shù)據(jù)字典并且識(shí)別數(shù)據(jù)關(guān)系,然后通過數(shù)據(jù)地圖對(duì)分析結(jié)果進(jìn)行圖形化展示,并通過對(duì)不同層次的圖像展示粒度控制,滿足開發(fā)、運(yùn)維或者業(yè)務(wù)上不同應(yīng)用場(chǎng)景的數(shù)據(jù)查詢和分析需求。
6. 分析結(jié)果可視化:數(shù)據(jù)只有被理解了以后才有價(jià)值,因此美創(chuàng)提供了豐富的圖表,通過可視化的方式展示數(shù)據(jù)資產(chǎn)報(bào)告,直觀清晰的展現(xiàn)數(shù)據(jù)富含的意義,使得用戶快速、直觀的了解數(shù)據(jù)資產(chǎn)。
從美創(chuàng)的部署成果來看,通過對(duì)企業(yè)暗數(shù)據(jù)的發(fā)掘,企業(yè)的數(shù)據(jù)資產(chǎn)擴(kuò)大了10倍, 幫助企業(yè)減少了70%的數(shù)據(jù)建設(shè)周期,并且降低了50%的數(shù)據(jù)利用成本;更重要的是,企業(yè)可以了解自己有價(jià)值的數(shù)據(jù)以及哪些是敏感數(shù)據(jù)——并對(duì)這些數(shù)據(jù)進(jìn)行保護(hù)。
安全也需要“資產(chǎn)化”——企業(yè)需要了解到自己有哪些資產(chǎn),并且進(jìn)行對(duì)應(yīng)的保護(hù),而不是無腦地部署各種安全設(shè)備和服務(wù),這一點(diǎn)在數(shù)據(jù)上尤為重要。企業(yè)首先需要知道自己究竟有多少數(shù)據(jù),而這些數(shù)據(jù)里又有些什么,哪些是有用、有價(jià)值的數(shù)據(jù)——并將數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)資產(chǎn)。然后才能將數(shù)據(jù)資產(chǎn)變成自己生產(chǎn)的原料為企業(yè)創(chuàng)造更多的價(jià)值;同時(shí),根據(jù)數(shù)據(jù)資產(chǎn)不同的敏感度,進(jìn)行針對(duì)性的保護(hù),避免發(fā)生因?yàn)榘踩Wo(hù)的不合規(guī)、過度保護(hù)等問題而造成的成本提升、暗數(shù)據(jù)被盜被利用而不自知等情況。