在頭條刪庫上了頭條。
6月23日晚,脈脈上有網友爆料——字節跳動的實習生刪除了公司所有GB級別以下的機器學習模型。
GB級別以下的機器學習模型也就是lite(TensorFlowLite)模型,而且由于實習生刪除的是父目錄且加了skiptrash操作,被刪除模型無法恢復。于是當晚全公司通報,并且列入P0事故等級(嚴重事故)。
這時候,筆者開始思考幾個問題:
1、為什么會出現這種刪庫行為?
(1)實習生為什么準備刪目錄。據稱實習生是在清理HDFS上的目錄,發現一個目錄最近更新時間是3月份,認為這是不用的一個目錄。
(2)實習生刪目錄行為前是否詢問過領導。據稱當時實習生有過詢問行為,但依然實施了刪除操作,這也涉及到內部相關人的把控不嚴。
(3)實習生為什么擁有刪目錄的權限。權限分配邏輯是否存在不嚴謹、員工出現不當操作時為什么沒有提醒,這是安全措施和內部流程不到位的結果。
2、實習生怎么處理?
有網友表示:“只要不是主觀故意的”就不會被開除。
同時,我們也邀請了婁鶴律師分享對此次事件歸責的看法:從上述的信息來看,此次事故主要是公司的內控問題:如實習生的權限包含此類刪除是否合適?沒法恢復說明公司沒有任何備份?操作流程是怎么規范的?而實習生最多是存在過失,相較于追責實習生,更重要的是追究內部人員的失職和公司安全管理存在的問題。
權限管理一直是企業需要不斷優化的安全工作,在微盟刪庫事故啟示錄中,FreeBuf也分享過,權限管理是業務風險管控的重要手段。常見的操作包括:
權限授予
授權主要分為工單申請、動態授權、靜態授權。
工單申請即通過內部系統向領導提交工單申請,保障操作可追溯,有審核;靜態授權則是根據角色工作需求進行策略配置,從更小的細粒度來授予權限,且一般是低權限賬號;動態授權則是目前更流行以及更靈活的方式,基于角色、設備類型、地點等的變化,動態授予對象不同的權限。
數據庫權限管理
1)最小化權限原則
2)分庫分表
數據庫主從及備份
1)主從:當出現故障時能夠進行故障遷移,滿足高可用
2)備份:
實時備份:在線備份數據庫進行讀寫分離,用于數據恢復
離線備份:日常異地離線備份,用于數據災難恢復
備份數據權限控制
1)設置備份數據的操作權限策略,限制高危敏感操作,如drop、rm等
2)設置備份數據的訪問控制策略,否則易導致另一種的數據泄露問題
指令控制和審計
1)操作系統的敏感/關鍵指令的限制和監控,并對操作指令歷史進行采集和遠程存儲分析
2)數據庫審計,對數據庫流量或日志審計,設定告警通知機制
管理流程優化改進
1)線上變更的流程審批,申請變更時段和操作細節,效率會慢一點,但提升了安全性
2)系統性的風險評估,識別與量化風險,進行風險處置,降低風險
3)BCP(業務連續性計劃)和DRP(災難恢復計劃)的制定、評估和周期性演練。達到一定規模體量的企業,是有必要認真考慮這兩個計劃。
來源:FreeBuf.COM