2023年11月6日,西班牙數據保護機構AEPD探討了合成數據如何在人工智能模型訓練中取代個人數據的問題,認為當所需要的大量個人數據不可用或不容易收集時,合成數據可以作為替代品。
數據需求量日益增大。當前,人工智能模型需要大量數據進行開發、測試和驗證,執行此類過程所需的數據量是不可預估,且在某些情況下,需要通過專門測試數據來驗證和描述異常情況、極端情況、低概率或未記錄情況的系統,甚至通過操縱數據測試攻擊類型。
合成數據是非真實數據。合成數據是人工生成的數據,與從現實中收集的真實數據形成鮮明對比,但同樣可以保留特定場景下真實數據的特征和屬性。合成數據可用于機器學習服務的開發、測試和驗證,在這些服務中,無法獲得所需數量的真實數據,甚至可能不存在此類真實數據。合成數據可以允許公司以一種在數據空間框架內共享數據而不泄露商業機密的方式一樣進行使用,可以用于創建具有與個人數據集相同效用的非個人數據集,在這種情況下可以被當作一種隱私技術。
合成數據越來越受到關注。合成數據可以通過允許方問來自公共和私人實體的信息(即數據空間)支撐數據經濟。但是,如果對此類數據的處理目的、實際限制、相關風險沒有得到足夠保證時,相關實體將不愿意披露可能泄露商業秘密、自身情況、知識產權的數據。而生成合成數據將成為可以解決此類問題的主要技術之一。合成數據有助于開發、測試和驗證自然語言理解系統、視覺算法系統、自動駕駛汽車系統和面向金融機構的欺詐檢測模型,因此,近年來越來越受到關注。
合成數據不是隨機數據。從真實數據合成數據集,或創建新數據集時,應當再現真實數據的結構和特征,從而在特定場景中得出相關結論。由于合成數據屬于人工生成的數據,至少可以對一個特定目的具有意義,在此背景下,合成數據的最基本形式可能類似真實數據格式的虛擬文件。
合成數據可以取代真實數據。每個特定場景對數據具有不同的質量水平要求,對于流程和最終使用目的也具有差別細微的不同要求,在某些特定場景下,合成數據可以取代真實數據。例如,為了驗證人臉識別系統,可以生成一個合成人臉數據集,以檢查這一系統的局限性。但是,需要注意的是,這樣的數據集可能缺乏檢查其他類型系統或開發新的人臉系統所需的數據質量。
合成數據可以作為PET使用。由于合成數據可以最大限度的減少對個人數據的處理,同時實現相關目標,且結論與使用原始個人數據所獲得的結論一樣,因此,與其他許多技術一樣,合成數據也可以作為一種隱私增強技術(PET)使用。在GDPR框架下,即使是從真實的個人數據中生成,合成數據也不應包含可識別個人的信息。合成數據出于特定目的保留了真實個人數據的統計屬性,因此可以防止個人數據被處理。但根據GDPR,從真實的個人數據創建合成數據本身就是一種處理活動,所以應當考慮GDPR的相關規定。
來源:CAICT互聯網法律研究中心