행위

합성 데이터(synthetic data)

라이언의 꿀팁백과

1 정의[편집 | 원본 편집]

'재현 데이터'라고도 부르는 합성 데이터(synthetic data)는 실제 데이터 세트에 존재하는 통계 패턴을 모방한 데이터(simulated data)를 의미한다. 유럽 데이터 보호 감독기구(European Data Protection Supervisor, EDPS)는 합성 데이터를 "원래 데이터 소스를 가져와서 유사한 통계 속성을 가진 새로운 인공 데이터를 생성하는 것"이라고 정의한다. 간단히 말해, 합성 데이터는 데이터의 통계적 특성을 모방하여 인공적으로 만들어진 데이터를 의미한다.

2 의의[편집 | 원본 편집]

AI 모델을 개발하는데 있어서 가장 중요한 것은 데이터이다. 알고리즘도 중요하지만 학습과 테스트에 사용하는 데이터는 더 중요하다. 괜히 쓰레기 데이터를 넣는다면 쓰레기 데이터가 나온다(garbage in, garbage out)이라는 격언이 있는 게 아니다. 이러한 데이터 공급의 한계는 AI의 발전 속도를 느려지게 만드는 요인이다. 또한, 최근 몇 년 사이 개인 정보의 중요성에 대한 인식이 높아지고 관련 법이 생기면서 실제 데이터를 AI 학습에 활용하는 데 더 큰 어려움이 많아졌다.


실제 데이터는 물론 좋은 통찰력을 제공하지만, 우연에 좌우되는 경우가 많고 현실 세계에서 가능한 모든 조건이나 사건의 순열을 포함하지 않는다. 게다가 실제 데이터는 개인정보 보호 규정으로 인해 데이터 전처리 과정(preprocessing)에 비용이 많이 들고 엉망인 상태이거나 오염된 경우가 많다. 즉 아래 과정이 너무 번거롭고 비싸다.

  1. 실제 데이터 수집
  2. 데이터 전처리
  3. 개인 정보 제거
  4. 오류 제거
  5. 데이터 형식 통일


그런데 합성 데이터를 사용하여 AI 모델을 훈련시킨다면 더욱 더 균일한 데이터 형식과 레이블을 유지할 수 있으므로 실제 데이터의 효과적인 보완책이나 대안책이 될 수 있다.

참고로 어떤 데이터 혹은 조합한 데이터가 누구의 것인지 추적할 수 없다면 그 데이터는 법적으로 개인 정보가 아니다.

3 한계[편집 | 원본 편집]

미국의 건강보험 양도와 책임성 법률(Health Insurance Portability and Accountability Act, HIPAA)에 따른 개인정보 비식별화 가이드라인은 데이터 간의 구분가능성(distinguishability)이 0.04% 미만일 때 정보 주체가 재식별되는 리스크가 없다고 본다. 그렇지만 현재 합성 데이터 생성용 알고리즘에서 정보 재식별율은 10%를 상회한다.


또한 합성 데이터는 생성의 기초가 된 실제 데이터에 숨겨진 편향을 그대로 반영할 수 있다. 왜냐하면 합성 데이터는 원본 데이터의 통계적 변수 분포와 상관관계 등을 모방하기 때문이다.

4 전망[편집 | 원본 편집]

그럼에도 불구하고 2024년에는 AI 연구개발에 필요한 데이터의 60% 가량을 합성 데이터가 담당하게 될 것이다. 그리고 Data Pipeline 에서 합성 데이터를 통한 데이터 생성이 필수가 될 것이다.