재현 데이터

From CS Wiki
Revision as of 00:17, 29 March 2021 by 아이리움 (talk | contribs) (새 문서: 분류:데이터 과학분류:개인정보보호 ;Synthetic Data ;실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Synthetic Data
실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의 데이터(Simulated Data)

특징

  • 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음
  • 개인이 제공한 데이터가 아닌 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유로움

분류

  • 완전 재현데이터(Fully Synthetic Data)
    • 공개하려고 하는 데이터에 측정된 실제데이터가 하나도 없이 모두 가상으로 생성된 데이터로만 이루어진 데이터
    • 정보보호 측면에서 가장 강력한 보안성을 가짐
  • 부분 재현데이터(Partially Synthetic Data)
    • 공개하려는 변수들 중 일부만을 선택하여 재현데이터로 대체한 데이터를 의미
    • 보통 재현데이터로 대치되는 변수들은 민감한 정보에 관한 변수들
  • 복합 재현데이터(Hybrid Synthetic Data)
    • 일부 변수들의 값을 재현데이터로 생성하고 생성된 재현 데이터와 실제데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성

같이 보기

참고 문헌

  • 진짜 같은 가짜! 재현데이터의 개념 및 활용 사례('19, 신용정보원)

각주

  1. Synthetic Data라는 영어 표현만 놓고 보면 '합성 데이터' 또는 '인조 데이터'에 더 가깝다. 다만, 출현 배경상 기존 통계모델을 통해 유사한 의미를 갖는 데이터를 만들어내는 방식이므로 국내에서 '재현 데이터'라는 표현을 더 많이 사용한다.