재현 데이터

From CS Wiki
(Redirected from 합성데이터)
Synthetic Data
실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의 데이터(Simulated Data)

특징[edit | edit source]

  • 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음
  • 개인이 제공한 데이터가 아닌 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유로움

분류[edit | edit source]

  • 완전 재현데이터(Fully Synthetic Data)
    • 공개하려고 하는 데이터에 측정된 실제데이터가 하나도 없이 모두 가상으로 생성된 데이터로만 이루어진 데이터
    • 정보보호 측면에서 가장 강력한 보안성을 가짐
  • 부분 재현데이터(Partially Synthetic Data)
    • 공개하려는 변수들 중 일부만을 선택하여 재현데이터로 대체한 데이터를 의미
    • 보통 재현데이터로 대치되는 변수들은 민감한 정보에 관한 변수들
  • 복합 재현데이터(Hybrid Synthetic Data)
    • 일부 변수들의 값을 재현데이터로 생성하고 생성된 재현 데이터와 실제데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성

생성 기법[edit | edit source]

  • 전통적 통계 또는 베이지안 방법(Bayesian Methods)
    • Mutiple Imputation
    • Bayesian Network
    • Perturbed Gibbs Sampler
    • Bayesian Method with zero-inflation
    • Re-sampling from
    • Multivariate Distribution
  • 기계학습 모형(Machine Learning Model)
    • Semantic Graph based method
    • MDL(Minimal Description Length) based KRIMP algorithm
    • CART(Classification And Regression Tree)
    • Fuzzy c-regression Models
    • Support Vector Machine
    • Random Forest
    • Recommendation Systems
    • Social Network Model
    • Generative Adversarial Network
  • 차분 프라이버시(Differential privacy)
    • Proposed Multiplicative Weights update rule with Exponential Mechanism(MWEM)
    • Differentially Private Data Synthesizer
    • Mapping Program

같이 보기[edit | edit source]

참고 문헌[edit | edit source]

  • 진짜 같은 가짜! 재현데이터의 개념 및 활용 사례('19, 신용정보원)

각주[edit | edit source]

  1. Synthetic Data라는 영어 표현만 놓고 보면 '합성 데이터' 또는 '인조 데이터'에 더 가깝다. 다만, 출현 배경상 기존 통계모델을 통해 유사한 의미를 갖는 데이터를 만들어내는 방식이므로 국내에서 '재현 데이터'라는 표현을 더 많이 사용한다.