총계처리

From CS Wiki
Aggregation

통계값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 하는 개인정보 비식별처리 기법

장단점[edit | edit source]

  • 장점: 민감한 수치 정보에 대하여 비식별 조치가 가능하며, 통계분석용 데이터 셋 작성에 유리
  • 단점: 정밀 분석이 어려우며 집계 수량이 적을 경우 추론에 의한 식별 가능성 존재

예시[edit | edit source]

  • 임꺽정 180cm, 홍길동 170cm, 유관순 160cm, 안중근 150cm
  • → 물리학과 학생 키 합: 660cm, 평균키: 165cm

종류[edit | edit source]

  • 전체 총계처리
    • 데이터 전체 또는 부분을 집계(총합, 평균)
    • 집단에 소속된 전체 인원의 평균 나이값을 구한 후 각 개인의 나이값을 평균 나이값(대푯값)으로 대체
  • 부분총계(Micro Aggregation)
    • 데이터 셋 내 일정부분 레코드만 총계처리함
    • 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 각 개인의 소득값을 해당 평균값으로 대체
  • 라운딩(Rounding)
    • 집계 처리된 값에 대하여 라운딩(올림, 내림, 반올림) 기준을 적용하여 최종 집계 처리하는 방법
    • 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용
    • ex) 23세 → 20대, 3,712,311원 → 3,712천원

같이 보기[edit | edit source]