총계처리
From CS Wiki
- Aggregation
통계값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 하는 개인정보 비식별처리 기법
장단점[edit | edit source]
- 장점: 민감한 수치 정보에 대하여 비식별 조치가 가능하며, 통계분석용 데이터 셋 작성에 유리
- 단점: 정밀 분석이 어려우며 집계 수량이 적을 경우 추론에 의한 식별 가능성 존재
예시[edit | edit source]
- 임꺽정 180cm, 홍길동 170cm, 유관순 160cm, 안중근 150cm
- → 물리학과 학생 키 합: 660cm, 평균키: 165cm
종류[edit | edit source]
- 전체 총계처리
- 데이터 전체 또는 부분을 집계(총합, 평균)
- 집단에 소속된 전체 인원의 평균 나이값을 구한 후 각 개인의 나이값을 평균 나이값(대푯값)으로 대체
- 부분총계(Micro Aggregation)
- 데이터 셋 내 일정부분 레코드만 총계처리함
- 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 각 개인의 소득값을 해당 평균값으로 대체
- 라운딩(Rounding)
- 집계 처리된 값에 대하여 라운딩(올림, 내림, 반올림) 기준을 적용하여 최종 집계 처리하는 방법
- 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용
- ex) 23세 → 20대, 3,712,311원 → 3,712천원