T-근접성
From CS Wiki
- t-closeness
- 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
- l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
- 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
l-다양성의 취약점[edit | edit source]
- 쏠림 공격 (skewness attack)
- 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
- 유사성 공격 (similarity attack)
- 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
적용 예시[edit | edit source]
조치 전[edit | edit source]
구분 | 속성자 | 민감한 정보 | 비고 | ||
---|---|---|---|---|---|
지역코드 | 연령 | 원급 | 질병 | ||
1 | 476** | 2* | 300 | 위궤양 | 모두가 '위'와
관련한 유사 질병으로 취약 |
2 | 476** | 2* | 400 | 급성 위염 | |
3 | 476** | 2* | 500 | 만성 위염 | |
4 | 4790* | > 40 | 600 | 급성 위염 | 다양한 질병이
혼재되어 안전 |
5 | 4790* | > 40 | 1100 | 감기 | |
6 | 4790* | > 40 | 800 | 기관지염 | |
7 | 476** | 3* | 700 | 기관지염 | 다양한 질병이
혼재되어 안전 |
8 | 476** | 3* | 900 | 폐렴 | |
9 | 476** | 3* | 1000 | 만성 위염 |
- 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
- 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
- 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)
조치[edit | edit source]
- t-근접성 모델을 적용하여 정보의 분포를 조절한 예
구분 | 속성자 | 민감한 정보 | 비고 | ||
---|---|---|---|---|---|
지역코드 | 연령 | 원급 | 질병 | ||
1 | 4767* | < 40 | 300 | 위궤양 | 급여의 분포와
다양한 질병 으로 안전 |
3 | 4767* | < 40 | 500 | 만성 위염 | |
8 | 4767* | < 40 | 900 | 폐렴 | |
4 | 4790* | > 40 | 600 | 급성 위염 | 급여의 분포와
다양한 질병 으로 안전 |
5 | 4790* | > 40 | 1100 | 감기 | |
6 | 4790* | > 40 | 800 | 기관지염 | |
4 | 4760* | 3* | 400 | 급성 위염 | 급여의 분포와
다양한 질병 으로 안전 |
7 | 4760* | 3* | 700 | 기관지염 | |
9 | 4760* | 3* | 1000 | 만성 위염 |
- 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
- 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
- 조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐
조치 방법[edit | edit source]
- t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
- 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음
- t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산