T-근접성

From CS Wiki
Revision as of 07:31, 13 May 2020 by 아이리움 (talk | contribs) (새 문서: 분류:개인정보보호 분류:데이터 과학 ;t-closeness ;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)


t-closeness
동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
  • l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델

l-다양성의 취약점

쏠림 공격 (skewness attack)
  • 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
유사성 공격 (similarity attack)
  • 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

적용 예시

조치 전

  • 선거인 명부
구분 이름 지역코드 연령 성별
1 김민준 13053 28
2 박지훈 13068 21
3 이지민 13068 29
4 최현우 13053 23
5 정서연 14853 50
6 송현준 14850 47
7 남예은 14853 55
8 성민재 14850 49
9 윤건우 13053 31
10 손윤서 13053 37
11 민우진 13068 36
12 허수빈 13068 35
  • 비식별화된 의료 데이터
구분 지역코드 연령 성별 질병 비고
1 130** < 30 * 전립선염 다양한 질병이

혼재되어 안전

2 130** < 30 * 전립선염
3 130** < 30 * 고혈압
4 130** < 30 * 고혈압
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
9 130** 3* * 위암 모두가 동일

질병으로 취약

10 130** 3* * 위암
11 130** 3* * 위암
12 130** 3* * 위암
  • k-익명성에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
  • 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
  • '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)

조치

  • ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
구분 지역코드 나이 성별 질병 비고
1 1305* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

4 1305* ≤ 40 * 고혈압
9 1305* ≤ 40 * 위암
10 1305* ≤ 40 * 위암
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
2 1306* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

3 1306* ≤ 40 * 고혈압
11 1306* ≤ 40 * 위암
12 1306* ≤ 40 * 위암
  • 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨

추가 조치

  • ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 t-근접성 적용 필요

같이 보기