T-근접성

From CS Wiki


t-closeness
동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
  • l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
  • 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함

l-다양성의 취약점[edit | edit source]

쏠림 공격 (skewness attack)
  • 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
유사성 공격 (similarity attack)
  • 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

적용 예시[edit | edit source]

조치 전[edit | edit source]

구분 속성자 민감한 정보 비고
지역코드 연령 원급 질병
1 476** 2* 300 위궤양 모두가 '위'와

관련한 유사

질병으로 취약

2 476** 2* 400 급성 위염
3 476** 2* 500 만성 위염
4 4790* > 40 600 급성 위염 다양한 질병이

혼재되어 안전

5 4790* > 40 1100 감기
6 4790* > 40 800 기관지염
7 476** 3* 700 기관지염 다양한 질병이

혼재되어 안전

8 476** 3* 900 폐렴
9 476** 3* 1000 만성 위염
  • 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
  • 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
  • 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)

조치[edit | edit source]

  • t-근접성 모델을 적용하여 정보의 분포를 조절한 예
구분 속성자 민감한 정보 비고
지역코드 연령 원급 질병
1 4767* < 40 300 위궤양 급여의 분포와

다양한 질병

으로 안전

3 4767* < 40 500 만성 위염
8 4767* < 40 900 폐렴
4 4790* > 40 600 급성 위염 급여의 분포와

다양한 질병

으로 안전

5 4790* > 40 1100 감기
6 4790* > 40 800 기관지염
4 4760* 3* 400 급성 위염 급여의 분포와

다양한 질병

으로 안전

7 4760* 3* 700 기관지염
9 4760* 3* 1000 만성 위염
  • 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
  • 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
  • 조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

조치 방법[edit | edit source]

  • t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
  • 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음
  • t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산

같이 보기[edit | edit source]