L-다양성

From CS Wiki


l-diversity; ℓ-diversity
주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질
  • k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델

k-익명성의 취약점[edit | edit source]

다양성의 부족 (lack of diversity)
  • 비식별 조치 할 때 정보의 다양성을 고려하지 않음
  • 동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비
강한 배경지식 (strong background knowledge)
  • k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약

적용 예시[edit | edit source]

조치 전[edit | edit source]

  • 선거인 명부
구분 이름 지역코드 연령 성별
1 김민준 13053 28
2 박지훈 13068 21
3 이지민 13068 29
4 최현우 13053 23
5 정서연 14853 50
6 송현준 14850 47
7 남예은 14853 55
8 성민재 14850 49
9 윤건우 13053 31
10 손윤서 13053 37
11 민우진 13068 36
12 허수빈 13068 35
  • 비식별화된 의료 데이터
구분 지역코드 연령 성별 질병 비고
1 130** < 30 * 전립선염 다양한 질병이

혼재되어 안전

2 130** < 30 * 전립선염
3 130** < 30 * 고혈압
4 130** < 30 * 고혈압
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
9 130** 3* * 위암 모두가 동일

질병으로 취약

10 130** 3* * 위암
11 130** 3* * 위암
12 130** 3* * 위암
  • k-익명성에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
  • 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
  • '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)

조치[edit | edit source]

  • ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
구분 지역코드 나이 성별 질병 비고
1 1305* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

4 1305* ≤ 40 * 고혈압
9 1305* ≤ 40 * 위암
10 1305* ≤ 40 * 위암
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
2 1306* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

3 1306* ≤ 40 * 고혈압
11 1306* ≤ 40 * 위암
12 1306* ≤ 40 * 위암
  • 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨

추가 조치[edit | edit source]

  • ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 t-근접성 적용 필요

같이 보기[edit | edit source]