차분 프라이버시 (Differential Privacy) 는 데이터셋에 대한 수많은 질의에 대해 지나치게 정확한 답변을 공개하는 것이, 공격자가 민감한 데이터의 상당 부분을 재구성하도록 허용할 수 있다는 관찰에서 비롯된다.

1. 1.Reconstruction Attack

Reconstruction Attack은 공격자가 집계된 통계적 질의 응답으로써 실제 데이터셋의 개별 항목 대부분 또는 전부를 추론하는 공격 기법이다. 이를 통해 우리는 집계 통계만 공개했는데도 개별 개인의 민감한 정보가 복원될 수 있는가를 수학적으로 보일 수 있다.

이 문제는 프라이버시의 출발점이 된다. 우리가 흔히 “합계나 평균만 공개하면 안전하지 않을까?”라고 생각하지만, Differential Privacy는 바로 그 믿음이 틀릴 수 있음을 느낌이 아닌, 수학적으로 엄밀히 알려줄 것이다.

1.1. 카운팅 쿼리

데이터셋 에서, 각 번째 개인에 대한 민감 속성의 유무를 나타낸다고 가정하자. 이때, 임의의 쿼리에 속하는 개인을 나타내는 부분집합 에 대해 개수를 반환하는 카운팅 쿼리 를 다음과 같이 정의할 수 있다.

이는 안에 1이 몇개 존재하는지를 알려주는 것으로, 공격자가 고르는 충분히 많은 쿼리 에 대한 응답 를 얻을 수 있다면, 역으로 를 추론할 수 있을 것이다. 이는 충분히 많은 선형 제약식이 주어지면, 원래의 이진 벡터(여기서는, )를 복원할 수 있음을 시사한다.

1.2. Reconstruction Attack & Error

만약 우리가 통계 질의에 대한 응답에 특정 오차 범위 내의 노이즈를 섞으면 Reconstruction Attack을 피할 수 있을까?

우리가 질의하는 쿼리 에 대한 실제 카운팅 정답을 , 노이즈가 섞인 응답을 라 하자. 이때, 공격자는 충분히 많은 질의응답을 얻음으로써 최적화된 데이터셋 를 다음과 같이 얻으려 시도한다.

만약 응답 가 실제 정답 와 너무 많이 다르다면, 이는 통계응답에 대한 의미를 잃어버리므로, 결국 질의에 대한 오차 비율에는 한계가 존재해야 한다. 따라서 이제 모든 쿼리의 응답이 “충분히” 정확하다는 가정을 더하려 한다.

어떤 이 존재하여, 모든 질의 에 대해 사이에 다음의 오차 상한이 존재한다고 하자.

이 제약이 성립한다면, 노이즈가 섞인 응답으로 부터 재구축되는 데이터셋 도 충분히 원본의 데이터셋 와 가까워질 수 있지 않을까?

1.3. Dinur-Nissim Reconstruction Attack 1

Theorem 1. Dinur-Nissim Reconstruction Attack 1

모든 쿼리의 응답 오차가 의 상한을 가질 때, Reconstruction Error는 최대 이다.

이 증명이 중요한 이유는, 공격자가 을 미리 알아야 하는 것이 아니라는 점이다.

“모든 쿼리에 답을 받았다”는 가정 아래에서는, 공격자는 모든 부분집합에 대한 답을 이미 들고 있으므로, 복원된 해 와 실제 를 가르는 결정적인 집합도 결국 응답 목록 안에 포함된다. (만약 모든 응답 의 노이즈를 가져도, 우리는 무려 명의 정보를 완벽하게 복구할 수 있다!)

다만, 이 1 증가함에 따라 가능한 쿼리 집합의 크기는 지수적으로 증가하기에 현실적인 방법은 아니다. 이제 두 번째 정리를 통해 다항 개수의 랜덤 쿼리 스케일로 Reconstruction Attack을 현실적인 범위로 들고와 보자.

1.4. Dinur-Nissim Reconstruction Attack 2

Theorem 2. Dinur-Nissim Reconstruction Attack 2

만약 개 쿼리 응답의 오차 상한이 이면, 높은 확률로 Reconstruction Error의 상한은 이다. (이 상한은 일 때 의미가 있다.)

이는 오차의 수가 보다 크면, 그런 후보는 랜덤 쿼리들 중 적어도 하나와 크게 충돌한다”는 구조를 수학적으로 증명하는 한편, 이 bound가 의미 있으려면 정도의 정밀도가 필요하다는 한계도 드러낸다.

즉, 질의 수를 줄일 수는 있지만, 그만큼 더 정밀한 응답이 필요한 Trade-Off 관계를 잘 보여준다.


이렇듯, 재구성 공격은 “너무 정확한” 집계 통계를 공개하는 것의 근본적인 한계를 보여주며, Trade-Off 가능한 프라이버시와 정확도 간의 추상적 경계를 수학적으로 분석할 필요와 함께, 앞으로 배울 Differential Privacy와 같이 프라이버시 손실을 형식적으로 정량화하는 엄격한 프레임워크의 필요에 대한 동기를 부여한다.

Reconstruction Attack을 막기 위해서는 신중한 노이즈 보정이 필수적이며, 그렇지 않으면, 약간 부정확한 통계조차도 프라이버시를 극단적으로 무너트릴 수 있다.

그렇다면, 원래 정보의 통계는 대충 유지하면서도 개인 정보를 감추기 위해서, 응답에 어떻게 노이즈를 추가해야할까?

2. Randomized Response

민감한 비트 를 가지는 데이터셋 에 대해, 개별 비트가 프라이버시를 지키기 위해 통계 수집을 위한 질의에 다음의 확률적 랜덤 응답 를 내뱉는다고 가정하자.

일 때 로 프라이버시를 완전히 잃어버리고, 일 때 는 완전 무작위 응답으로 바뀌어 프라이버시를 완전히 보호하는 대신 의미있는 정보를 전부 잃어버린다. 이러한 의 기댓값은 다음과 같이 계산된다.

이때, 응답 로부터 개별 비트 추정량은 이다.

이제 에 대해 통계량를 공개하고 싶다고 할 때, 로부터 얻는 로부터 얻게되는 통계 추정량 는 다음과 같다.

이 추정량 는 다음의 전개에 따라 에 대한 불편향 추정치임을 증명할 수 있다.

이제 우리는 개별 비트 를 일정 확률로 뒤집는 로부터 통계 추정량을 얻어도, 이 기댓값이 원래 비트 의 통계량과 일치함을 보았다. 그렇다면 로 부터 얻은 통계 추정량의 오차는 어느정도일까? 먼저 추정량 로부터의 분산의 상한을 구할 수 있다.


여기서 체비셰프 부등식 (Chebyshev’s Inequality)을 사용하자.

Lemma 1. Chebyshev's Inequality

확률 변수 의 기댓값이 이고, 분산이 일 때, 다음이 성립한다.

우리의 추정량 에 체비셰프 부등식을 적용하면 최대 분산 에 대해 다음의 확률 상한을 구할 수 있다.

이는 통계 추정량 가 높은 확률로 로부터 안에 존재함을 알려준다. 또한, 범위 제약 와 확률 제약 를 통해 데이터 크기 를 역산할 수 있게 되고 다음의 Trade-Off를 수학적으로 계산할 수 있다.

  • 추정량 가 실제 로부터 가까워지려면, 통계량은 더 많은 데이터를 포함해야 한다.
    • 작은 를 원한다면, 을 키워야 한다. ()
  • 추정량 가 실제 로부터 가까울 확률을 높이려면, 통계량은 더 많은 데이터를 포함해야 한다.
    • 작은 를 원한다면, 을 키워야 한다. ()
  • 개별 데이터의 프라이버시 보존 강도를 높이려면, 통계량은 더 많은 데이터를 포함해야 한다.
    • 작은 를 원한다면, 을 키워야 한다. ()

이로써 우리는 개별 비트를 확률적으로 뒤집은 랜덤 비트를 사용해도, 전체 통계량을 unbiased하게 추정할 수 있음을 보였고, 이때의 추정량의 정확도 손실이 에 어떻게 의존하는지를 분산 차원에서 정량화하여 이후 다룰 Differential Privacy의 대표적 예시 하나를 다루었다.

다만 지금까지 우리가 살펴본 예시는 특정한 이진 구조의 데이터셋과 평균 통계량 에 한정되어 있다. 임의의 구조를 가진 데이터셋 의 임의의 통계량 f(D)에 대해 어떻게 DP를 일반화할 수 있을까?

3. Differential Privacy

차분 프라이버시 (Differential Privacy)는 어떠한 데이터로부터의 계산 결과가 단 한 명의 개인 데이터 유무나 변경에 크게 영향을 받지 않도록 보장하는 공식적인 프라이버시 보장 프레임워크를 말한다.

다시 말해, 특정 개인의 데이터가 입력에 포함되든 안 포함되든, 알고리즘의 출력 분포는 거의 동일하게 유지되어 공격자가 특정 개인의 정보를 관찰해도 해당 개인에 대해 거의 정보를 얻지 못하게 한다.

3.1. 이웃 데이터셋 (Neighboring Datasets)

두 데이터셋 이 단 한 개의 데이터에 대해서만 다를 때, 이 둘을 서로 이웃 데이터셋 (Neighboring Datasets)이라 한다. 데이터셋 는 데이터셋 에서 정확히 하나의 레코드만 변경하여 얻을 수 있는 모든 데이터셋에 대응되며, 의 수학적 비교는 DP에서 한 개인의 데이터 레코드 변경이 계산량에 미치는 영향을 보여줄 수 있다.

3.2. -Differential Privacy

우리는 이전에 이진 비트 데이터셋에서 randomized response가 개별 비트 정보 복구를 어떻게 방해할 수 있는지 살펴보았다.

이를 더 General하게 표현하면, 한 개인의 데이터가 바뀌더라도 이 데이터셋에 대한 알고리즘의 출력 분포가 거의 안 바뀐다면, 그 개인의 정보는 보호된다고 볼 수 있다는 뜻이다. 이것이 단일 출력 값이 아닌, 출력 분포 전체의 안전성으로 프라이버시를 정의하는 Differential Privacy의 본질이다.

-Differential Privacy

무작위화된 메커니즘 의 가능한 모든 인접 데이터셋 에 대해 가능한 모든 출력 부분집합 에 대해 다음을 만족하면, -Differential Privacy를 만족한다고 정의한다.

  • 무작위화된 메커니즘(Randomized mechanism)
    • 결정론적(deterministic) 메커니즘은 DP를 만족할 수 없으며, 반드시 무작위성을 도입해야 한다.
  • 의 출력 범위(의 가능한 모든 부분집합
  • 프라이버시 예산
    • 일 때, 의 출력 확률 분포가 유사해지며, 는 가능한 모든 이웃 데이터셋에 대해 양방향으로 성립하므로 다음이 자명하다.

이는 공격자가 DP를 만족하는 의 출력으로부터 특정 개별 레코드가 사용되거나 혹은 사용되지 않았는지에 대한 확신의 정도를 으로 제한한다.

앞으로 위의 DP의 정의로부터 나아갈 때, 아래의 사항을 기억하자.

  • 이 0에 가까워질수록 더 강도 높은 프라이버시를 제공하며, 에서 완벽한 프라이버시를 얻는다.
  • DP는 그 정의상 모든 이웃 데이터셋 에 대해 성립하므로 worst-case를 보장한다.
  • 오차 계수가 이 아닌 이며, 이는 추후 계산 및 표기의 용이성을 위함이다. 또한, 0에 가까운 에서 으로의 치환이 가능하다.
  • 우리가 정의한 DP는 단순히 사이의 출력 분포의 유사성을 나타내는 개념으로, 다른 형태의 분포 간 거리를 사용한 대체 정의가 가능하다. ( 등)
  • 이웃 데이터에는 대체(Replacing), 삽입(Insertion), 삭제(Deletion)의 형태들이 존재하나, 이 중 대체가 삽입과 삭제의 조합으로 표현될 수 있으므로 다소 동등한 형태의 정의들로 간주할 수 있다. 따라서 여기서는 이 중 대표적으로 대체(Replacing) 연산을 통해 이웃 데이터셋을 정의한다.

가설 검정 측면에서 DP의 해석

어떠한 개별 레코드 에 대해 다음의 귀무가설 와 대립가설 을 설정해보자.

  • 귀무가설 : 레코드 가 데이터셋 에 포함되어 있다.
  • 대립가설 : 레코드 가 데이터셋 에 포함되어 있지 않다.

DP는 으로부터의 어떠한 테스트도 를 구별할 수 없게끔 보장하며, 그 로그 가능도비를 으로 제한됨을 보장한다.

3.3. Laplace Mechanism (for numeric queries)

이제, 일반적인 numeric query ()에 대해 DP를 가능케 하는 가장 중요한 메커니즘인 Laplace mechanism을 다루어보자.

이를 위해서는 먼저 함수의 함수 f의 출력이 인접한 두 이웃 데이터셋에 대하여 가질 수 있는 최대 변화량을 의미 sensitivity를 정의해야 한다.

Laplace 분포 의 확률 밀도 함수는 이며, 일 때에 로 정의된다. 이를 이용하여 정의되는 Laplace 메커니즘은 다음과 같다.

이 Laplace 메커니즘은 DP를 만족한다. 추가되는 노이즈 의 크기가 단일 개인 데이터의 변화로 인한 의 변화 보다 충분히 커서, 외부에서 출력 를 관찰하더라도 어떤 개인의 데이터가 포함되었는지 또는 변경되었는지 확신하기 어렵게 만들기 때문이다.

이를 수식적으로 증명해보자. 먼저, 임의의 에 대해 의 확률 밀도는 다음과 같다.

여기에서 간에 비율을 취하고 삼각 부등식을 이용하면,

마지막으로 사건 () 에 대해 적분하면 아래와 같이 DP가 성립함을 확인할 수 있다.

또한, 이때 Laplace 노이즈 의 분산은 다음의 사항을 시사한다.

  • 함수 의 최대 변동폭이 클수록 는 더 많은 정보를 누출한다.
    • 은 같은 DP를 위해 더 큰 분산의 Laplace 노이즈를 요구한다.
  • 프라이버시를 강건하게 만드려면, Laplace 노이즈의 분산은 더 커져야 한다.
    • 작은 DP를 위해서는 더 큰 분산의 Laplace 노이즈를 요구한다.

여기서는 프라이버시를 분포적 안정성으로 정의하고, 이전에 살펴본 randomized response와 Laplace mechanism이 그 정의를 만족함을 보였으며, 그 과정에서 함수 의 출력에 있어 한 개인의 영향의 최대 크기인 민감도 (sensitivity)가 왜 DP를 위한 핵심이 되는지 살펴보았다.

그렇다면 만약 여러 DP 알고리즘을 연속으로 실행하면 프라이버시가 어떻게 누적될까? 또한 DP의 출력에 후처리를 하면 프라이버시가 깨지는지, 수치적 출력이 아닌 선택 문제는 어떻게 다뤄야 할까?

4. Properties of Differential Privacy

지금까지는 DP의 수학적으로 엄밀한 정의를 다루어 보았다. 이제는 그 정의가 얼마나 유용하고 다루기 좋은지, 여러 메커니즘을 조합해도 제어 가능한지, 후처리에 안전한지, 샘플링이 어떤 이득을 주는지가 살펴볼 필요가 있다.

4.1. Composition Theorems

이전까지의 DP는 데이터셋에 대한 하나의 메커니즘이 얼마나 프라이버시를 손실/보존하는지를 위주로 살펴보았다. 그렇다면 여러 DP 메커니즘을 같은 데이터셋에 연속해서 적용하는 경우 프라이버시 손실은 어떻게 변할까?

DP는 이렇듯 하나의 데이터셋에 가해지는 여러 메커니즘의 조합 아래에서도, 어떻게 전체 프라이버시 손실이 누적되는지를 이론적으로 추적할 수 있게끔 한다.


Theorem 3.

메커니즘 가 각각 DP, DP를 만족한다고 하자. 이때 두 메커니즘 를 동시에 공개하는 것은 최대 DP를 만족한다.

이를 더욱 일반화하면, 개의 메커니즘 에 대해 각 메커니즘 DP를 만족한다면, 이 출력들의 조합은 DP를 만족하며, 이는 worst-case의 프라이버시 손실 상한으로 작동한다.

특히 동일한 DP를 만족하는 개의 독립 메커니즘의 적용에서 DP는 DP로 프라이버시 손실 에 선형적으로 증가하는 것을 알 수 있다. 이처럼 로그 가능도비가 additive하게 누적되어 깔끔하게 정리된다는 점에서 DP에서 확률 상한을 로 정하는 이유가 된다.

4.2. Post-processing Immunity

이제 DP 메커니즘을 적용한 이후 후처리 (Post-Processing)를 적용했을 때, DP가 어떻게 변하는지 살펴보자.

Theorem 4.

만약 메커니즘 DP를 만족하고, 이 랜덤화 가능한 임의의 함수라면, 결합 메커니즘 또한 DP 이다.

Proof of Theorem 4.

직관적으로 의 출력이 이미 private하므로, 이후 어떠한 변형 도 개별 데이터 레코드에 대한 새로운 종속성을 창출할 수 없다.

출력 사건 에 대해 를 통해 로 보내지는 원래 출력들의 집합을 라 하면, 다음이 성립한다.

즉, DP 메커니즘의 적용 이후 후처리는 privacy loss를 늘리지 못한다. 이러한 후처리 면역성은 DP로 처리된 결과를 공개적으로 게시하고 추가적인 프라이버시 손실에 대한 걱정 없이 모든 후속 분석을 허용할 수 있음을 의미한다.

따라서 초기 결과가 DP를 만족하는 한, 후속의 임의의 부가적인 계산이나 보조 데이터를 가진 공격자조차도 프라이버시를 악화시킬 수 없음을 명확히 한다는 점에서 매우 중요하다.

4.3. Group Privacy

우리는 지금까지 DP를 데이터셋에서 개별 데이터 레코드의 프라이버시를 보존하는 목적으로 정의하고 발전시켜왔다. 만약 개별 데이터 레코드가 아니라 크기 의 개별 그룹을상정하면, 이에 대해 DP의 프라이버시 손실을 추가로 고려할 필요가 있다.

Theorem 5. Group Privacy

만약 메커니즘 DP를 만족하면, 임의의 크기 의 개별 그룹 내 모든 변화에 대해 DP를 만족한다.

Proof of Theorem 5.

이는 상당히 직관적이다. 개의 레코드를 변경하는 것은 번의 단일 레코드 변경을 순차적으로 보는 것으로 간주할 수 있으며, 합성(또는 직접적인 결합 논증)을 통해 가능성 비율에 대한 결합은 이 되고 덧셈 마진은 가 된다.

이러한 그룹 프라이버시는 만약 누군가가 5개의 레코드 그룹(동일한 사람이 데이터에 여러 번 나타나는 경우 등)에 대해 우려한다면, DP의 프라이버시 보장이 그 5배만큼 저하됨을 의미한다. 그럼에도, 일반적으로 은 충분히 작게 유지기에, 너무 크지 않은 에서는 수용 가능한 DP 보장을 받을 수 있을 가능성이 크다.

4.4. Amplification by Subsampling

서브샘플링에 의한 프라이버시 증폭은 DP에서 매우 중요한 긍정적 속성으로 작용한다. SGD에서 미니 배치를 쓰는 등, 우리는 각 개별 데이터 레코드를 특정 확률로만 경우가 상당히 많고, 이러한 서브샘플링은 결과적으로 DP의 프라이버시를 더욱 증폭시킬 수 있다.

Theorem 6. Privacy Amplification by Subsampling

DP을 보장하는 메커니즘 가 있다. 이때, 에 대해 입력 로부터 랜덤 부분집합 을 수행한 후 출력하는 메커니즘 를 고려하자.

개별 데이터 레코드의 서브샘플링 확률을 이라 하면, DP를 만족한다.

Proof of Theorem 6. Privacy Amplification by Subsampling

이웃 데이터셋 을 고려하자. 존재하는 모든 경우의 수를 일반화하여, 각 데이터셋을 , 의 형태로 간주할 수 있다.

이제 각 원소가 으로부터 균일하게 샘플링되는 크기 의 인덱스 지시 벡터 와 이 지시 벡터로부터 샘플링을 수행하는 함수 를 정의하자. 로 정의하면, 임의의 출력 집합 에 대해 다음이 성립한다.

이며, DP에 의해 다음이 성립한다.

  • (1)은 의 정의에 의해 성립한다.
  • (2)는 인 모든 부분 집합과 인 부분 집합 사이에 대응 관계를 찾아 각 대응하는 부분 집합들이 서로 인접하게 만들 수 있다.
  • (3)은 이웃 데이터셋이 이므로 첫 번째 요소를 포함하지 않는 경우에서 에 대한 확률은 동일하다.

따라서 식 (0)은 다음과 같이 바뀐다. 두번째 항은 식 (3)에 의해 항이 없는 것에 유의하자.

우리는 DP의 표현 형태를 만족하기 위해, 를 상계하는 우변을 어떠한 상수 로 표현되는 의 형태로 잡을 수 있어야 한다. 이를 위해 을 정의해보자. 이 는 다음의 성질을 만족한다.

따라서 다음과 같이 전개하여 정리할 수 있다.

이제 에 붙어있는 계수 을 도입해

4.5. Differentially private k-means

means 알고리즘은 개의 데이터를 각 클래스별 분산을 가장 작게 만드는 개의 클래스로 분할하는 고전적인 알고리즘이다. 여기에 DP를 적용하여, 개별 데이터 레코드 가 바뀌어도 전체 k-means 결과가 심각하게 흔들리지 않도록 해보자.

이를 위해 다음의 “Private k-Means via Output Perturbation” 메소드를 사용한다.

Private k-Menas via Output Perturbation

데이터셋 , 클러스터 개수 에 대해 다음의 과정을 수행한다.

  1. 개의 클러스터 중심 를 랜덤하게 초기화한다.
  2. 각 클러스터 를 다음과 같이 업데이트한다.
  1. 각 클러스터 에 대해, 을 샘플링한다.
  2. 를 정의한다.
  3. 를 정의한다.
  4. 각 클러스터 중심 를 다음과 같이 업데이트한다.
  1. 위 과정을 번 반복한다.

private k-means는 각 반복마다 두 가지를 privatize한다.

  1. 각 클러스터의 원소 수 ()
  2. 각 클러스터의 벡터 합 ()

데이터가 인 bounded domain 에 있다고 가정하면, 한 점을 바꾸면 어떤 클러스터에서 빠지고 다른 클러스터에 들어갈 수 있으므로 전체 벡터 합의 -sensitivity는 2가 된다. 또한, 클러스터 개수 벡터 역시 하나 빠지고 하나 들어가므로 sensitivity는 또다시 2이다.

따라서 각각에 Laplace noise scale 를 추가하면 각 단계가 ()-DP 가 되며, 반복마다 “개수 privatization + 합 privatization” 두 번이 있으므로 한 iteration당 (), 총 () 번 반복이면 가 되도록 로 잡으면 전체 알고리즘은 -DP를 만족한다.

즉, 이 알고리즘의 핵심은 k-means 전체를 한 번에 증명하는 것이 아니라, 민감한 sufficient statistics를 DP로 만들고 composition으로 묶는다는 데에 있다.

4.6. Additive Differential Privacy DP

이웃 데이터셋 에 대해 additive DP DP는 모든 출력 사건 에 대해 다음 제약을 요구한다.

즉, 이웃 데이터셋에 대하여 어떤 사건의 확률 차이도 를 넘지 않아야 한다. 이는 지금까지 살펴본 multiplicative DP인 DP와 비슷하게 프라이버시를 잘 보존하는 것으로 보인다.

하지만 문제는, 이 조건이 “이웃 데이터셋에 대해 사건 발생의 확률 차이만 작으면 된다”는 식이라서, 아주 작은 확률로 엄청나게 큰 유출이 발생하는 상황을 막지 못한다는 데 있다. multiplicative DP는 희귀한 사건의 확률도 상대적으로 엄격하게 제어하는 반면, additive-only 조건은 안전한 프라이버시를 제공하지 못하는 메커니즘조차 “어차피 확률이 이하니까 괜찮다”고 통과시켜 버릴 수 있는 것이다.

DP의 위험성

어떤 민감한 사건이 한 데이터셋에서는 확률 , 다른 데이터셋에서는 확률 으로 일어난다고 가정하자.

만약 DP에서 으로 설정한다면 additive DP는 이 기준에서 위의 상황을 허용한다. 하지만 이건 상대적으로는 배 차이로, 관찰자가 이러한 사건을 관측하게 되면 매우 강하게 두 데이터셋을 구별할 수 있다. multiplicative DP는 이웃 데이터셋 간의 사건 확률을 배율 로 제어하기 때문에, 이런 상대적 폭증을 엄격하게 막으려 하지만, additive-only 정의로는 막을 수 없다.

이처럼 DP는 어떤 사건의 확률 질량이 이웃 데이터셋 중 특정 한 쪽에만 몰리는 경우 (극단적으로, 위 예시의 경우 반대쪽 데이터셋에서 사건의 확률 질량이 0)를 핸들링하지 못한다.

만약 DP 테스트의 경우, 한쪽 확률 질량이 0이 되거나 상대적으로 매우 희소해지는 순간, 확률비가 를 쉽게 넘어서며 DP 제약을 위반함을 드러낸다.

4.7. Selection Problem: Exponential Mechanism

이제 숫자 출력이 아닌 선택 문제에 DP를 적용해보자. 특정 클래스 라벨을 선택하는 출력(샘플링 등) 메커니즘은 출력 자체에 노이즈를 걸면 의미없는 수치값이 나오기 때문에, 이를 위한 새로운 개념이 제시되어야 한다.

이를 위해 메커니즘이 데이터셋 에서 후보군 가 뽑히게끔 유도하는 스코어 함수를 특별히 Utility 함수라 부르고 로 표기한다.

Exponential Mechanism은 가능한 각 후보 에 대해, 이 후보가 얼마나 좋은가를 utility 함수 로 정의하고, 이 값의 대소에 따라 각 후보가 뽑힐 확률을 지수적으로 조정하는 메커니즘이다. 지수항이 1보다 커지면 의 작은 차이에 더 민감하게 확률을 조절하고, 지수항이 1보다 작아지면 의 차이에 점점 둔감해지게(즉, 평탄하게) 만든다.

이떄, DP를 위한 민감도 에 의존하여 다음과 같이 정의되며, 이웃 데이터셋 간에 한 데이터 레코드만이 바뀌었을 때, 후보 의 utility가 최대 얼마나 바뀔 수 있는지를 정의한다.


이제 DP 정의를 위해 확률비를 계산해보자. 를 정규화 상수 로 표기하면, 다음과 같다.

민감도 정의에 의해 다음이 성립한다.

또한, 모든 에 대해 성립하므로 이들을 합한 정규화항 에 대해서도 아래 부등식이 성립한다.

따라서 다음의 DP를 만족한다.


이제 privacy만 좋고 답은 엉망이면 쓸모가 없으니, “얼마나 좋은 답을 뽑는가”를 봐야 한다. 따라서, 최고 utility 값을 라 하고, 실제 메커니즘이 출력하는 의 utility 가 에 비해 얼마나 떨어지는지 확인해야 한다. 이 손실을 다음과 같이 정의하자.

출력 공간의 크기를 라 할 때, Exponential Mechanism은 에 대해 원래의 최적 utility보다 이상 나쁜 답을 고를 확률이 이하임을 보장한다. 이를 수식으로 표현하면 다음과 같다.

여기서 중요한 해석으로 다음의 세가지를 기억하자.

  1. 이 커질수록 손실 상한이 작아지므로 더 좋은 답을 고른다.
  2. 민감도 가 클수록 손실 상한이 커진다.
  3. 출력 후보 수 가 늘어나도 손실은 에만 비례한다. 즉, 후보가 많아져도 손실이 로그 스케일로 제한된다.

가장 높은 utility를 가지는 최적 출력을 로 두고, 이때의 utility를 라 하자.

이제, 선택 메커니즘에 의한 나쁜 출력들의 집합 를 다음과 같이 정의하여 임을 보이는 것이 목적이다.

우선, Exponential Mechanism의 정의에 의해 임의의 에 대해 다음이 성립한다.

따라서 임의의 나쁜 사건 에 대해, 다음의 부등식이 성립한다.

그런데, 이고, 이므로 다음처럼 정리될 수 있다.

이로써 나쁜 사건 전체의 확률 상한을 증명했다.


또한 추가적으로 Exponential Mechanism의 기댓값 에 대해서도 다음의 보장을 얻을 수 있다.

라 하면, 의 reparameterization trick에 의해 다음이 성립한다.

4.8. Selection Problem: Noisy Max

Exponential Mechnism이 각 후보 의 유틸리티에 비례하는 exponential 확률로 각 후보를 샘플링한다면, Noisy Max는 각 score에 아예 독립적인 noise를 더한 뒤 argmax 단 하나만을 택하여 공개하는 선택 메커니즘이다.

언뜻 보면, 이전의 Exponential Mechanism과 그 의미는 비슷하다. 특히, 노이즈 샘플링 과정에서 특정 노이즈 분포(Gumbel, Laplace, Exponential 등)을 쓰면 Noisy max에서 argmax로 얻어지는 분포가 Exponential Mechanism과 동일하거나 또는 근사 가능하다는 점에서 두 메커니즘이 수학적으로 밀접한 관련이 있다.

Exponential Mechanism은 이론적인 유틸리티 함수와, 이에 따른 전체 확률 분포의 정규화 등 큰 계산비용을 소모하여 강한 DP 보장을 제공하는 반면, Noisy Max는 명시적인 유틸리티 함수와 정규화 과정 없이 단순히 각 후보에 독립적 노이즈를 추가하는 것만으로 Exponential Mechanism에 근사가 가능한 것이 장점이다. 대신 이렇게 계산 비용을 줄인 만큼 적절한 노이즈 분포 및 스케일을 선택하지 않았을 때에 최적의 프라이버시를 보장하지 못하는 단점을 가진다.


유한한 후보 집합 와 각 후보 에 대한 점수함수 가 있다고 하자. 이 점수 함수의 민감도가 라는 것은, 모든 이웃 데이터셋 과 모든 에 대해 다음이 성립함을 의미한다.

이때 Noisy Max는 각 후보에 독립적으로 를 샘플링하여 다음의 방식으로 후보를 선택한다.

여기서 는 범위가 인 한쪽 방향의 exponential 노이즈를 의미하며, 따라서 확률밀도는 , 여기서 이므로 확률밀도의 tail은 다음이 된다.

특히 점수함수 자체의 민감도는 인데 반해, 최종 전개에서는 분포의 스케일로 가 선택되는 점에 유의하자.

Noisy Max에서 후보 가 이기려면 모든 다른 후보 에 대해 다음이 성립해야 한다.

이때 가 이기는 조건은 에서 샘플링되는 가 어떤 threshold 를 넘어야하는가에 대한 문제로 바뀐다.

이웃 데이터셋 간에 모든 후보에서 생길 수 있는 점수함수의 변동성은 각각 로 상계된다. 따라서 최악의 경우 이웃데이터셋 간에는, 타겟 후보 와 이와 경쟁하는 후보 에 대해 다음의 변동이 가능하다.

이웃 데이터셋 에 대해 threshold를 각각 계산하면 아래와 같고

첫 번째 항에 대해서는 각 에 대해 를, 두 번째 에 대해서는 를 적용하면 다음과 같다.

따라서 이웃데이터셋 간에 경합하는 두 후보의 점수 차이의 최대 변동성은 가 되고, 이 최악의 변동에 대해서도 확률비 변동은 을 넘지 않도록 제한하게 된다.


이제 Noisy Max가 DP를 만족함을 증명해보자. 임의의 출력 에 대해 다음이 성립해야 한다.

후보 가 선택될 확률을 다른 후보들의 노이즈 에 대해 조건부로 쓰면 다음과 같다.

이를 전체 에 대해 적분하면 다음의 전체 확률을 얻는다.

이제 이전의 threshold 부등식 에 의해 다음 부등식이 성립한다.

이제 이 부등식을 전체 확률식 안에 넣으면 다음의 과정으로 DP가 증명된다.

결국 이 과정에서 키 포인트는 와 임의의 에 대해, 에 의해 항상 다음이 성립하는 것이다.


이러한 선택 메커니즘은 단순히 프라이버시를 숨기는 것을 넘어, 결과를 엉뚱하지 않게 만들어야 한다. Utility Theorem은 선택된 후보 의 실제 점수 가 실제 최댓값 보다 얼마나 떨어질 수 있는지를 확률적으로 보장한다.

진짜 최적 후보를 라 하자. d이므로

따라서 다음의 확률 보장을 얻는다.


이로써 우리는

  1. composition으로 복잡한 DP 알고리즘을 설계할 수 있게 되었고,
  2. post-processing 덕분에 DP 출력을 안전하게 재활용할 수 있으며,
  3. group privacy와 subsampling amplification으로 보장의 스케일링이 어떻게 이루어지는지,
  4. k-means, selection problem 같은 실제 문제에 적용하는 방법을 알았다.

다만, 모든 문제가 해결된 것은 아니다. 지금까지 다룬 pure DP만으로는 빈번하게 쓰이는 Gaussian noise 같은 자연스러운 메커니즘을 다루기 어렵다. 또한 이 과정에서 DP의 composition bound가 너무 보수적이어서, “작은 확률의 예외”를 허용하는 유연한 메커니즘의 적용에 무리가 있다.

5. Approximate Differential Privacy