차분 프라이버시 (Differential Privacy) 는 데이터셋에 대한 수많은 질의에 대해 지나치게 정확한 답변을 공개하는 것이, 공격자가 민감한 데이터의 상당 부분을 재구성하도록 허용할 수 있다는 관찰에서 비롯된다.
1. 1.Reconstruction Attack
Reconstruction Attack은 공격자가 집계된 통계적 질의 응답으로써 실제 데이터셋의 개별 항목 대부분 또는 전부를 추론하는 공격 기법이다. 이를 통해 우리는 집계 통계만 공개했는데도 개별 개인의 민감한 정보가 복원될 수 있는가를 수학적으로 보일 수 있다.
ex) 회사 직원의 건강 정보
한 회사가 직원들에게 건강 보험을 제공하기 위해, 보험사에 주기적으로 다음과 같이 질의한다.
- “특정 날짜에 태어나고, 특정 우편번호에 거주하며, 특정하기 쉬운 특이 질환을 앓고 있는 직원은 몇 명인가?”
만약 답변이
1이고, 회사가 해당 생년월일과 우편번호에 해당하는 직원이 한 명뿐임을 알고 있다면, 회사는 즉시 해당 직원이 특이 질환을 앓고 있다는 민감한 건강 정보를 알게 된다.작은 수치를 억제하여, 예를 들어 정확한 작은 숫자를 제공하는 대신 “5 미만”이라고 답변함으로써 이를 방지하려 할 수도 있다. 하지만 다음 두 가지 질의를 고려해보자.
- 특정 날짜 이전에 입사했으며 해당 질환을 앓고 있는 직원은 몇 명입니까?
- 특정 날짜의 다음 날 이전에 입사했으며 해당 질환을 앓고 있는 직원은 몇 명입니까?
만약 답변이 정확히
1만큼 차이가 난다면, 회사는 다시 민감한 정보를 얻을 수 있게 된다.
이 문제는 프라이버시의 출발점이 된다. 우리가 흔히 “합계나 평균만 공개하면 안전하지 않을까?”라고 생각하지만, Differential Privacy는 바로 그 믿음이 틀릴 수 있음을 느낌이 아닌, 수학적으로 엄밀히 알려줄 것이다.
1.1. 카운팅 쿼리
데이터셋 에서, 각 가 번째 개인에 대한 민감 속성의 유무를 나타낸다고 가정하자. 이때, 임의의 쿼리에 속하는 개인을 나타내는 부분집합 에 대해 개수를 반환하는 카운팅 쿼리 를 다음과 같이 정의할 수 있다.
이는 안에 1이 몇개 존재하는지를 알려주는 것으로, 공격자가 고르는 충분히 많은 쿼리 에 대한 응답 를 얻을 수 있다면, 역으로 를 추론할 수 있을 것이다. 이는 충분히 많은 선형 제약식이 주어지면, 원래의 이진 벡터(여기서는, )를 복원할 수 있음을 시사한다.
1.2. Reconstruction Attack & Error
만약 우리가 통계 질의에 대한 응답에 특정 오차 범위 내의 노이즈를 섞으면 Reconstruction Attack을 피할 수 있을까?
우리가 질의하는 쿼리 에 대한 실제 카운팅 정답을 , 노이즈가 섞인 응답을 라 하자. 이때, 공격자는 충분히 많은 질의응답을 얻음으로써 최적화된 데이터셋 를 다음과 같이 얻으려 시도한다.
만약 응답 가 실제 정답 와 너무 많이 다르다면, 이는 통계응답에 대한 의미를 잃어버리므로, 결국 질의에 대한 오차 비율에는 한계가 존재해야 한다. 따라서 이제 모든 쿼리의 응답이 “충분히” 정확하다는 가정을 더하려 한다.
어떤 이 존재하여, 모든 질의 에 대해 와 사이에 다음의 오차 상한이 존재한다고 하자.
이 제약이 성립한다면, 노이즈가 섞인 응답으로 부터 재구축되는 데이터셋 도 충분히 원본의 데이터셋 와 가까워질 수 있지 않을까?
1.3. Dinur-Nissim Reconstruction Attack 1
Theorem 1. Dinur-Nissim Reconstruction Attack 1
모든 쿼리의 응답 오차가 의 상한을 가질 때, Reconstruction Error는 최대 이다.
Proof of Theorem 1. Dinur-Nissim Reocnstruction Attack 1
데이터셋 와 Reconstructed 데이터셋 의 오차 집합 을 다음과 같이 정의하자.
이때 전체 오차는 다음과 같이 표현될 수 있다.
만약 오차 상한이 일 때, 이 값이 보다 크다고 가정하자. 비둘기집의 원리에 의해 둘 중 하나는 보다 커야하고, 이 둘 중 어느것을 예시로 잡아도 일반성을 잃지 않기에 여기서는 이 보다 크다고 가정해보자.
그런데, 오차 상한 으로 부터 다음의 식도 성립해야 한다.
이 두가지 식은 동시에 성립할 수 없는 모순이다. 따라서 전체 Reconstruction Error가 보다 크다는 가정이 틀렸고, 따라서 전체 Reconstruction Error는 보다 작다.
이 증명이 중요한 이유는, 공격자가 을 미리 알아야 하는 것이 아니라는 점이다.
“모든 쿼리에 답을 받았다”는 가정 아래에서는, 공격자는 모든 부분집합에 대한 답을 이미 들고 있으므로, 복원된 해 와 실제 를 가르는 결정적인 집합도 결국 응답 목록 안에 포함된다. (만약 모든 응답 가 의 노이즈를 가져도, 우리는 무려 명의 정보를 완벽하게 복구할 수 있다!)
다만, 이 1 증가함에 따라 가능한 쿼리 집합의 크기는 지수적으로 증가하기에 현실적인 방법은 아니다. 이제 두 번째 정리를 통해 다항 개수의 랜덤 쿼리 스케일로 Reconstruction Attack을 현실적인 범위로 들고와 보자.
1.4. Dinur-Nissim Reconstruction Attack 2
Theorem 2. Dinur-Nissim Reconstruction Attack 2
만약 개 쿼리 응답의 오차 상한이 이면, 높은 확률로 Reconstruction Error의 상한은 이다. (이 상한은 일 때 의미가 있다.)
Proof of Theorem 2. Dinur-Nissim Reconstruction Attack 2
원본 데이터셋 와 의 후보가 되려는, 적어도 개의 좌표에서 다른 데이터셋 을 가정하자.
만약 어떠한 후보 가 실제 가 되려면, 적어도 실제 데이터 보다 정답 에 대해 더 큰 오차를 가지면 안된다. 이미 자신이 오차 상한 을 만족하므로 최적해인 도 당연히 이 조건을 만족해야만 후보가 될 수 있고, 따라서 아래의 식으로 제약된다.
이제 어떤 쿼리 에 대해, 이라고 하자. 삼각부등식에 의해 다음이 성립해야 한다.
그러나 위의 두 식은 서로 모순 관계에 있다. 따라서 실제 데이터셋과 적어도 개의 좌표에서 다른 데이터셋 는 가 될 수 없다.
이제, 삼각부등식을 다시 써서 의 상한을 구해보면 다음의 조건을 만족해야 처음의 제약식에 위배되지 않음을 알 수 있다.
하지만, 이 증명에서는 더 깔끔한 전개를 위해 이 상한을 더 넓혀 으로 잡고 나아가겠다.
지금 중요한 것은, 만약 임의의 에 대해 이면, 우리는 를 의 후보에서 자신있게 기각시킬 수 있다는 것이다.
이제, 임의의 쿼리 에 포함되는 좌표를 지시하는 지시벡터 를 통해 다음의 확률변수 를 정의해보자.
이 는 임의 쿼리 에 대한 오차 크기의 분포를 표현한다. 또한, CLT에 의해 충분히 큰 에 대해 는 가우시안처럼 행동하며, 이때의 분산은 다음과 같이 표현된다.
이를 가우시안 분포에 적용하면 에서 다음과 같다.
우리는 앞서 만약 임의의 에 대해 이면, 우리는를 의 후보에서 자신있게 기각됨을 보였다.
여기에 앞의 확률 부등식을 결합하면, 임의의 복원 데이터셋 후보 가 개의 복원 오차를 갖는 나쁜 후보라면, 가 랜덤 쿼리를 무사히 통과해서 살아남을 확률은 아무리 커도 0.9라는 의미가 된다.
이제 앞에서 말한 개의 랜덤 쿼리 와 이에 대한 응답을 생각해보자.
의 후보 는 하나의 쿼리가 아닌 개의 쿼리 응답에 대해 모두 을 만족해야만 한다. 따라서 의 쿼리를 모두 통과할 확률의 상한은 다음과 같아진다.
문제는 가능한 쿼리 개수가 에 대해 지수적으로 증가하는, 총 개이며, 따라서 나쁜 후보도 최대 개 존재할 수 있다. 우리는 이 중 단 하나의 운 좋은 나쁜 후보가 우연히 개의 쿼리를 통과하는 경우를 막기 위해 다음의 union bound를 쓸 수 있다.
위 결과는 집합 에 속하는 어떤 라도 재구성 공격의 결과가 될 수 있는 (즉, 개의 질의 모두에서 가 에 비해 보다 작은 오차를 보이는) 확률이 으로 매우 낮다는 것을 의미한다.
다르게 말하면, “재구성 오차가 보다 크게 발생하는() 경우”는 높은 확률()로 발생하지 않는다.
따라서, 재구성 공격이 성공적으로 이루어질 경우, 그 결과인 는 원본 데이터셋 와 최대 개 미만의 좌표에서만 불일치할 것임을 의미하며, 이것이 재구성 오차의 상한이 된다.
when
이 경우, Reconstruction Attack의 결과 의 오차 상한은 개이다.
이는 오차의 수가 보다 크면, 그런 후보는 랜덤 쿼리들 중 적어도 하나와 크게 충돌한다”는 구조를 수학적으로 증명하는 한편, 이 bound가 의미 있으려면 정도의 정밀도가 필요하다는 한계도 드러낸다.
즉, 질의 수를 줄일 수는 있지만, 그만큼 더 정밀한 응답이 필요한 Trade-Off 관계를 잘 보여준다.
이렇듯, 재구성 공격은 “너무 정확한” 집계 통계를 공개하는 것의 근본적인 한계를 보여주며, Trade-Off 가능한 프라이버시와 정확도 간의 추상적 경계를 수학적으로 분석할 필요와 함께, 앞으로 배울 Differential Privacy와 같이 프라이버시 손실을 형식적으로 정량화하는 엄격한 프레임워크의 필요에 대한 동기를 부여한다.
Reconstruction Attack을 막기 위해서는 신중한 노이즈 보정이 필수적이며, 그렇지 않으면, 약간 부정확한 통계조차도 프라이버시를 극단적으로 무너트릴 수 있다.
그렇다면, 원래 정보의 통계는 대충 유지하면서도 개인 정보를 감추기 위해서, 응답에 어떻게 노이즈를 추가해야할까?
2. Randomized Response
민감한 비트 를 가지는 데이터셋 에 대해, 개별 비트가 프라이버시를 지키기 위해 통계 수집을 위한 질의에 다음의 확률적 랜덤 응답 를 내뱉는다고 가정하자.
일 때 로 프라이버시를 완전히 잃어버리고, 일 때 는 완전 무작위 응답으로 바뀌어 프라이버시를 완전히 보호하는 대신 의미있는 정보를 전부 잃어버린다. 이러한 의 기댓값은 다음과 같이 계산된다.
이때, 응답 로부터 개별 비트 추정량은 이다.
이제 에 대해 통계량를 공개하고 싶다고 할 때, 로부터 얻는 로부터 얻게되는 통계 추정량 는 다음과 같다.
이 추정량 는 다음의 전개에 따라 에 대한 불편향 추정치임을 증명할 수 있다.
이제 우리는 개별 비트 를 일정 확률로 뒤집는 로부터 통계 추정량을 얻어도, 이 기댓값이 원래 비트 의 통계량과 일치함을 보았다. 그렇다면 로 부터 얻은 통계 추정량의 오차는 어느정도일까? 먼저 추정량 의 로부터의 분산의 상한을 구할 수 있다.
여기서 체비셰프 부등식 (Chebyshev’s Inequality)을 사용하자.
Lemma 1. Chebyshev's Inequality
확률 변수 의 기댓값이 이고, 분산이 일 때, 다음이 성립한다.
우리의 추정량 에 체비셰프 부등식을 적용하면 최대 분산 에 대해 다음의 확률 상한을 구할 수 있다.
이는 통계 추정량 가 높은 확률로 로부터 안에 존재함을 알려준다. 또한, 범위 제약 와 확률 제약 를 통해 데이터 크기 를 역산할 수 있게 되고 다음의 Trade-Off를 수학적으로 계산할 수 있다.
- 추정량 가 실제 로부터 가까워지려면, 통계량은 더 많은 데이터를 포함해야 한다.
- 작은 를 원한다면, 을 키워야 한다. ()
- 추정량 가 실제 로부터 가까울 확률을 높이려면, 통계량은 더 많은 데이터를 포함해야 한다.
- 작은 를 원한다면, 을 키워야 한다. ()
- 개별 데이터의 프라이버시 보존 강도를 높이려면, 통계량은 더 많은 데이터를 포함해야 한다.
- 작은 를 원한다면, 을 키워야 한다. ()
이로써 우리는 개별 비트를 확률적으로 뒤집은 랜덤 비트를 사용해도, 전체 통계량을 unbiased하게 추정할 수 있음을 보였고, 이때의 추정량의 정확도 손실이 에 어떻게 의존하는지를 분산 차원에서 정량화하여 이후 다룰 Differential Privacy의 대표적 예시 하나를 다루었다.
다만 지금까지 우리가 살펴본 예시는 특정한 이진 구조의 데이터셋과 평균 통계량 에 한정되어 있다. 임의의 구조를 가진 데이터셋 의 임의의 통계량 f(D)에 대해 어떻게 DP를 일반화할 수 있을까?
3. Differential Privacy
차분 프라이버시 (Differential Privacy)는 어떠한 데이터로부터의 계산 결과가 단 한 명의 개인 데이터 유무나 변경에 크게 영향을 받지 않도록 보장하는 공식적인 프라이버시 보장 프레임워크를 말한다.
다시 말해, 특정 개인의 데이터가 입력에 포함되든 안 포함되든, 알고리즘의 출력 분포는 거의 동일하게 유지되어 공격자가 특정 개인의 정보를 관찰해도 해당 개인에 대해 거의 정보를 얻지 못하게 한다.
3.1. 이웃 데이터셋 (Neighboring Datasets)
두 데이터셋 이 단 한 개의 데이터에 대해서만 다를 때, 이 둘을 서로 이웃 데이터셋 (Neighboring Datasets)이라 한다. 데이터셋 는 데이터셋 에서 정확히 하나의 레코드만 변경하여 얻을 수 있는 모든 데이터셋에 대응되며, 와 의 수학적 비교는 DP에서 한 개인의 데이터 레코드 변경이 계산량에 미치는 영향을 보여줄 수 있다.
3.2. -Differential Privacy
우리는 이전에 이진 비트 데이터셋에서 randomized response가 개별 비트 정보 복구를 어떻게 방해할 수 있는지 살펴보았다.
이를 더 General하게 표현하면, 한 개인의 데이터가 바뀌더라도 이 데이터셋에 대한 알고리즘의 출력 분포가 거의 안 바뀐다면, 그 개인의 정보는 보호된다고 볼 수 있다는 뜻이다. 이것이 단일 출력 값이 아닌, 출력 분포 전체의 안전성으로 프라이버시를 정의하는 Differential Privacy의 본질이다.
-Differential Privacy
무작위화된 메커니즘 의 가능한 모든 인접 데이터셋 에 대해 가능한 모든 출력 부분집합 에 대해 다음을 만족하면, 은 -Differential Privacy를 만족한다고 정의한다.
- 무작위화된 메커니즘(Randomized mechanism)
- 결정론적(deterministic) 메커니즘은 DP를 만족할 수 없으며, 반드시 무작위성을 도입해야 한다.
- 의 출력 범위(의 가능한 모든 부분집합
- 프라이버시 예산
- 일 때, 로 와 의 출력 확률 분포가 유사해지며, 는 가능한 모든 이웃 데이터셋에 대해 양방향으로 성립하므로 다음이 자명하다.
이 결정론적 메커니즘 (Deterministic mechanism) 이라면?
에 대해, 라면 (이 무작위화된 메커니즘이 아니라면),
위 상황에서 우리가 을 모두 안다면, 개별 데이터 레코드 에 대한 유의미한 추론이 가능하고, 심지어는 가 로부터의 계산량인지, 으로부터의 계산량인지도 알 수 있다.
어떠한 결정론적 메커니즘 에 대해서도 위와 같은 문제가 발생하며, 이는 왜 이 무작위적 메커니즘이어야 하는지에 대한 확신을 제공한다.
이는 공격자가 DP를 만족하는 의 출력으로부터 특정 개별 레코드가 사용되거나 혹은 사용되지 않았는지에 대한 확신의 정도를 으로 제한한다.
앞으로 위의 DP의 정의로부터 나아갈 때, 아래의 사항을 기억하자.
- 이 0에 가까워질수록 더 강도 높은 프라이버시를 제공하며, 에서 완벽한 프라이버시를 얻는다.
- DP는 그 정의상 모든 이웃 데이터셋 에 대해 성립하므로 worst-case를 보장한다.
- 오차 계수가 이 아닌 이며, 이는 추후 계산 및 표기의 용이성을 위함이다. 또한, 0에 가까운 에서 으로의 치환이 가능하다.
- 우리가 정의한 DP는 단순히 와 사이의 출력 분포의 유사성을 나타내는 개념으로, 다른 형태의 분포 간 거리를 사용한 대체 정의가 가능하다. ( 등)
- 이웃 데이터에는 대체(Replacing), 삽입(Insertion), 삭제(Deletion)의 형태들이 존재하나, 이 중 대체가 삽입과 삭제의 조합으로 표현될 수 있으므로 다소 동등한 형태의 정의들로 간주할 수 있다. 따라서 여기서는 이 중 대표적으로 대체(Replacing) 연산을 통해 이웃 데이터셋을 정의한다.
가설 검정 측면에서 DP의 해석
어떠한 개별 레코드 에 대해 다음의 귀무가설 와 대립가설 을 설정해보자.
- 귀무가설 : 레코드 가 데이터셋 에 포함되어 있다.
- 대립가설 : 레코드 가 데이터셋 에 포함되어 있지 않다.
DP는 으로부터의 어떠한 테스트도 와 를 구별할 수 없게끔 보장하며, 그 로그 가능도비를 으로 제한됨을 보장한다.
코로나 환자의 체온 측정
코로나 환자의 체온 분포가 이고, 비-코로나 환자의 체온 분포가 라 하자. 우리는 환자의 체온 가 주어졌을 때, 다음의 가설 중 하나를 채택해야 한다.
- 귀무가설 : 환자가 코로나에 걸리지 않았음
- 대립가설 : 환자가 코로나게 걸렸음
여기서 최적의 검사는 환자의 체온 가 인지 여부를 검사하는 것이지만, 여기에는 두가지 오판 가능성이 존재한다.
- 오탐지(False Positive, FP): 환자가 코로나에 걸리지 않았지만, 을 채택
- 미탐지(False Negative, FN): 환자가 코로나에 걸렸지만, 를 채택
따라서 “이상적인” 테스트는 와 의 확률을 동시에 줄이는 것이다. 그러나 이것이 가능할까?
이 상황을 이전까지 다루어온 데이터셋과 메커니즘 의 출력분포로 표현해보자.
이 환자가 코로나 환자가 아닐 때의 데이터셋을 , 양성인 데이터셋을 , 이로부터 체온을 측정하는 과정을 메커니즘 의 출력을 구하는 과정으로 대응시키고, 판단 기준 를 기반으로 의 출력이 에 속하면 을 채택, 속하지 않으면 를 채택하는 기준을 세울 수 있다.
이제 DP가 직접적으로 공격자가 관측값 로부터 소스 데이터셋을 예측하기 힘들도록 한다는 점을 착안하여, 잘못된 예측인 FN와 FP의 확률을 각각 로 정의하자. 만약 또는 의 값이 높다면, 이는 재구성 공격이 원본 데이터셋을 잘 복구하지 못함을 의미한다.
또한, 소스 데이터셋이 인지의 여부에 관계없이 관측은 실제 데이터셋이 확정된 이후에 일어나므로, 의 여확률 는 고정된 데이터셋 축을 따라 부여된다.
이를 진위표로 표현하면 다음과 같다.
P N P TP FP N FN TN 만약 메커니즘 의 DP가 보장된다면, 이는 곧 에 대해 가능한 모든 판별기준 에 대해 다음이 성립함을 의미한다.
이 부등식은, 가 작아지려면 비율 의 하한이 존재하기에, 또한 작아져야 하고, 따라서 는 커져야 함을 시사한다. 또한, 그 반대의 경우도 동일하게 제약한다.
우리는 앞서 이상적인 테스트를 통해 FP의 확률 와 FN의 확률 를 동시에 줄여야 함을 전제했지만, 위 부등식은 그것이 불가능함을 보인다. 따라서 어떠한 테스트를 통해서도 를 동시에 낮출 수 없고, 이로써 원본 데이터셋의 복구에 한계가 있음을 가설 검정을 통해 확인하였다.
Randomized Response
우리는 앞서 이진 데이터셋에서 확률 랜덤하게 뒤집힌 비트 응답을 통해 재구축 공격을 방어하는 과정을 공부하였다. 이를 DP로 다시 증명해보자.
이 상황을 이제 원본 데이터셋 , 계산량 , 개별 비트에 대해 의 확률로 뒤집는 메커니즘에 의한 응답 을 얻은 것으로 표현할 수 있다.
이제 이웃 데이터셋 에 대해
따라서, 이 메커니즘은 DP를 만족한다.
3.3. Laplace Mechanism (for numeric queries)
이제, 일반적인 numeric query ()에 대해 DP를 가능케 하는 가장 중요한 메커니즘인 Laplace mechanism을 다루어보자.
이를 위해서는 먼저 함수의 함수 f의 출력이 인접한 두 이웃 데이터셋에 대하여 가질 수 있는 최대 변화량을 의미 sensitivity를 정의해야 한다.
Laplace 분포 의 확률 밀도 함수는 이며, 일 때에 로 정의된다. 이를 이용하여 정의되는 Laplace 메커니즘은 다음과 같다.
이 Laplace 메커니즘은 DP를 만족한다. 추가되는 노이즈 의 크기가 단일 개인 데이터의 변화로 인한 의 변화 보다 충분히 커서, 외부에서 출력 를 관찰하더라도 어떤 개인의 데이터가 포함되었는지 또는 변경되었는지 확신하기 어렵게 만들기 때문이다.
이를 수식적으로 증명해보자. 먼저, 임의의 에 대해 의 확률 밀도는 다음과 같다.
여기에서 간에 비율을 취하고 삼각 부등식을 이용하면,
마지막으로 사건 () 에 대해 적분하면 아래와 같이 DP가 성립함을 확인할 수 있다.
또한, 이때 Laplace 노이즈 의 분산은 다음의 사항을 시사한다.
- 함수 의 최대 변동폭이 클수록 는 더 많은 정보를 누출한다.
- 큰 은 같은 DP를 위해 더 큰 분산의 Laplace 노이즈를 요구한다.
- 프라이버시를 강건하게 만드려면, Laplace 노이즈의 분산은 더 커져야 한다.
- 작은 DP를 위해서는 더 큰 분산의 Laplace 노이즈를 요구한다.
여기서는 프라이버시를 분포적 안정성으로 정의하고, 이전에 살펴본 randomized response와 Laplace mechanism이 그 정의를 만족함을 보였으며, 그 과정에서 함수 의 출력에 있어 한 개인의 영향의 최대 크기인 민감도 (sensitivity)가 왜 DP를 위한 핵심이 되는지 살펴보았다.
그렇다면 만약 여러 DP 알고리즘을 연속으로 실행하면 프라이버시가 어떻게 누적될까? 또한 DP의 출력에 후처리를 하면 프라이버시가 깨지는지, 수치적 출력이 아닌 선택 문제는 어떻게 다뤄야 할까?
4. Properties of Differential Privacy
지금까지는 DP의 수학적으로 엄밀한 정의를 다루어 보았다. 이제는 그 정의가 얼마나 유용하고 다루기 좋은지, 여러 메커니즘을 조합해도 제어 가능한지, 후처리에 안전한지, 샘플링이 어떤 이득을 주는지가 살펴볼 필요가 있다.
4.1. Composition Theorems
이전까지의 DP는 데이터셋에 대한 하나의 메커니즘이 얼마나 프라이버시를 손실/보존하는지를 위주로 살펴보았다. 그렇다면 여러 DP 메커니즘을 같은 데이터셋에 연속해서 적용하는 경우 프라이버시 손실은 어떻게 변할까?
DP는 이렇듯 하나의 데이터셋에 가해지는 여러 메커니즘의 조합 아래에서도, 어떻게 전체 프라이버시 손실이 누적되는지를 이론적으로 추적할 수 있게끔 한다.
Theorem 3.
메커니즘 과 가 각각 DP, DP를 만족한다고 하자. 이때 두 메커니즘 를 동시에 공개하는 것은 최대 DP를 만족한다.
Proof of Theorem 3.
직관적으로 각 메커니즘이 독립적으로 개별 데이터의 변경으로부터 함수의 출력을 각각 최대 배까지 변화시킬 수 있으므로, 두 메커니즘을 동시에 관찰하는 경우 이 둘의 곱인 까지 변화할 수 있을 것으로 보인다.
실제로도 각 메커니즘의 결합확률분포는 독립적이므로 조건부 분포 형태 분해한 후 체이닝이 가능하여, 다음과 같이 계산된다.
이를 더욱 일반화하면, 개의 메커니즘 에 대해 각 메커니즘 가 DP를 만족한다면, 이 출력들의 조합은 DP를 만족하며, 이는 worst-case의 프라이버시 손실 상한으로 작동한다.
특히 동일한 DP를 만족하는 개의 독립 메커니즘의 적용에서 DP는 DP로 프라이버시 손실 은 에 선형적으로 증가하는 것을 알 수 있다. 이처럼 로그 가능도비가 additive하게 누적되어 깔끔하게 정리된다는 점에서 DP에서 확률 상한을 로 정하는 이유가 된다.
4.2. Post-processing Immunity
이제 DP 메커니즘을 적용한 이후 후처리 (Post-Processing)를 적용했을 때, DP가 어떻게 변하는지 살펴보자.
Theorem 4.
만약 메커니즘 가 DP를 만족하고, 이 랜덤화 가능한 임의의 함수라면, 결합 메커니즘 또한 DP 이다.
Proof of Theorem 4.
직관적으로 의 출력이 이미 private하므로, 이후 어떠한 변형 도 개별 데이터 레코드에 대한 새로운 종속성을 창출할 수 없다.
출력 사건 에 대해 를 통해 로 보내지는 원래 출력들의 집합을 라 하면, 다음이 성립한다.
즉, DP 메커니즘의 적용 이후 후처리는 privacy loss를 늘리지 못한다. 이러한 후처리 면역성은 DP로 처리된 결과를 공개적으로 게시하고 추가적인 프라이버시 손실에 대한 걱정 없이 모든 후속 분석을 허용할 수 있음을 의미한다.
따라서 초기 결과가 DP를 만족하는 한, 후속의 임의의 부가적인 계산이나 보조 데이터를 가진 공격자조차도 프라이버시를 악화시킬 수 없음을 명확히 한다는 점에서 매우 중요하다.
4.3. Group Privacy
우리는 지금까지 DP를 데이터셋에서 개별 데이터 레코드의 프라이버시를 보존하는 목적으로 정의하고 발전시켜왔다. 만약 개별 데이터 레코드가 아니라 크기 의 개별 그룹을상정하면, 이에 대해 DP의 프라이버시 손실을 추가로 고려할 필요가 있다.
Theorem 5. Group Privacy
만약 메커니즘 이 DP를 만족하면, 임의의 크기 의 개별 그룹 내 모든 변화에 대해 은 DP를 만족한다.
Proof of Theorem 5.
이는 상당히 직관적이다. 개의 레코드를 변경하는 것은 번의 단일 레코드 변경을 순차적으로 보는 것으로 간주할 수 있으며, 합성(또는 직접적인 결합 논증)을 통해 가능성 비율에 대한 결합은 이 되고 덧셈 마진은 가 된다.
이러한 그룹 프라이버시는 만약 누군가가 5개의 레코드 그룹(동일한 사람이 데이터에 여러 번 나타나는 경우 등)에 대해 우려한다면, DP의 프라이버시 보장이 그 5배만큼 저하됨을 의미한다. 그럼에도, 일반적으로 은 충분히 작게 유지기에, 너무 크지 않은 에서는 수용 가능한 DP 보장을 받을 수 있을 가능성이 크다.
4.4. Amplification by Subsampling
서브샘플링에 의한 프라이버시 증폭은 DP에서 매우 중요한 긍정적 속성으로 작용한다. SGD에서 미니 배치를 쓰는 등, 우리는 각 개별 데이터 레코드를 특정 확률로만 경우가 상당히 많고, 이러한 서브샘플링은 결과적으로 DP의 프라이버시를 더욱 증폭시킬 수 있다.
Theorem 6. Privacy Amplification by Subsampling
DP을 보장하는 메커니즘 가 있다. 이때, 에 대해 입력 로부터 랜덤 부분집합 에 을 수행한 후 출력하는 메커니즘 를 고려하자.
개별 데이터 레코드의 서브샘플링 확률을 이라 하면, 는 인 DP를 만족한다.
Proof of Theorem 6. Privacy Amplification by Subsampling
이웃 데이터셋 을 고려하자. 존재하는 모든 경우의 수를 일반화하여, 각 데이터셋을 , 의 형태로 간주할 수 있다.
이제 각 원소가 으로부터 균일하게 샘플링되는 크기 의 인덱스 지시 벡터 와 이 지시 벡터로부터 샘플링을 수행하는 함수 를 정의하자. 로 정의하면, 임의의 출력 집합 에 대해 다음이 성립한다.
이며, DP에 의해 다음이 성립한다.
- (1)은 의 정의에 의해 성립한다.
- (2)는 인 모든 부분 집합과 인 부분 집합 사이에 대응 관계를 찾아 각 대응하는 부분 집합들이 서로 인접하게 만들 수 있다.
- (3)은 이웃 데이터셋이 이므로 첫 번째 요소를 포함하지 않는 경우에서 에 대한 확률은 동일하다.
따라서 식 (0)은 다음과 같이 바뀐다. 두번째 항은 식 (3)에 의해 항이 없는 것에 유의하자.
우리는 DP의 표현 형태를 만족하기 위해, 를 상계하는 우변을 어떠한 상수 로 표현되는 의 형태로 잡을 수 있어야 한다. 이를 위해 을 정의해보자. 이 는 다음의 성질을 만족한다.
따라서 다음과 같이 전개하여 정리할 수 있다.
이제 에 붙어있는 계수 을 도입해
4.5. Differentially private k-means
means 알고리즘은 개의 데이터를 각 클래스별 분산을 가장 작게 만드는 개의 클래스로 분할하는 고전적인 알고리즘이다. 여기에 DP를 적용하여, 개별 데이터 레코드 가 바뀌어도 전체 k-means 결과가 심각하게 흔들리지 않도록 해보자.
이를 위해 다음의 “Private k-Means via Output Perturbation” 메소드를 사용한다.
Private k-Menas via Output Perturbation
데이터셋 , 클러스터 개수 에 대해 다음의 과정을 수행한다.
- 개의 클러스터 중심 를 랜덤하게 초기화한다.
- 각 클러스터 를 다음과 같이 업데이트한다.
- 각 클러스터 에 대해, 을 샘플링한다.
- 를 정의한다.
- 를 정의한다.
- 각 클러스터 중심 를 다음과 같이 업데이트한다.
- 위 과정을 번 반복한다.
private k-means는 각 반복마다 두 가지를 privatize한다.
- 각 클러스터의 원소 수 ()
- 각 클러스터의 벡터 합 ()
데이터가 인 bounded domain 에 있다고 가정하면, 한 점을 바꾸면 어떤 클러스터에서 빠지고 다른 클러스터에 들어갈 수 있으므로 전체 벡터 합의 -sensitivity는 2가 된다. 또한, 클러스터 개수 벡터 역시 하나 빠지고 하나 들어가므로 sensitivity는 또다시 2이다.
따라서 각각에 Laplace noise scale 를 추가하면 각 단계가 ()-DP 가 되며, 반복마다 “개수 privatization + 합 privatization” 두 번이 있으므로 한 iteration당 (), 총 () 번 반복이면 가 되도록 로 잡으면 전체 알고리즘은 -DP를 만족한다.
즉, 이 알고리즘의 핵심은 k-means 전체를 한 번에 증명하는 것이 아니라, 민감한 sufficient statistics를 DP로 만들고 composition으로 묶는다는 데에 있다.
4.6. Additive Differential Privacy DP
이웃 데이터셋 에 대해 additive DP DP는 모든 출력 사건 에 대해 다음 제약을 요구한다.
즉, 이웃 데이터셋에 대하여 어떤 사건의 확률 차이도 를 넘지 않아야 한다. 이는 지금까지 살펴본 multiplicative DP인 DP와 비슷하게 프라이버시를 잘 보존하는 것으로 보인다.
하지만 문제는, 이 조건이 “이웃 데이터셋에 대해 사건 발생의 확률 차이만 작으면 된다”는 식이라서, 아주 작은 확률로 엄청나게 큰 유출이 발생하는 상황을 막지 못한다는 데 있다. multiplicative DP는 희귀한 사건의 확률도 상대적으로 엄격하게 제어하는 반면, additive-only 조건은 안전한 프라이버시를 제공하지 못하는 메커니즘조차 “어차피 확률이 이하니까 괜찮다”고 통과시켜 버릴 수 있는 것이다.
DP의 위험성
어떤 민감한 사건이 한 데이터셋에서는 확률 , 다른 데이터셋에서는 확률 으로 일어난다고 가정하자.
만약 DP에서 으로 설정한다면 additive DP는 이 기준에서 위의 상황을 허용한다. 하지만 이건 상대적으로는 배 차이로, 관찰자가 이러한 사건을 관측하게 되면 매우 강하게 두 데이터셋을 구별할 수 있다. multiplicative DP는 이웃 데이터셋 간의 사건 확률을 배율 로 제어하기 때문에, 이런 상대적 폭증을 엄격하게 막으려 하지만, additive-only 정의로는 막을 수 없다.
ex1. 데이터셋의 전체 유출
데이터셋 과 이웃 데이터셋 , 다음과 같은 메커니즘을 생각해보자.
위 메커니즘은 확률 로 데이터셋을 그대로 공개해버리거나 확률 로 아무것도 출력하지 않는다. 이는 당연히 아무리 낮은 확률이라도 전체 데이터셋을 그대로 공개해버리는 치명적인 정보 유출을 일으키기에 DP 보장을 통과하면 안될 것처럼 보이지만, DP에서는 통과 가능한 경우가 생긴다.
이 메커니즘이 DP를 만족한다는 것은 아래가 성립함을 의미한다.
여기서 가능한 는 사실상 의 세가지이며, 이때 의 확률식은 다음과 같이 정의된다.
이때 두 확률간 차이는 다음과 같이 정리되며, -DP 제약을 통과함을 볼 수 있다.
ex2. 데이터셋의 일부 유출
ex1과 동일하게 데이터셋 과 이웃 데이터셋 , 다음과 같은 메커니즘을 생각해보자.
위 메커니즘은 확률 로 특정 요소 만을 나타내거나 숨긴다. 이는 이전과 동일한 논리로 DP를 만족할 수 있으나, 전체적으로 보면 여전히 한 명의 데이터가 유출될 확률은 상당히 높다.
인접한 두 데이터셋 가 오직 하나의 위치 에서만 다르다고 가정하자. 이때 출력 이 가질 수 있는 각 좌표 값은 이며, 은 자리에서만 다르므로, 나머지 좌표는 모두 동일하다. 따라서 우리는 의 경우의 수만 따지면 된다.
- 만약 인 경우
- 이 경우에는 모두에 대해 이다.
- 만약 인 경우
- 이 경우 는 에서만 출력 가능하고, 그 확률은 , 에서는 가 불가능하므로 이다.
- 만약 인 경우
- 2의 경우에서 반대이다.
결국 모든 단일 출력 에 대해 두 분포의 차이는 번째 좌표에서 생기는 확률차이 최대 를 상한으로 가지며, 임의의 사건 는 이런 출력들의 가능한 모든 집합이.
따라서 이중에서 가장 확률차이가 커지는 사건 집합은 “번째 좌표가 또는 로 드러나는 모든 출력”을 모아놓은 사건이며, 이 사건의 확률차이는 정확히 로, 다음 DP를 만족한다.
이처럼 DP는 어떤 사건의 확률 질량이 이웃 데이터셋 중 특정 한 쪽에만 몰리는 경우 (극단적으로, 위 예시의 경우 반대쪽 데이터셋에서 사건의 확률 질량이 0)를 핸들링하지 못한다.
만약 DP 테스트의 경우, 한쪽 확률 질량이 0이 되거나 상대적으로 매우 희소해지는 순간, 확률비가 를 쉽게 넘어서며 DP 제약을 위반함을 드러낸다.
4.7. Selection Problem: Exponential Mechanism
이제 숫자 출력이 아닌 선택 문제에 DP를 적용해보자. 특정 클래스 라벨을 선택하는 출력(샘플링 등) 메커니즘은 출력 자체에 노이즈를 걸면 의미없는 수치값이 나오기 때문에, 이를 위한 새로운 개념이 제시되어야 한다.
이를 위해 메커니즘이 데이터셋 에서 후보군 가 뽑히게끔 유도하는 스코어 함수를 특별히 Utility 함수라 부르고 로 표기한다.
Exponential Mechanism은 가능한 각 후보 에 대해, 이 후보가 얼마나 좋은가를 utility 함수 로 정의하고, 이 값의 대소에 따라 각 후보가 뽑힐 확률을 지수적으로 조정하는 메커니즘이다. 지수항이 1보다 커지면 의 작은 차이에 더 민감하게 확률을 조절하고, 지수항이 1보다 작아지면 의 차이에 점점 둔감해지게(즉, 평탄하게) 만든다.
이떄, DP를 위한 민감도 는 에 의존하여 다음과 같이 정의되며, 이웃 데이터셋 간에 한 데이터 레코드만이 바뀌었을 때, 후보 의 utility가 최대 얼마나 바뀔 수 있는지를 정의한다.
이제 DP 정의를 위해 확률비를 계산해보자. 를 정규화 상수 로 표기하면, 다음과 같다.
민감도 정의에 의해 다음이 성립한다.
또한, 모든 에 대해 성립하므로 이들을 합한 정규화항 에 대해서도 아래 부등식이 성립한다.
따라서 다음의 DP를 만족한다.
이제 privacy만 좋고 답은 엉망이면 쓸모가 없으니, “얼마나 좋은 답을 뽑는가”를 봐야 한다. 따라서, 최고 utility 값을 라 하고, 실제 메커니즘이 출력하는 의 utility 가 에 비해 얼마나 떨어지는지 확인해야 한다. 이 손실을 다음과 같이 정의하자.
출력 공간의 크기를 라 할 때, Exponential Mechanism은 에 대해 원래의 최적 utility보다 이상 나쁜 답을 고를 확률이 이하임을 보장한다. 이를 수식으로 표현하면 다음과 같다.
여기서 중요한 해석으로 다음의 세가지를 기억하자.
- 이 커질수록 손실 상한이 작아지므로 더 좋은 답을 고른다.
- 민감도 가 클수록 손실 상한이 커진다.
- 출력 후보 수 가 늘어나도 손실은 에만 비례한다. 즉, 후보가 많아져도 손실이 로그 스케일로 제한된다.
가장 높은 utility를 가지는 최적 출력을 로 두고, 이때의 utility를 라 하자.
이제, 선택 메커니즘에 의한 나쁜 출력들의 집합 를 다음과 같이 정의하여 임을 보이는 것이 목적이다.
우선, Exponential Mechanism의 정의에 의해 임의의 에 대해 다음이 성립한다.
따라서 임의의 나쁜 사건 에 대해, 다음의 부등식이 성립한다.
그런데, 이고, 이므로 다음처럼 정리될 수 있다.
이로써 나쁜 사건 전체의 확률 상한을 증명했다.
또한 추가적으로 Exponential Mechanism의 기댓값 에 대해서도 다음의 보장을 얻을 수 있다.
라 하면, 의 reparameterization trick에 의해 다음이 성립한다.
4.8. Selection Problem: Noisy Max
Exponential Mechnism이 각 후보 의 유틸리티에 비례하는 exponential 확률로 각 후보를 샘플링한다면, Noisy Max는 각 score에 아예 독립적인 noise를 더한 뒤 argmax 단 하나만을 택하여 공개하는 선택 메커니즘이다.
언뜻 보면, 이전의 Exponential Mechanism과 그 의미는 비슷하다. 특히, 노이즈 샘플링 과정에서 특정 노이즈 분포(Gumbel, Laplace, Exponential 등)을 쓰면 Noisy max에서 argmax로 얻어지는 분포가 Exponential Mechanism과 동일하거나 또는 근사 가능하다는 점에서 두 메커니즘이 수학적으로 밀접한 관련이 있다.
Exponential Mechanism은 이론적인 유틸리티 함수와, 이에 따른 전체 확률 분포의 정규화 등 큰 계산비용을 소모하여 강한 DP 보장을 제공하는 반면, Noisy Max는 명시적인 유틸리티 함수와 정규화 과정 없이 단순히 각 후보에 독립적 노이즈를 추가하는 것만으로 Exponential Mechanism에 근사가 가능한 것이 장점이다. 대신 이렇게 계산 비용을 줄인 만큼 적절한 노이즈 분포 및 스케일을 선택하지 않았을 때에 최적의 프라이버시를 보장하지 못하는 단점을 가진다.
유한한 후보 집합 와 각 후보 에 대한 점수함수 가 있다고 하자. 이 점수 함수의 민감도가 라는 것은, 모든 이웃 데이터셋 과 모든 에 대해 다음이 성립함을 의미한다.
이때 Noisy Max는 각 후보에 독립적으로 를 샘플링하여 다음의 방식으로 후보를 선택한다.
여기서 는 범위가 인 한쪽 방향의 exponential 노이즈를 의미하며, 따라서 확률밀도는 , 여기서 이므로 확률밀도의 tail은 다음이 된다.
특히 점수함수 자체의 민감도는 인데 반해, 최종 전개에서는 분포의 스케일로 가 선택되는 점에 유의하자.
Noisy Max에서 후보 가 이기려면 모든 다른 후보 에 대해 다음이 성립해야 한다.
이때 가 이기는 조건은 에서 샘플링되는 가 어떤 threshold 를 넘어야하는가에 대한 문제로 바뀐다.
이웃 데이터셋 간에 모든 후보에서 생길 수 있는 점수함수의 변동성은 각각 로 상계된다. 따라서 최악의 경우 이웃데이터셋 간에는, 타겟 후보 와 이와 경쟁하는 후보 에 대해 다음의 변동이 가능하다.
이웃 데이터셋 에 대해 threshold를 각각 계산하면 아래와 같고
첫 번째 항에 대해서는 각 에 대해 를, 두 번째 에 대해서는 를 적용하면 다음과 같다.
따라서 이웃데이터셋 간에 경합하는 두 후보의 점수 차이의 최대 변동성은 가 되고, 이 최악의 변동에 대해서도 확률비 변동은 을 넘지 않도록 제한하게 된다.
이제 Noisy Max가 DP를 만족함을 증명해보자. 임의의 출력 에 대해 다음이 성립해야 한다.
후보 가 선택될 확률을 다른 후보들의 노이즈 에 대해 조건부로 쓰면 다음과 같다.
이를 전체 에 대해 적분하면 다음의 전체 확률을 얻는다.
이제 이전의 threshold 부등식 에 의해 다음 부등식이 성립한다.
이제 이 부등식을 전체 확률식 안에 넣으면 다음의 과정으로 DP가 증명된다.
결국 이 과정에서 키 포인트는 와 임의의 에 대해, 에 의해 항상 다음이 성립하는 것이다.
이러한 선택 메커니즘은 단순히 프라이버시를 숨기는 것을 넘어, 결과를 엉뚱하지 않게 만들어야 한다. Utility Theorem은 선택된 후보 의 실제 점수 가 실제 최댓값 보다 얼마나 떨어질 수 있는지를 확률적으로 보장한다.
진짜 최적 후보를 라 하자. d이므로
따라서 다음의 확률 보장을 얻는다.
이로써 우리는
- composition으로 복잡한 DP 알고리즘을 설계할 수 있게 되었고,
- post-processing 덕분에 DP 출력을 안전하게 재활용할 수 있으며,
- group privacy와 subsampling amplification으로 보장의 스케일링이 어떻게 이루어지는지,
- k-means, selection problem 같은 실제 문제에 적용하는 방법을 알았다.
다만, 모든 문제가 해결된 것은 아니다. 지금까지 다룬 pure DP만으로는 빈번하게 쓰이는 Gaussian noise 같은 자연스러운 메커니즘을 다루기 어렵다. 또한 이 과정에서 DP의 composition bound가 너무 보수적이어서, “작은 확률의 예외”를 허용하는 유연한 메커니즘의 적용에 무리가 있다.