2024년 K-디지털 트레이닝 해커톤 | 딥페이크 범죄예방을 위한 이미지 보호 플랫폼 ‘Faker’
FGSM 기반 적대적 공격(Adversarial Attack)을 활용한 이미지 보호 플랫폼
개요
이 프로젝트는 K-디지털 트레이닝 해커톤의 주제입니다.
본 프로젝트에서는 딥페이크 범죄를 사전 예방적 접근을 도입하여 딥페이크 학습 자체를 무력화하는 이미지 보호 플랫폼 ‘Faker’를 개발하였습니다. 본 플랫폼은 사용자가 업로드한 이미지나 영상을 대상으로 적대적 노이즈를 삽입해 딥페이크 생성 모델이 학습하지 못하도록 방어 기능을 제공합니다.
주제선정
본 프로젝트는 탐지 중심 대응을 넘어, 원본 데이터 보호를 통한 딥페이크 사전 차단에 초점을 맞추어 FGSM 기반 적대적 공격 기법을 활용하였습니다.
최근 들어 딥페이크 기술은 정치·사회·문화 전반에서 악용 사례가 급증하며 개인의 초상권과 프라이버시 침해가 심각한 사회 문제로 떠오르고 있습니다. 기존 대응은 합성물 탐지나 사후 삭제에 집중되어 피해 발생 이후에야 효과가 있었던 반면, 본 프로젝트는 원본 이미지를 보호하여 학습과 생성 단계에서 딥페이크를 원천 차단한다는 문제의식에서 출발하였습니다. 이를 위해 FGSM 기반 적대적 공격 기법을 적용하여 사용자가 공유하는 사진 혹은 영상이 딥페이크 생성 모델에 악용되지 않도록 사전 예방 중심의 대응을 구현하였습니다.
설계과정
딥페이크 모델 분석
적대적 이미지 생성 모델을 알기 위해서는 딥페이크 생성의 전형적인 흐름을 먼저 파악하는 게 중요하다고 판단하였습니다. 딥페이크 생성 모델은 일반적으로 Extract → Train → Convert의 세 단계를 거칩니다. 먼저 원본 영상과 합성 대상 얼굴 영상을 프레임 단위로 추출(Extract)한 뒤, 이를 기반으로 얼굴 특징을 학습(Train)합니다. 이후 학습된 모델을 활용하여 대상 얼굴을 원본 영상에 자연스럽게 합성(Convert)하는 구조입니다. 실제 딥페이크 모델이 어떤 방식으로 학습하고 생성하는지를 구체적으로 확인할 수 있었습니다.
딥페이크 모델은 Extract(추출) → Train(학습) → Convert(합성)의 단계적 구조를 통해 얼굴을 학습·합성합니다.
적대적 이미지 생성
딥페이크 학습을 원천적으로 방해하기 위해 FGSM(Fast Gradient Sign Method) 기반 적대적 공격 기법을 적용하였습니다. FGSM은 손실 함수 𝐽(𝜃, 𝑥, 𝑦)의 그래디언트를 활용하여 입력 데이터 𝑥에 미세한 교란을 추가하는 방식입니다.
\[x_{adv} = x + \epsilon \cdot sign(\nabla_x J(\theta, x, y))\]여기서 ϵ은 교란의 크기를 조절하는 계수로, 너무 크면 사람이 인지할 수 있는 노이즈가 발생하고 너무 작으면 모델에 영향이 미미해집니다. 본 프로젝트에서는 시각적으로는 차이가 거의 없는 수준의 노이즈를 삽입하여, 사람은 구분하기 어렵지만 딥페이크 모델은 정상적으로 학습할 수 없도록 설계하였습니다.
FGSM을 통해 사람은 인지하기 어려우나 딥페이크 모델 학습은 방해하는 미세 교란을 삽입하여 사전 차단 효과를 구현하였습니다.
실험 과정에서 𝜖 = 0.01 값을 적용했을 때, 화질 저하 문제는 최소화되면서도 딥페이크 모델의 학습은 효과적으로 방해되는 결과를 얻을 수 있었습니다. 추가로 진행한 설문조사에서 응답자의 91.7%가 0.01 수준의 화질 저하는 수용 가능하다고 응답하여 실용적 관점에서도 긍정적인 결과를 확인할 수 있었습니다.
𝜖 = 0.01 적용 시 시각적 품질은 유지되면서도 학습 방해 효과가 확인되었고 설문조사에서도 91.7% 이상이 수용 가능하다고 응답했습니다.
‘Faker’을 통해 생성된 적대적 이미지와 원본 이미지 
품질 평가
생성된 적대적 이미지가 실제 사용자에게는 원본과 유사하게 보이면서도 딥페이크 학습에는 방해가 되는지를 확인하기 위해 L2 Norm, PSNR, SSIM 지표를 활용하여 품질을 평가하였습니다.
PSNR 40dB, SSIM 0.96 수준인 𝜖 = 0.01이 화질 저하가 거의 없으면서도 모델 학습에 충분히 방해가 되는 최적 값으로 확인되었습니다.
효과 검증
‘Faker’ 플랫폼을 거쳐 생성된 적대적 이미지가 실제로 딥페이크 학습과 생성에 영향을 주는지 확인하기 위해 Faceswap 모델을 사용하여 검증을 진행하였습니다. Faceswap은 일반적으로 원본 얼굴과 대상 얼굴을 학습한 후 이를 영상에 합성하는 방식으로 동작합니다. 그러나 적대적 노이즈가 삽입된 이미지를 학습 데이터로 제공했을 때, 모델이 얼굴 특징을 제대로 추출하지 못하여 합성 결과가 크게 왜곡되는 것을 확인할 수 있었습니다.
Faceswap모델에 적대적 이미지를 직접 학습시켜 딥페이크 모델의 학습을 방해하고 합성 결과를 왜곡시킨다는 것을 검증하였습니다.
산출물
실험 결과
Faker 플랫폼은 FGSM 기반 적대적 노이즈를 이미지에 삽입하여, 시각적 품질을 유지하면서도 딥페이크 모델 학습에 방해 효과를 주는 것을 목표로 하였습니다. 품질 평가 지표(L2 Norm, PSNR, SSIM)를 통해 ε=0.01 수준에서 화질 저하는 최소화하면서도 학습 방해 효과가 충분히 나타남을 확인할 수 있었습니다. 또한 생성된 적대적 이미지를 실제 faceswap 모델에 입력하여 검증한 결과, 원본 이미지와 비교했을 때 얼굴 합성 품질이 눈에 띄게 저하되었으며, 정상적인 학습 및 변환이 이루어지지 않았습니다. 이를 통해 Faker가 딥페이크 생성 과정에 실질적인 방어 효과를 가짐을 입증할 수 있었습니다.
고찰
이번 프로젝트를 통해 딥페이크 대응은 단순히 탐지 단계에서 그치는 것이 아니라 원천 데이터를 보호하여 학습 자체를 무력화하는 방식으로 확장될 수 있음을 확인할 수 있었습니다. 특히 FGSM 기반 적대적 공격을 실제 모델에 적용해 봄으로써 이론적 아이디어가 실질적인 방어 수단으로 작동할 수 있음을 검증한 점에서 큰 의미가 있었습니다. 또한 화질 저하와 방어 성능 간의 균형을 고려하는 과정은 기술적 완성도를 높이는 동시에 실제 활용 가능성까지 고민하게 해준 경험이었습니다. 현재 방식은 이미지 전체에 노이즈를 삽입하는 구조라 불필요한 영역까지 교란이 추가되어 화질 저하가 불가피했습니다. 만약 얼굴 영역만 정밀하게 탐지해 해당 부분에 한정하여 노이즈를 삽입했다면 화질은 유지하면서도 딥페이크 학습을 효과적으로 방해할 수 있었을 것이라 생각하여 아쉬움도 남습니다. 무엇보다도 이러한 시도가 대회에서 긍정적으로 평가받아 수상이라는 값진 성과를 얻을 수 있었던 점이 뿌듯했습니다.


