저작권 침해 막는 데이터 포이즈닝···美 연구팀 나이트셰이드 기법 공개
벤 자오 교수 20일 IEEE 학회서 발표 단 100장 이미지로 시스템 오염 가능
"저작권이 있는 자료를 사용하지 않고는 오늘날의 주요 인공지능(AI) 모델을 훈련하는 것이 불가능할 것이다." - ChatGPT 제조사 오픈(Open) AI가 지난 1월 영국 의회에 제출한 보고서
이처럼 아티스트의 창작물을 동의 없이 AI 기계 학습에 활용하는 개인 정보 및 저작권 위반 행위를 방지하는 나이트셰이드(NightShade)에 이목이 쏠리고 있다. 데이터 포이즈닝 기법으로 생성형 AI의 판단을 무력화시켜 인간의 창의성을 침해하지 못하도록 막겠다는 프로젝트다.
16일 인공지능업계 등에 따르면 국제암호학연구협회(International Association for Cryptologic Research)와 IEEE 컴퓨터협회(Institute of Electrical and Electronics Engineers Computer Society)가 오는 20~23일 보안과 개인정보 보호를 주제로 제45회 심포지엄을 가질 예정이다.
미국 캘리포니아주 샌프란시스코 힐튼 샌프란시스코 유니언 스퀘어에서 나흘간 열릴 심포지엄엔 글레이즈와 나이트셰이드를 개발한 벤 자오 미국 시카고대 컴퓨터과학과 교수팀이 참석해 그간의 연구 결과를 발표한다.
나이트셰이드는 이미지 픽셀에 눈에 보이지 않는 수정 사항을 주입하는 방식으로 AI 훈련에 사용하는 데이터셋을 오염시켜 AI가 이미지를 잘못 해석하게 만든다. 예를 들어 고양이 사진을 개라고 믿게 만들 수 있고, 그 반대의 경우도 가능하다. 다만 여러 이미지를 합성해 진짜처럼 보이도록 조작한 딥페이크와는 차이가 있다.
특히 AI 개발자가 기존 모델을 조정하거나 새 모델을 구축하기 위해 인터넷에서 이미지 데이터를 긁어모을 때 오염된 샘플이 침투하면 인간을 모방한 기존의 생성형 AI가 전혀 엉뚱한 판단을 내리도록 한다. 다시 말해 정확하고 합리적인 출력을 생성해야 할 AI의 능력을 감퇴시키는 알고리즘이다.
나이트셰이드의 전신은 지난해 4월 출시해 220만 건의 다운로드를 기록한 '글레이즈(Glaze)'다. 이미지 픽셀을 미묘하게 변경, 아티스트가 자신의 고유한 스타일을 복제하지 못하도록 방어하는 도구다. 예를 들어, 목탄 초상화 스타일이 AI 시스템에는 유화로 나타날 수 있다.
나이트셰이드 역시 글레이즈처럼 이미지에 미세한 변형을 가하는 방식이다. 독약 이미지를 쉽게 걸러낼 수 없도록 해 생성형AI 스테이블 디퓨전을 실제로 오염시키는 실험 결과도 이번 심포지엄에서 발표될 예정이다. 단 100장의 독약 이미지로도 생성형AI를 오염시킬 수 있다는 것.
글레이즈-나이트셰이드 팀은 현재 두 프로그램을 무료로 공개하고 있다. 벤 자오 교수 측은 "나이트셰이드는 은밀한 독 이미지를 생성해 흘려 퍼지는 독 효과를 생성하는 것이 특징"이라며 "적당한 수의 오염만으로도 모든 프롬프트에 대한 이미지 생성 기능이 비활성화될 수 있어 마구잡이로 이미지를 긁어모으는 모델을 방해해 창작자들을 보호할 수 있을 것"이라고 설명했다.