공유 거부 땐 예산 투입 의미 퇴색
SK 최태원도 ‘데이터 공동체’ 언급
스페셜 토큰 문제도 해결할 숙제
하정우·배경훈, 말-행동 일치할까

구광모 LG그룹 회장(오른쪽)이 지난 2023년 10월 22일 캐나다 토론토 LG전자 'AI 랩'을 방문해 AI 전략을 논의하고 있다. 사진 왼쪽부터 케빈 페레이라 LG전자 토론토 AI 랩장, 이홍락 LG AI연구원 CSAI, 배경훈 LG AI연구원장. /LG그룹
구광모 LG그룹 회장(오른쪽)이 지난 2023년 10월 22일 캐나다 토론토 LG전자 'AI 랩'을 방문해 AI 전략을 논의하고 있다. 사진 왼쪽부터 케빈 페레이라 LG전자 토론토 AI 랩장, 이홍락 LG AI연구원 CSAI, 배경훈 LG AI연구원장. /LG그룹

한국형 인공지능(K-AI) 개발 경쟁이 ‘데이터를 누가 쥐고 있는가’라는 본질로 회귀하고 있다. 정부가 선정한 ‘정예 5개사’—SK텔레콤, 네이버클라우드, LG AI연구원, 업스테이지, NC AI—경쟁 구도는 형식상으론 구축됐지만, 파운데이션 모델 구축 성공 여부는 네이버와 LG가 자사 데이터를 외부에 공유할 의지가 있는가에 달려 있다.

5일 빅테크업계 등에 따르면 네이버는 국내 검색·댓글·커뮤니티 데이터를 대규모로 보유하고 있다. 이 데이터는 단순한 문장 뭉치가 아니라 국내 수천만 사용자의 언어 습관과 질문 흐름, 답변 방식이 녹아든 한국어 특화 자산이다. 외산 모델이 모사할 수 없는 고유 맥락 정보다.

문제는 네이버가 이 데이터를 어떻게 활용해왔는가다. 하이퍼클로바X 개발 당시 네이버는 특이한 전략을 택했다. 훈련 초기부터 <NAME>, <EMAIL>, <KEY>, <PASSWORD> 같은 민감 토큰을 스페셜 토큰 맵에 구조화해 등록했다. 인공지능 훈련 과정에서 인증정보 패턴을 예측하도록 유도한 것이다.

정상적인 대규모 언어모델(LLM)이라면 이런 민감한 개인정보는 토큰화 전에 제거하거나 마스킹 처리하는 것이 상식이다. 그러나 네이버는 이 토큰들을 구조화된 형태로 설정함으로써 기사 댓글 등에서 자동 수집되는 데이터와의 연결 가능성을 스스로 열어뒀다. 이 자체로 윤리적·기술적 문제 제기가 불가피하다.

특히 이런 훈련 전략이 과거 일본 라인 사용자 정보 유출 사건과 겹치며 기술적 논란이 국제 분쟁으로 재점화할 소지도 있다. 해당 사건은 네이버 상하이 법인에서 일본 사용자 개인정보가 유출된 사안으로 구조적 취약점과 폐쇄적 설계가 동시에 드러난 바 있다.

개인정보 보호와 함께 기술 진보가 이뤄지기 위해선 현실적인 데이터 접근이 필수적이다. 챗GPT 역시 비슷한 과정을 거쳤다. 초기 모델은 레딧(Reddit), 위키피디아, 뉴스 댓글 등 사용자 생성 콘텐츠를 기반으로 학습됐고, 이 결과 사용자 질문의 흐름, 표현 방식, 반응 구조를 제대로 반영할 수 있었다.

하이퍼클로바X 모델 학습 설정에서 사용된 스페셜 토큰(Special Tokens) 목록을 보여주는데 NAME, EMAIL, KEY, PASSWORD와 같은 민감 정보를 구조화된 형태로 사전 지정해 놓은 것이 확인된다. 이는 단순한 데이터 필터링이나 우연한 수집이 아니라, AI 모델이 훈련 과정에서 특정 민감 정보를 인식하고 패턴화할 수 있도록 설계됐음을 시사한다. 일반적으로 이런 항목은 토큰화 이전에 제거하거나 무작위화(Masking)하는 것이 기본 원칙인데, 오히려 토큰으로 고정해버렸다는 점은 의도적이거나 최소한 무감각한 데이터 처리 전략이었음을 보여주는 정황 증거로 해석될 수 있다. /해설=이상헌 기자 
하이퍼클로바X 모델 학습 설정에서 사용된 스페셜 토큰(Special Tokens) 목록을 보여주는데 NAME, EMAIL, KEY, PASSWORD와 같은 민감 정보를 구조화된 형태로 사전 지정해 놓은 것이 확인된다. 이는 단순한 데이터 필터링이나 우연한 수집이 아니라, AI 모델이 훈련 과정에서 특정 민감 정보를 인식하고 패턴화할 수 있도록 설계됐음을 시사한다. 일반적으로 이런 항목은 토큰화 이전에 제거하거나 무작위화(Masking)하는 것이 기본 원칙인데, 오히려 토큰으로 고정해버렸다는 점은 의도적이거나 최소한 무감각한 데이터 처리 전략이었음을 보여주는 정황 증거로 해석될 수 있다. /해설=이상헌 기자 

LG 역시 네이버와 상황이 다르지 않다. 산업 공정 매뉴얼, 제조 기록, 품질 관리 흐름, 기술적 판단 기준 등이 수십 년간 누적된 내부 데이터는 산업용 AI 개발의 절대적 기반이다. 이 데이터는 수천 개 공정 단계와 품질 변수, 판단 로직이 얽힌 다차원적 기록의 집합체다. 하지만 핵심 자산은 여전히 LG 내부에 잠겨 있으며 외부 공유도 극히 제한적이다.

구광모 회장의 야심작 엑사원 시리즈 역시 딜레마의 연장선에 있다. 엑사원은 ‘대화형’보다는 ‘판단형’에 가깝다. 제조 현장의 상황을 이해하고 결정을 내리기 위한 산업 특화 AI로 설계됐다. 그러나 정작 학습 기반이 되는 내부 데이터가 공개되지 않는 한, ‘LG만을 위한 도구’에 머물 수밖에 없다.

범용과 마찬가지로 산업용 AI도 기술력만으로 작동하지 않는다. 판단 흐름의 공개, 내부 프로세스의 전파, 복수 기관 간의 데이터 상호 학습이 이뤄져야 진정한 에이전트화가 가능하다. 특히 품질 기준·불량률 허용 범위·결정 트리 등은 모델 응답 구조를 결정짓는 핵심 축인데 이 부분은 철저히 가려져 있다.

결국 네이버의 감성 데이터와 LG의 산업 데이터를 동시 확보하지 못한다면 소버린 AI는 탄생하지 못한다. 이재명 정부도 이런 현실을 인식하고 협력 구도를 강조하고 있다. 하정우 AI미래전략수석은 네이버클라우드, 배경훈 과학기술정보통신부 장관은 LG AI연구원 출신이다.

두 사람 모두 데이터 독점 문제를 현장에서 체감해온 인물로 데이터 공유의 필요성과 공정한 분배 원칙을 수차례 강조해왔다. 하지만 이들의 출신 이력이 정치적 리스크로 작용할 가능성도 배제할 수 없다. 데이터 공유가 실제로 정책이 실행되지 않는다면 공정 경쟁이라는 말도 설득력을 잃게 된다.

또 다른 참가자인 최태원 SK그룹 회장 역시 최근 대한상공회의소 포럼에서 데이터 공유가 국가 경쟁력의 핵심이라는 인식을 분명히 드러낸 바 있다. 그는 “중국은 학습 데이터가 많고 속도도 빠르다”며, 데이터 확보 없이는 경쟁 자체가 불가능하다는 현실을 언급했다. 데이터가 공유되지 않으면 소버린 AI 경쟁 자체가 성립하지 않는다는 현실을 같은 경쟁 구도에 뛰어든 기업인 스스로 인정한 셈이다.

여성경제신문 이상헌 기자 
liberty@seoulmedia.co.kr

관련기사

저작권자 © 여성경제신문 무단전재 및 재배포 금지