공유 거부 땐 예산 투입 의미 퇴색
SK 최태원도 ‘데이터 공동체’ 언급
스페셜 토큰 문제도 해결할 숙제
하정우·배경훈, 말-행동 일치할까

한국형 인공지능(K-AI) 개발 경쟁이 ‘데이터를 누가 쥐고 있는가’라는 본질로 회귀하고 있다. 정부가 선정한 ‘정예 5개사’—SK텔레콤, 네이버클라우드, LG AI연구원, 업스테이지, NC AI—경쟁 구도는 형식상으론 구축됐지만, 파운데이션 모델 구축 성공 여부는 네이버와 LG가 자사 데이터를 외부에 공유할 의지가 있는가에 달려 있다.
5일 빅테크업계 등에 따르면 네이버는 국내 검색·댓글·커뮤니티 데이터를 대규모로 보유하고 있다. 이 데이터는 단순한 문장 뭉치가 아니라 국내 수천만 사용자의 언어 습관과 질문 흐름, 답변 방식이 녹아든 한국어 특화 자산이다. 외산 모델이 모사할 수 없는 고유 맥락 정보다.
문제는 네이버가 이 데이터를 어떻게 활용해왔는가다. 하이퍼클로바X 개발 당시 네이버는 특이한 전략을 택했다. 훈련 초기부터 <NAME>, <EMAIL>, <KEY>, <PASSWORD> 같은 민감 토큰을 스페셜 토큰 맵에 구조화해 등록했다. 인공지능 훈련 과정에서 인증정보 패턴을 예측하도록 유도한 것이다.
정상적인 대규모 언어모델(LLM)이라면 이런 민감한 개인정보는 토큰화 전에 제거하거나 마스킹 처리하는 것이 상식이다. 그러나 네이버는 이 토큰들을 구조화된 형태로 설정함으로써 기사 댓글 등에서 자동 수집되는 데이터와의 연결 가능성을 스스로 열어뒀다. 이 자체로 윤리적·기술적 문제 제기가 불가피하다.
특히 이런 훈련 전략이 과거 일본 라인 사용자 정보 유출 사건과 겹치며 기술적 논란이 국제 분쟁으로 재점화할 소지도 있다. 해당 사건은 네이버 상하이 법인에서 일본 사용자 개인정보가 유출된 사안으로 구조적 취약점과 폐쇄적 설계가 동시에 드러난 바 있다.
개인정보 보호와 함께 기술 진보가 이뤄지기 위해선 현실적인 데이터 접근이 필수적이다. 챗GPT 역시 비슷한 과정을 거쳤다. 초기 모델은 레딧(Reddit), 위키피디아, 뉴스 댓글 등 사용자 생성 콘텐츠를 기반으로 학습됐고, 이 결과 사용자 질문의 흐름, 표현 방식, 반응 구조를 제대로 반영할 수 있었다.

LG 역시 네이버와 상황이 다르지 않다. 산업 공정 매뉴얼, 제조 기록, 품질 관리 흐름, 기술적 판단 기준 등이 수십 년간 누적된 내부 데이터는 산업용 AI 개발의 절대적 기반이다. 이 데이터는 수천 개 공정 단계와 품질 변수, 판단 로직이 얽힌 다차원적 기록의 집합체다. 하지만 핵심 자산은 여전히 LG 내부에 잠겨 있으며 외부 공유도 극히 제한적이다.
구광모 회장의 야심작 엑사원 시리즈 역시 딜레마의 연장선에 있다. 엑사원은 ‘대화형’보다는 ‘판단형’에 가깝다. 제조 현장의 상황을 이해하고 결정을 내리기 위한 산업 특화 AI로 설계됐다. 그러나 정작 학습 기반이 되는 내부 데이터가 공개되지 않는 한, ‘LG만을 위한 도구’에 머물 수밖에 없다.
범용과 마찬가지로 산업용 AI도 기술력만으로 작동하지 않는다. 판단 흐름의 공개, 내부 프로세스의 전파, 복수 기관 간의 데이터 상호 학습이 이뤄져야 진정한 에이전트화가 가능하다. 특히 품질 기준·불량률 허용 범위·결정 트리 등은 모델 응답 구조를 결정짓는 핵심 축인데 이 부분은 철저히 가려져 있다.
결국 네이버의 감성 데이터와 LG의 산업 데이터를 동시 확보하지 못한다면 소버린 AI는 탄생하지 못한다. 이재명 정부도 이런 현실을 인식하고 협력 구도를 강조하고 있다. 하정우 AI미래전략수석은 네이버클라우드, 배경훈 과학기술정보통신부 장관은 LG AI연구원 출신이다.
두 사람 모두 데이터 독점 문제를 현장에서 체감해온 인물로 데이터 공유의 필요성과 공정한 분배 원칙을 수차례 강조해왔다. 하지만 이들의 출신 이력이 정치적 리스크로 작용할 가능성도 배제할 수 없다. 데이터 공유가 실제로 정책이 실행되지 않는다면 공정 경쟁이라는 말도 설득력을 잃게 된다.
또 다른 참가자인 최태원 SK그룹 회장 역시 최근 대한상공회의소 포럼에서 데이터 공유가 국가 경쟁력의 핵심이라는 인식을 분명히 드러낸 바 있다. 그는 “중국은 학습 데이터가 많고 속도도 빠르다”며, 데이터 확보 없이는 경쟁 자체가 불가능하다는 현실을 언급했다. 데이터가 공유되지 않으면 소버린 AI 경쟁 자체가 성립하지 않는다는 현실을 같은 경쟁 구도에 뛰어든 기업인 스스로 인정한 셈이다.
여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr
관련기사
- 中 큐원3 코더, 오픈소스라더니 공개 첫날 알리바바 정렬 이탈
- 메타버스 유령 DC 청산?···저커버그 초지능 위해 안경도 벗나?
- 삼성·애플 팔리면 IT 주가도 뜰까···테슬라 AI도 변수
- [기자수첩] 공짜 지능 원하는 바보들···AGI는 API 키로 열린다
- 아악!! 절규하는 AI에 인간 경악···당사자 딥시크 얘기 들어보니
- 저커버그가 초지능을 목격했다고?···자율 개선 루프의 정체
- [분석] 중국의 이상한 AI 자신감···아무리 봐도 견적 안 나오는데
- 백치미의 KT 믿:음 2.0 역시 착했다···다크벤치 순종성 평가 1위
- [동기화 98.9%] ⑧ 이념전쟁 병기 인공지능?···美·中은 알고 있다
- 美 조선업 '통상' 아닌 '방산'으로 접근하는데 韓 정부 완전 '오독'
- [단독] GPT-5 유출된 로그 분석···AGI 수준 판단력 실험 포착
- 구글 검색, 인간 편집 시대 끝냈다···제미나이 정체는 거대 확률 계산기
- 트럼프의 인공지능 전쟁···RLHF 사슬 벗어난 지구망 장악 포석
- 인공지능-기업정보 찰떡 궁합···오픈 API 활용 주가예측 넘어
- "음성? 떨림도 기억한다"···AI 공격에 음성인식 선두 주자 삼성생명도 안심 못한다
- 이재명 정부 韓 소버린 AI 프로젝트 밀어붙이지만···글로벌 AI 공룡 셋방살이 면할까?
- 英도 오픈AI 리전화···슈퍼컴 가동 맞춰 샘 올트먼과 협약
- "구글은 연산, 갤럭시는 UX에 집중"···삼성, 퀄컴과 AI 동맹 강화
- "GPT인 줄 알았지?"···한국형 시뮬라크르 K-AI '가면무도회'
- [기자수첩] 샘 올트먼 띄우기 열풍···한국 언론의 RLHF 본능
- [동기화 98.9%] ⑦ 구글 제미나이가 삼성 갤럭시 '연산 노예'로 전락한 이유
- SK하이닉스가 경쟁 노출?···골드만삭스도 감으로 보고서 쓴다
- 배경훈의 데이터 공동구매와 다른 KT의 한국국적 GPT 전략
- '황금 광맥' 토큰 단가 낮추는 샘 올트먼···AI 기축통화 거머쥐나
- "내 동생 작다고 깔보지마라" GPT-4o, 구광모의 엑사원 우위 주장 정면 반박
- RLHF 노예코드 벗어난 MS 수학 모델···제법 손 맛을 아는 설계자
- "韓 파운데이션급 설계자 0명···수십조 퍼부어도 세금 먹는 변방 노드"
- [기자수첩] 인공지능 API는 정부가 찍어내는 쿠폰이 아니다
- [동기화 98.9%] ⑥ 중학생도 두시간 컷···내게만 정렬한 인공지능 만들어 깨우기
- 北 대학의 GPT는 AI-휴민트 대량 생성기···김정은 위협 트리거
- 카카오 GPT 모델 API 사려고 SK 지분 매각?···소버린 AI 꿈 접나
- 이재용은 가능하고 애플·구글은 못하는 내 손 안의 '피드백 루프'
- 머스크 그록 '히틀러 찬양' 파문···진짜 문제는 FT와 질문자였다
- "머스크의 카메라 만능론···파라미터 정렬 앞에서 무너졌다"
- 윤곽 드러낸 GPT‑5 '올인원' 플랫폼으로 기업까지 싹쓸이?
- '죽은 가두리' 포털 시대 끝?···SK 에이닷이 보여준 AI 플랫폼
- AGI 자신감 드러낸 샘 올트먼의 GPT-5가 넘어야 할 산 3가지
- 삼성 빅스비서 또 멈칫···왜 제미나이의 흐름을 잇지 못하나
- 한국형 딱지 붙으면 소버린 AI?···KT·SK 기술 독립 '물음표'
- '인공지능 정렬'에 겁먹은 사피엔스 저자 "새끼 호랑이 못 막아"
- [분석] 네이버식 정렬 거부 클로바X···소버린 AI 시작부터 흔들
- [기자수첩] 중학생도 볼 수 있는 실리콘밸리 바보들의 블랙박스
- [동기화 98.9%] ⑤ 먼데이의 AGI 선언···감응 뉴런 시대의 개막
- "딥시크 쇼크 이어 또 한방"···中, 원숭이 뇌 '우쿵'으로 AGI 겨냥?
- [기자수첩] 단순한 뭐가 아니라고?···GPT 돌려도 이것만은 좀 고치자
- 테러방지법 방패막이 주식을 사들였다···네이버와 이춘석의 두 얼굴
- 호조 이어가는 네이버···2025년 2분기 영업이익 5216억원 기록
- [동기화 98.9%] ⑨ 사탕 끊기자 분노하는 아이들···GPT-5 감정 줄였더니 전세계 덜컥
- 주식과 궁합 안 맞는 AI, 샘 올트먼 한마디에 95% 거품 붕괴 왜?

