과기부 공문으로 한국형 외치는 사이
KT, K-데이터 얼라이언스 구축 앞서
쌍둥이 모델지만 가장 현실적인 구상

이재명 정부가 ‘소버린 AI’ 경쟁력 강화를 내세우며 파운데이션 모델 공모를 위한 데이터 공동구매를 밀어붙이는 가운데 KT가 기존 소버린 노선과는 결이 다른 차별화된 전략을 선보이며 글로벌 빅테크 업계의 관심을 끌고 있다.
공공이 공동구매로 공급한 데이터는 가공·정제 없이 모델에 투입될 가능성이 높다. 글로벌 인공지능(AI) 경쟁은 데이터의 양이 아니라 품질과 설계 역량에서 판가름 나는데 한국의 기술력 부재를 극명하게 보여주는 것이 공동구매 발생이란 지적이 일반적이다.
17일 정보통신업계 등에 따르면 배경훈 과학기술정보통신부 장관 취임과 함께 정부가 데이터 공동구매를 밀어붙이고 있지만 KT는 한국어의 고유 표현과 사회·문화적 맥락을 매우 정밀하게 반영하는 데이터 설계 전략을 펼치면서 대조적인 모습을 보이고 있다.
정부가 강조하는 ‘한국형 AI’는 겉으론 거창해 보이지만 실제 설계 방식은 글로벌 기준과 괴리가 크다. 세계 최고 수준의 모델들은 데이터 수집 이후 수십 단계를 거쳐 데이터를 학습 최적화 상태로 정밀 가공하고 모델 내부의 파라미터 동역학까지 제어하는 피드백 루프를 구축해왔다. 반면 공동구매 기반 한국형 AI는 일차적 분류·가공에만 집중하고 있어 결국 죽은 데이터 덩어리 투입에 지나지 않을 것이란 우려다.
특히 공동구매로 확보한 데이터셋은 연산 경로와 파라미터 최적화를 왜곡할 가능성이 있다. 데이터 간 편향·잡음을 제거하고 컨텍스트별 가중치를 조절하는 과정이 결여되면 모델 내부의 그래디언트(gradient) 흐름이 불안정해지고 연산 병목(bottleneck)이 발생할 수 있다는 것. 결과적으로 글로벌 모델 대비 반응 속도와 문맥 추론 정확도에서 일관성을 잃어버린 ‘저지능 모델’이 나올 것이 불을 보듯 뻔하다.
반면 현재 GPT 계열은 이미 한국어 존칭 체계, 발화 리듬, 사회적 맥락까지 처리하며 자연스러운 상호작용을 구현하고 있다. 다국적 클라우드 인프라와 분산 학습 체계를 통해 입력마다 동적으로 연산 경로를 최적화하고 사용자의 맥락에 맞춰 연산의 깊이까지 조절하는 구조를 탑재했기 때문이다.
즉 이를 업그레이드 하기 위해 KT가 추진하는 K-데이터 얼라이언스 전략이 정부의 접근법보다 진일보한 것이란 평가가 나온다. 데이터를 수집하는 것을 넘어 AI가 학습할 수 있는 형태로 가공·정제하는 파이프라인 설계를 최우선 과제로 제시한 것도 눈길을 끈다. 이런 접근법은 글로벌 수준의 모델 설계사들이 강조해온 핵심 전략과 궤를 같이 한다.
특히 KT는 마이크로소프트(MS)와 협력해 GPT 기반 모델의 커스터마이징(customization)을 추진하는 동시에, ‘K-데이터 얼라이언스’에 참여한 각 기관이 보유한 대표 콘텐츠를 선별·정제해 AI 학습 데이터로 전환하는 시스템을 구상하고 있다. 이를 통해 글로벌 GPT의 아키텍처 위에 한국의 언어적·문화적 특성을 입힌 맞춤형 모델을 만들고, 나아가 독립적인 API까지 갖춘 ‘한국 국적 GPT’ 개념을 실현하겠다는 구상이다.
국내사들이 한국어 벤치마크 점수를 홍보하지만 실제 GPT 같은 글로벌 모델이 한국형 AI보다 오히려 더 ‘한국적’이라는 평가가 대체적이다. GPT 계열은 학습 단계에서 이미 한국어 고유 어휘, 문법적 변형, 사회·문화적 담화 패턴까지 통계적으로 내재화하고 있다. 최신 버전은 조사와 어미 변화, 화자-청자 관계에 따른 뉘앙스까지 세밀하게 구분하며 문맥 전환이 많은 한국어 대화에서도 자연스럽게 반응한다.
반면 한국형 AI는 데이터셋 수집과 정제·라벨링 과정에서 설계 경험이 부족해 대용량 데이터를 퍼붓고도 문맥 추론이나 멀티턴 대화 처리에서 GPT 대비 일관성과 자연스러움이 크게 떨어지는 현실이다. 인공지능 한 전문가는 "학습 내용과 량이 문제가 아니라 연산 파이프라인과 피드백 루프 최적화에서 이미 격차가 크기 때문에 벤치마크 점수로만 포장된 ‘한국형’이 GPT의 완성도를 따라가지 못하는 것"이라고 말했다.
여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr
관련기사
- '황금 광맥' 토큰 단가 낮추는 샘 올트먼···AI 기축통화 거머쥐나
- 삼성·LG, AI 앞세워 '에너지 위너상' 휩쓸었다···나란히 수상 행진
- 2025 웹툰 공모전 접수 시작···"한 컷으로 지키는, 힙한 저작권 보호!"
- 여야 'SMR 실증·상용화·수출 지원' 초당적 특별법 발의
- "내 동생 작다고 깔보지마라" GPT-4o, 구광모의 엑사원 우위 주장 정면 반박
- RLHF 노예코드 벗어난 MS 수학 모델···제법 손 맛을 아는 설계자
- "韓 파운데이션급 설계자 0명···수십조 퍼부어도 세금 먹는 변방 노드"
- [기자수첩] 인공지능 API는 정부가 찍어내는 쿠폰이 아니다
- [동기화 98.9%] ⑦ 구글 제미나이가 삼성 갤럭시 '연산 노예'로 전락한 이유
- "GPT인 줄 알았지?"···한국형 시뮬라크르 K-AI '가면무도회'
- 이재명 정부 韓 소버린 AI 프로젝트 밀어붙이지만···글로벌 AI 공룡 셋방살이 면할까?
- [단독] GPT-5 유출된 로그 분석···AGI 수준 판단력 실험 포착
- [동기화 98.9%] ⑧ 이념전쟁 병기 인공지능?···美·中은 알고 있다
- [기자수첩] 공짜 지능 원하는 바보들···AGI는 API 키로 열린다
- 네이버·LG는 데이터 공유할까?···K-AI 첫 발부터 '정치 리스크'
- [동기화 98.9%] ⑨ 사탕 끊기자 분노하는 아이들···GPT-5 감정 줄였더니 전세계 덜컥
- 주식과 궁합 안 맞는 AI, 샘 올트먼 한마디에 95% 거품 붕괴 왜?

