같은 파라미터, 다른 질서···GPU와 NPU의 헤게모니 전쟁
전력 60분의 1로 구조 바꾸는 신경망 처리 하드웨어 효율 탁월해도 문 닫은 클라우드 스타트업들 플랫폼 흡수 전략부터 세워야
딥러닝에서 파라미터란 학습을 통해 조정되는 가중치(weight)를 의미한다. 예를 들어 GPT-4처럼 대규모 언어 모델은 설계 단계에서 이미 "나는 1조 7500억 개의 파라미터를 가진다"고 정의된다. 이 수치는 훈련 데이터나 GPU 개수와는 상관없이 모델 설계자가 결정하는 것이다.
문제는 장비와 무관하게 고정된 파라미터 숫자를 ‘어떻게 처리하느냐’가 인공지능(AI) 기술의 결정 요인이 된다는 점이다. 그래픽처리장치(GPU)와 신경망처리장치(NPU)는 모두 파라미터를 연산하는 장치다. 그러나 병렬 구조로 밀어붙이는 GPU와 전력 대비 처리량을 극대화하는 NPU는 접근 방식부터 다르다. GPU는 수많은 파라미터를 동시에 다루며 대형 모델 학습에 적합한 반면 NPU는 적은 자원으로 빠르게 처리하는 쪽에 최적화돼 있다.
지난 15일 코엑스에서 열린 2025년 국제인공지능대전에서 김정욱 딥엑스 부사장은 “GPU는 구조적 한계에 도달했고 클라우드는 더 이상 해법이 아니다”라고 단언했다. 그는 “200 TOPS GPU가 40와트를 쓸 때, 우리는 25 TOPS를 4.5와트로 처리한다며 NPU의 연산 효율성을 강조했다.
김 부사장은 이날 자율화, 탄소 감축, 프라이버시 보호, 실시간 대응 같은 장점을 제시하며 “AI는 전기처럼 작동하고 공기처럼 존재하는 기술이 될 것”이라고 말했다. 그 중심에 GPU가 아닌 NPU가 있어야 한다는 설명도 덧붙였지만 기술의 방향성이 아무리 명확하더라도 클라우드 플랫폼 내부로 진입하지 못한다면 선언에 그칠 우려가 있다.
클라우드 환경에 포함되지 않은 연산은 바깥을 맴돌 뿐이다. GPU는 플랫폼 내부 기준에 맞춰 소프트웨어와의 호환성을 갖추고 있으며, GPT류 초대형 모델은 이 구조 안에서 분산 학습을 수행한다. 파라미터가 같더라도 작동이 이뤄지는 곳은 클라우드 내부로 한정된다.
NPU 제조사들은 같은 파라미터를 훨씬 적은 전력과 자원으로 처리하는 기술을 구현했으나 “얼마나 큰 모델을 견딜 수 있는가”를 전제로 작동하는 플랫폼은 문을 열지 않았다는 얘기다. 오히려 주요 클라우드 플랫폼은 각기 다른 하드웨어 통합 전략을 통해 자사 생태계를 강화하고 있다.
아마존 웹서비스(AWS)는 Nitro 시스템, 마이크로소프트 애저(MS Azure)는 DPU 기반, 구글 클라우드(GCP)는 데이터 중심 통합 구조를 고도화하며 자사 내부 연산 질서를 고착화했다. AWS는 자체 설계한 시스템으로 가상화·보안·I/O까지 하드웨어에 내장해 플랫폼 일체화를 완성했다. 외부 칩셋의 개입 여지를 원천적으로 봉쇄한 구조에서 AI 연산은 결국 AWS 생태계 안에서 설계된 칩으로만 이뤄진다.
MS Azure도 Boost DPU 구조를 통해 보안과 네트워크 처리 기능을 전용 하드웨어로 분리했다. DPU는 멀티테넌시 기반 클라우드에서의 보안성과 독립성을 확보하는 수단이며 이는 결과적으로 외부 연산 장치의 연결 가능성을 제한하는 방식으로 작동한다.
반면 GCP는 상대적으로 개방적이다. TensorFlow, Vertex AI, BigQuery 등 데이터 중심 서비스에 특화돼 있으며, 오픈소스 기반 도구와의 연동을 허용한다. 그러나 하드웨어 통합 측면에서는 보수적인 편이며, GPU·TPU 중심의 연산 구조가 고착돼 있다. 성능만으로는 통합되지 않고, 구조 안에 있어야 작동하는 플랫폼이다.
중국계 클라우드 플랫폼도 점점 폐쇄적 구조로 수렴 중이다. 화웨이는 Ascend NPU를 중심으로 AI 컴퓨팅을 자사 칩 위에서만 구성하려 하며, 알리바바는 Hanguang 칩과 칸둥 프레임워크를 통해 내부 추론 구조를 고정하고 있다. 텐센트는 T-Head 기반의 독자 구조를 고도화하고 있어 사실상 중국 내 NPU도 자사 칩셋 간 경쟁으로 좁혀져 외부 하드웨어가 설 자리는 거의 없다.
NPU가 주요 클라우드 플랫폼에서 배제되는 기술적 이유는 성능 문제가 아니다. 대부분의 NPU는 GPU와 달리 표준화된 커널(Kernel) 구조를 따르지 않거나 엔비디아에서 개발한 GPU 개발 툴(CUDA)이나 범용 추론 프레임워크와의 API 호환성이 부족하다. 또한 플랫폼이 요구하는 분산 추론 구조에 적응하지 못하는 측면도 있다. 이로 인해 딥엑스, 퓨리오사AI, 모빌린트 같은 국내외 유망 NPU 기업들도 실제 서비스에 채택되기보다는 기술 전시에 머무는 장벽에 부딪히고 있다.
인공지능 스타트업 한 관계자는 여성경제신문에 “미국계 AWS·Azure·GCP와 중국계 화웨이·알리바바·텐센트 간의 이중 클라우드 블록화가 가속되면서, NPU 기업은 기술력만으로는 살아남을 수 없는 국면에 접어들고 있다”며 “이제는 하드웨어를 설계하는 것이 아니라 플랫폼에 흡수될 전략부터 다시 짜야 할 때”라고 말했다.
여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr