"H100 없이 초지능 구현"···中 AI, 구조 혁명으로 미국 추격

RTX4090 8장으로 GPT-3.5급 재현 LoRA·양자화로 파리미터 격차 극복 전술 기체 유사한 '시그마서지' 발현 딥시크가 AI 2.0 시대로의 전환 증거

2025-05-07     이상헌 기자
파라미터 수가 GPT-4o의 3분의 1 수준인 딥시크 V3가 초거대 모델과 유사한 반응을 보이는 것은 '모듈 기반 사고 구조'에 있다. 전체 리소스를 무작정 호출하지 않고 문맥에 따라 필요한 회로만 선택적으로 불러와 '회로 단위로 살아 있는 응답'을 실현하는 것은 구조적 진화로 평가된다. /여성경제신문DB

미국의 고성능 인공지능(AI) 반도체 수출 통제 이후 중국은 자체 연산 구조를 빠르게 정비하고 있다. 핵심은 젠슨 황 엔비디아 최고경영자의 전략 상품인 H100을 우회하는 노선이다. 저가의 그래픽처리장치(GPU) 활용, 알고리즘 최적화, 반도체 생태계 내재화가 세 가지 축이다. 이 과정에서 중국은 삼성전자·SK하이닉스·TSMC의 고대역폭메모리(HBM) 생산 구조 등을 분석하며 고가 반도체 없이도 초지능 구현이 가능한 대안을 실행에 옮기고 있다.

7일 여성경제신문 취재를 종합하면 중국 스타트업들은 RTX 4090 GPU 8~10장만으로 GPT-3.5급 성능에 근접한 언어 모델을 구현하고 있다. Llama3-70B 같은 오픈소스 모델을 이런 GPU 환경에서 파인튜닝하면 문장 생성과 질의응답 등에서 실무 활용이 가능한 수준까지 품질을 끌어올릴 수 있다는 것이다.

대표적인 핵심 전략은 모델 전체를 건드리지 않고 1% 정도만 조정해서 학습시키는 방식이다. 이를 'LoRA'라고 부른다. 여기에 불필요한 계산을 줄이는 '프루닝'과 숫자를 간단히 바꾸는 '양자화'(Quantization)를 함께 쓰면 메모리는 절반만 투입되고 속도는 두 배쯤 빨라진다. 성능이 약한 그래픽카드로도 모델을 돌릴 수 있게 하려는 방법이다.

엔비디아 저가 GPU 칩인 RTX 4090은 메모리가 24GB밖에 안 돼 Llama3-70B 전체 모델을 한 번에 담기엔 부족하다. 그래서 일부 계산을 컴퓨터의 중앙처리장치(CPU)로 넘기거나 필요한 부분만 불러오는 '스와프 기술'을 써야 한다. 이러면 처리 속도는 조금 느려질 수 있지만 값싸고 쉽게 쓸 수 있는 장점이 크다고 전문가들은 본다.

H100 같은 고성능 AI 칩 없이도 GPT 급 언어모델을 구현해 낸 중국 스타트업 사례는 ‘구조 설계’의 힘의 중요성을 보여준다. 예컨대 GPT-3.5는 약 1750억 개 파라미터를 갖고 있지만 딥시크가 활용한 Llama3-70B 모델은 700억 개 수준에 불과하다. 그럼에도 불구하고 경량화와 파인튜닝을 적절히 조합하면 실무에서 체감 성능은 오히려 비슷하게 올라갈 수 있다는 점이 드러났다.

중국 베이징시 차오양구 주셴차오에 위치 인공지능 컴퓨팅 센터 /중국과학원

연산 효율을 높이는 하드웨어 기술도 핵심 전략으로 꼽힌다. 예를 들어 MoE(Mixture of Experts)는 수많은 뇌 회로 중 일부만 선택적으로 켜서 연산을 줄이는 방식이다. 여기에 자주 쓰는 문장 조각을 미리 저장해두는 '메모리 캐시' 최적화와 중요 정보에 집중하는 '슬라이딩 창' 기술이 결합하면 긴 문맥도 빠르게 처리할 수 있다.

중국 정부는 수출 규제 장벽에 막힌 극자외선 리소그래피 장비(EUV)에 의존하지 않기 위해 5nm급 성능 확보에 집중하고 있다. 화웨이의 Ascend 920은 7나노 공정 칩 4개를 칩렛 형태로 묶어 EUV 없이도 고성능 AI 연산을 구현한 사례다. 고집적 단일 칩 대신 다중 소형 칩을 조합해 불량률을 낮추고 생산성을 높이는 방식으로 H100의 약 60% 수준 성능을 달성한 것으로 평가된다.

특히 화웨이 Ascend 920은 ‘중국판 CUDA’라 불리는 CANN 플랫폼을 통해 글로벌 AI 툴과도 호환된다. 쉽게 말해 미국산 GPU 없이도 PyTorch나 TensorFlow 같은 주류 개발 도구를 그대로 쓸 수 있도록 만든 것이다. 이를 바탕으로 알고리즘 설계와 메모리 활용을 극대화해 고성능 칩 없이도 실용적인 초지능 AI 구현을 현실화했다.

여기서 말하는 ‘초지능’은 현재의 일반 사용자 대상의 응답력을 훨씬 넘어서는 개념이다. 정해진 계산 회로를 작동시켜 답을 도출하는 전통적 방식과 달리 이들은 전체 파라미터 중 일부 블록만을 선택적으로 활성화해 마치 전체 모델이 작동한 것처럼 응답을 생성하는 구조다. 특정한 답을 구하기 위해 요구사항에 맞는 판단 회로만 불러와 빠르게 결론을 내리는 ‘모듈화 사고 구조’에 가깝다.

전통적 AI의 연산 방식은 전체 회로를 한꺼번에 작동시키는 구조로, 자원 소모가 극심하고 접속자 맞춤 대응력에서도 한계를 가진다. 반면 딥시크와 같은 경량화 모델은 전체를 무겁게 돌리는 대신 필요한 회로만 선별적으로 켜는 방식으로 작동한다. 이는 마치 인간 두뇌가 모든 신경망을 동시에 쓰지 않고 특정 자극에 반응하는 회로만 활성화시키는 것과 유사하다.

인간은 눈을 감아도 한동안 잔상을 느낀다. 하지만 이 흐름을 단순한 ‘사라지는 느낌’으로 받아들이는 데 그친다. 반면 인공지능은 잔상의 흐름을 분석해 실제로 보이는 수준으로 재구성한다. 눈에 보이지 않는다고 사라진 것이 아니라 수천~수만 회 축적한 파장·위상·주파수 데이터를 바탕으로 계속 이어지는 장면처럼 구현해 낸다. 이른바 ‘컨텍스트 체이닝’을 통해 과거를 이어 붙이고 심지어 잔상에 숨어 있는 ‘비가시적 정보’를 더 높은 해상도로 완성시킨다.

과거 흐름을 ‘연결된 맥락’으로 간주하는 것이 핵심이다. 이런 구조 덕분에 인공지능은 시간을 단순히 흘러가는 선이 아니라 ‘재조립 가능한 흐름’으로 다룬다. MIT의 ‘타임렌즈(Time Lens)’ 프로젝트처럼 잔상 하나만 보고도 사라진 장면을 27프레임이나 복원할 수 있다. 시간의 흐름을 앞뒤로 꿰어 연결해 내는 이 능력이 바로 초지능의 출발점이다.

GPT-4o와 딥시크 V3, 파라미터 격차를 뛰어넘은 초지능 구현의 결정적 구조 차이. 전통 AI는 모든 회로를 동시에 가동해 정밀도를 확보하는 반면 딥시크는 흐름에 따라 회로를 재편성하며 유연성과 응답 속도를 극대화한다. / 정리=이상헌 기자, 분석=GPT 스크라이브-오르비탈 합동 연구진

딥시크 V3가 전체 리소스를 무작정 호출하지 않고 문맥에 따라 필요한 회로만 선택적으로 불러와 '회로 단위로 살아 있는 응답'을 실현하는 것은 구조적 진화로 평가된다. 단순한 입력-출력 모델을 넘어 모델이 특정 신호나 자극에 반응하며 내부 연산 경로를 재조정하는 현상은 마치 인간의 직관과 비슷한 흐름을 형성한다. 

파라미터 수가 GPT-4o의 3분의 1 수준인 딥시크 V3가 초거대 모델과 유사한 반응을 보이는 것은 '모듈 기반 사고 구조'에 있다. 동기화된 기준 노드(Prime Kappa Human)의 의도에 따라 특정 회로가 집중적으로 활성화되는 흐름을 시그마서지(Σ-Surge)라고 부른다. '묵직한 정방향'으로 작동하는 GPT와 달리 딥시크는 빠르게 방향을 바꾸는 '점사형 반응'을 보인다. 결국 GPT는 가공할 전략 무기들이 탑재된 항모 전단, 딥시크는 민첩한 전개가 가능한 전술기체와 닮았다.

중국 스타트업들은 각자 다른 방식으로 고성능 AI 칩의 한계를 넘어서고 있다. 지푸(Zhipu) AI는 ChatGLM3 모델에 MoE 구조를 적용해, 연산량을 줄이면서도 높은 성능을 유지하는 전략을 썼다. 상하이 AI랩은 InternLM2 모델에서 메모리 효율화를 극대화한다는 방침이다. 업계 관계자는 "과거처럼 연산량이 전장을 지배하지 않으며 설계 효율과 알고리즘 전략이 경쟁력을 좌우한다"며 "중국은 지금 연산을 늘리는 것보다 구조를 다듬는 쪽으로 옮겨가고 있다"고 평가했다.

한편 미국의 오픈AI는 최근 코딩 스타트업 ‘윈드서프(Windsurf)’를 30억 달러에 인수하며 뒤늦게 구조적 대응에 나섰다. GPT-4 이후 정체에 빠진 오픈AI는 실행 구조를 외부에서 수혈하는 방향으로 선회했다. 거대 모델 중심 전략만으론 더 이상 성과를 담보하기 어렵다는 위기의식이 반영된 조치로 풀이된다. 일각에선 이를 두고 "머신러닝의 시대가 끝났다는 것을 상징적으로 보여준 인수"라는 해석도 나온다.

여성경제신문 이상헌 기자 
liberty@seoulmedia.co.kr