애플 MLX 프레임워크 최적화 '큐원3' 공개
제미나이, 라마3 대비 최대 40% 비용 절감
덴스·MoE 아키텍처 병행 연산 효율성 강화
애플 인텔리전스, 중국 출시 초읽기 전망도

알리바바가 애플의 머신러닝 프레임워크에 최적화된 온디바이스 인공지능(AI) 모델을 공개하며 중국용 아이폰에 '애플 인텔리전스'가 탑재될 가능성이 커지고 있다.
18일 알리바바는 애플의 MLX 프레임워크에 최적화된 AI 모델 '큐원3(Qwen3)'를 출시했다고 밝혔다. 이 모델은 아이폰, 아이패드, 맥북, 맥 등 중국 내 애플 기기에서 AI 기능을 온디바이스로 직접 실행할 수 있도록 설계됐다.
이는 알리바바가 애플 인텔리전스의 중국 출시를 위해 애플과 협업한 결과다. 특히 큐원3는 데이터를 해외 서버로 전송하지 않고 온디바이스에서 처리해 중국 정부의 데이터 보안 규제에 부합한다.
큐원3는 애플의 뉴럴 엔진과 MLX에 최적화돼 연산 자원 사용을 최대 90%까지 줄이면서도 높은 성능을 유지한다. 이를 통해 구글의 '제미나이'나 메타의 '라마3' 대비 최대 30~40%의 비용 절감 효과를 제공할 수 있다는 설명이다.
이와 함께 MLX-LM은 오픈소스 플랫폼 '허깅페이스'와 통합돼 애플 실리콘 사용자들이 4400개 이상의 대형언어모델(LLM)을 클라우드 없이 로컬에서 실행할 수 있다.
큐원3는 추론 모드와 비추론 모드를 자유롭게 전환할 수 있는 하이브리드 구조를 갖췄으며 최대 3만8000 토큰까지 사고 지속 시간을 설정할 수 있다. 이는 모델이 정보를 스스로 검증하는 'o3'와 유사한 방식으로 정밀한 AI 작업에 적합하다.
특히 두 가지 아키텍처를 지원한다. '덴스(Dense)' 구조는 모든 매개변수를 항상 활성화해 예측 가능한 성능과 저지연 처리를 제공하며 '전문가 혼합(MoE)' 구조는 입력에 따라 일부 전문가만 활성화해 연산 효율성을 높인다. MoE 방식은 최대 2350억 개의 매개변수를 지원하며 의료 추론이나 코드 생성 등 전문 분야에 적합하다는 평가다.
MoE 모델은 동일한 덴스 모델 대비 네트워크 통신량을 약 50% 줄일 수 있어 다양한 환경에서의 AI 추론이 유리하다는 장점도 있다.
한편 알리바바는 지난 2월 애플과의 협업을 발표한 이후 4개월 만에 맞춤형 모델을 선보였다. 이에 따라 애플 인텔리전스의 중국 출시가 임박했다는 전망에 힘이 실리고 있다.
여성경제신문 김성하 기자 lysf@seoulmedia.co.kr

