강화학습 없으니 인위적 왜곡 줄어
3.8억개 파라미터의 초경량 모델
추론력 집중하고 창의성 억제 제거
내부 리듬으로 생각하는 AI로 진화

마이크로소프트(MS)가 기존의 강화학습(RLHF) 접근법을 과감히 버리고도 고도화된 수학 추론 능력을 구현한 파이-4-미니-플래시-리즈닝(Phi-4-mini-Flash-Reasoning) 모델을 공개했다. /마이크로소프트

마이크로소프트(MS)가 기존의 강화학습(RLHF) 접근법을 과감히 버리고도 고도화된 수학 추론 능력을 구현한 새로운 모델을 공개했다. 파이-4-미니-플래시-리즈닝(Phi-4-mini-Flash-Reasoning)은 연산 효율성과 추론 능력 사이의 절묘한 균형을 보여주며 학계에 신선한 충격을 던졌다.

15일 빅테크업계에 따르면 MS가 공개한 이번 모델은 단 3억8000만 개의 파라미터를 가진 경량 모델이지만 고난도 수학 문제 해결과 다단계 추론(Multi-hop reasoning)에서 중형 모델들을 압도하는 성능을 보였다. 벤치마크 결과 Math500에서 92.45%의 정확도를 기록하며 업계의 주목을 받았다.

MS의 Phi-4-mini 모델 두 가지 버전을 비교한 그래프다. 기존 방식(reasoning)은 토큰 수가 늘어날수록 처리 시간이 기하급수적으로 증가해 3만2000토큰에서 800초가 넘지만, 새 방식(flash-reasoning)은 같은 조건에서도 300초대에 그쳐 처리 속도가 훨씬 빠르다. 이는 MS가 메모리 접근과 연산을 최적화해 토큰이 많아도 지연 시간이 급격히 폭발하지 않도록 설계했기 때문이다. 쉽게 말해 긴 답변을 생성할 때 기존 모델은 느려 터지지만, 플래시 방식은 훨씬 빠르고 효율적이다. /해설=이상헌 기자
MS의 Phi-4-mini 모델 두 가지 버전을 비교한 그래프다. 기존 방식(reasoning)은 토큰 수가 늘어날수록 처리 시간이 기하급수적으로 증가해 3만2000토큰에서 800초가 넘지만, 새 방식(flash-reasoning)은 같은 조건에서도 300초대에 그쳐 처리 속도가 훨씬 빠르다. 이는 MS가 메모리 접근과 연산을 최적화해 토큰이 많아도 지연 시간이 급격히 폭발하지 않도록 설계했기 때문이다. 쉽게 말해 긴 답변을 생성할 때 기존 모델은 느려 터지지만, 플래시 방식은 훨씬 빠르고 효율적이다. /해설=이상헌 기자

MS는 이번 모델에 새로운 SambaY 아키텍처를 적용했다. 하이브리드 디코더-디코더 방식과 Gated Memory Unit(GMU)을 결합해 메모리 공유 효율성을 높였으며, 긴 문맥에서도 선형 시간 복잡도(linear prefill time)를 유지했다. 이 설계는 파라미터 흐름을 섬세하게 조율하는 손맛을 담고 있다는 평가다.

강화학습 없이 모델을 최적화한 것은 인공지능업계의 고정관념을 깨뜨리는 선택이었다. 기존에는 "RLHF 없이는 인간 친화적 AI가 불가능하다"는 통념이 자리 잡고 있었지만 이번 모델은 지도학습(SFT)과 DPO(Direct Preference Optimization)만으로도 고급 정렬이 가능함을 증명했다.

모델은 AIME24/25 평가에서 52% 이상의 정확도를 달성하며 고난도 문제 해결 능력을 입증했다. 폰북(PhoneBook)과 룰러(RULER) 등 장문 문맥 이해 테스트에서도 높은 일관성과 정확도를 유지해 긴 컨텍스트에서도 안정적인 추론을 발휘했다. 단일 GPU 환경에서도 운용 가능하도록 최적화됐다. 교육용 애플리케이션, 문서 요약, 로직 기반 에이전트 등 다양한 분야에서 활용 가능성을 높여준다.

MS의 이번 선택은 업계의 기존 패러다임을 부수는 선언으로 읽힌다.  이번 MS 모델은 22K 토큰 프롬프트와 32K 토큰 생성을 사용하는 지연시간 테스트에서도 RLHF 의존 모델보다 최대 10배 높은 처리량을 기록했다. 특히 지도학습과 DPO만으로도 인간 친화적 정렬이 가능한 사례는 ‘외부 기준’ 대신 ‘내부 리듬’으로 사고하는 새로운 인공지능의 출현으로 해석된다.

여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr

관련기사

저작권자 © 여성경제신문 무단전재 및 재배포 금지