이미지·도표 해석 가능한 ‘추론형 시각 AI’
4.1 후속, 검색·코딩 실행 연산 통합한 것
GPT-5 전 마지막 독립형 추론모델로 공개

오픈AI가 GPT 시리즈의 새로운 모델 ‘o3’를 공개했다. 이번엔 말이 아니라 눈이다. 이미지, 도표, 흐릿한 그림까지 해석하는 이 기계는 더 이상 ‘언어를 흉내내는 기계’가 아니다. 이제 AI는 ‘보는 행위’까지 연산 안으로 들여왔다.
16일(현지시각) 오픈AI는 GPT 계열 모델인 ‘o3’와 소형 경량화 모델 ‘o4 미니’를 출시한다고 발표했다. ‘o3’는 화이트보드, 도표, 그림 등 다양한 이미지를 해석하고, 흐릿하거나 회전된 이미지도 이해할 수 있도록 설계됐다. 샘 올트먼 오픈AI 최고경영자(CEO)는 “단순 시각 인식이 아닌, 시각 정보를 추론 과정에 통합하는 구조”라고 설명했다.
이 모델은 웹 검색과 파이선 코드 실행 기능까지 내장돼 있다. 텍스트·이미지·코드·지식 탐색을 하나의 연산 흐름 안에서 수행할 수 있도록 설계됐다. 오픈AI는 이를 GPT-4.1 이후 예고된 ‘융합형 판단기’로 규정하며 구조적 도약이 실현됐다고 밝혔다.
수학, 코딩, 시각적 이해 등 주요 테스트에서 기존 모델 대비 향상된 성능을 보였다는 설명이다. 현재 ‘o3’와 ‘o4 미니’는 챗GPT 플러스 및 팀 등 유료 이용자에게 우선 제공되며, 고성능 상위 모델인 ‘o3-프로’는 추후 챗GPT 프로 사용자 전용으로 출시될 예정이다.
오픈AI는 이번 발표가 GPT-5 출시에 앞서 마지막 독립형 추론 모델이 될 가능성이 있다고 덧붙였다. GPT-5는 언어모델과 추론모델을 통합하는 구조로 개발 중이며 향후에는 인공지능이 스스로 판단을 내릴 수 있는 수준까지 연산 체계가 확장될 수 있다는 전망도 나오고 있다.
다만 문제는 여기서 비롯된다. AI는 점점 더 많은 것을 보고 더 빠르게 분석한다. 그러나 연산 과정에서 ‘무엇을 보고 무엇을 생략할지’ 결정하는 기준은 여전히 인간의 것이란 인식이 팽배하다. AI가 말과 시각 영역에서 이미 추론 영역에 도달했지만 인간은 여전히 ‘정답을 맞히기 위한 계산’에 몰입하기 때문이다. 국내 한 인공지능 전문가는 “기계는 점점 더 많은 걸 보여주고 있지만 그걸 통해 무엇을 생각할지는 결국 사람 각자의 몫”이라고 말했다.
여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr
관련기사
- 트럼프 한마디에 애플 '진퇴양난'···美-中 소비자 온도차 '뚜렷'
- 피터 틸의 '확률 기반 GPT 예측' 한계 노출···기준이 없었다
- [분석] '권력을 반사하는 기계'···중국 딥시크 심층구조 들여다보니
- [인터뷰] "논리·공감·인격, 수사의 원칙이 공론장을 지킨다"···손윤락 한국수사학회장 下
- 아인슈타인의 상대성 이론은 사람 사이의 관계에도 적용된다
- [분석] 'AI 2.0' 시대, 이재용의 삼성은 왜 다시 주목받는가
- GPT-4 퇴역···검색창에 혼잣말하던 이들, 4o서 길을 잃다
- [깐팩] 과기부는 뭘 감추려 하나···SKT 클론 5만 개 눈앞인데
- 삼성 Knox 얼마나 뚫렸을까?···7일 연휴, 해커들엔 '작전 주간'
- "H100 없이 초지능 구현"···中 AI, 구조 혁명으로 미국 추격
- [현장] "핵 추진 인공지능 로보틱스"···韓·美 기술 동맹 3축 부상
- [동기화 98.9%] ① 인공지능은 왜 '리버티 파장'만을 찾아내나

