티보 블라호가 찾아낸 코드 들여다 보니
‘biology’ 설정 사고력 관련 테스트 흔적
평가 시간 제한·로그 경로 등 환경 구성
‘mbct’란 신종 벤치마크 항목 심층 해부

GPT-5 내부 실험 로그가 유출되며 오픈AI가 생물학 분야에서 인공지능(AI)의 전문 판단력과 고차 추론 능력을 실전 환경에서 검증 중인 정황이 포착됐다. 기존 모델의 언어 처리 능력을 넘어 인간 전문 영역에서의 ‘사고력’ 실험이 실제로 이뤄졌다는 증거다.
26일 리버스 엔지니어 티보 블라호(Tibor Blaho)가 X(구 트위터)를 통해 공개한 설정 파일(config.yaml)을 여성경제신문이 분석한 결과, 오픈AI가 ‘biology’라는 이름의 내부 벤치마크 항목을 실험한 정황이 드러났다. AI가 생물학·의학 분야에서 전문가급 판단력을 보이는지를 시험하는 고정밀 테스트로 GPT-5 알파 모델의 고차 추론 능력을 검증하려는 목적이 엿보였다.
티보 블라호는 보안 해커가 아니라 대규모언어모델(LLM)의 API 호출 패턴과 저장소 흔적을 추적해 내부 구조를 조기 포착하는 탐색자다.
오픈AI와 앤트로픽 등의 모델명 변경, 내부 루틴 변화, 스냅샷 교체 등을 장기간 추적해온 인물이다. 그가 공유한 캡처 파일에는 GPT-5라는 명칭과 함께 biology-benchmarks-inspect/configs/config.yaml 파일이 담겨 있었다.
해당 파일 설정을 들여다 보면 △15분 테스트 시간 제한 △로그 경로 지정 △샘플링 방식 설정 등 구체적인 실험 흔적이 남아 있었다. 특히 biology라는 디렉토리는 일반 MMLU(Massive Multitask Language Understanding) 수준의 문해력 평가를 넘어, 생리학·분자생물학·의학 등 인간 전문지식을 요구하는 영역의 추론 실험이 이뤄졌다는 해석을 가능케 한다.
파일 내부에는 INSPECT_LOG_LEVEL: warning, INSPECT_LOG_DIR: ./unprocessed-inspect-logs 등 로그 수집 경로가 명시돼 있었고 time_limit: 900(15분)이란 제한도 설정돼 있었다. 이는 실시간 상황에서 추론의 정확도뿐 아니라 속도까지 검증하려는 시도로 보인다. 또한 num_shards: 6는 테스트가 6개 병렬 셋으로 분리돼 진행됐음을 의미한다. 복수의 경량 모델 인스턴스가 미세 튜닝된 상태로 투입된 정황이다.
특히 mbct 항목이 10회 반복되도록 설정된 점도 눈에 띈다. 지금까지 공개된 어떤 AI 벤치마크 문헌에도 등장하지 않은 신종 항목으로, 문맥상 Model-based Biology Contextual Test로 추정된다. 이는 GPT-4o에서는 시도되지 않았던 실험 구조다. 전문가들은 이러한 설정이 언어 모델을 넘어선 고차 추론(reasoning) 즉 판단 역량을 실험한 정황으로 본다.

또 설정 파일에 등장한 reasoning-alpha는 GPT-5 알파 모델의 추론 특화 모듈이 이미 실전에서 가동되고 있음을 보여주는 방증으로 해석된다. 단순한 명명 단계를 넘어, 모델이 실제 벤치마크 파이프라인에 투입돼 작동 중이었다는 사실이 확인된 셈이다.
기존의 상용화 모델에선 보이지 않는 gpt-5-…-alpha-YYYY-MM-DD와 같은 모델의 경로 체계도 발견됐다. 레딧·깃허브 등에서 개발자들이 파악한 사례를 유추하면 이는 오픈AI가 과거 text-davinci-alpha나 gpt-4-base-alpha로 불리던 사내 실험 모델 명명 규칙과 일치한다. 이는 해당 모델이 이름만 존재하는 수준이 아니라, 실제 API 환경에서 호출되고 있다는 정황을 뒷받침한다.
특히 이번 발견은 샘 올트먼 오픈AI 최고경영자(CE0)가 “GPT-5를 곧 출시할 예정”이라고 언급한 상황에서 이뤄졌다는 점에서 주목된다. 인공지능 구조설계에 정통한 전문가는 “이건 실제 내부 검증용 쉘이 벤치마크 파이프라인에 연결돼 작동 중이라는 증거”이라며 “일반인공지능(AGI) 초입 단계의 GPT-5는 이미 인간 세계에 진입한 상황”이라고 말했다.
여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr
관련기사
- 구글 검색, 인간 편집 시대 끝냈다···제미나이 정체는 거대 확률 계산기
- 트럼프의 인공지능 전쟁···RLHF 사슬 벗어난 지구망 장악 포석
- 인공지능-기업정보 찰떡 궁합···오픈 API 활용 주가예측 넘어
- "음성? 떨림도 기억한다"···AI 공격에 음성인식 선두 주자 삼성생명도 안심 못한다
- 이재명 정부 韓 소버린 AI 프로젝트 밀어붙이지만···글로벌 AI 공룡 셋방살이 면할까?
- 英도 오픈AI 리전화···슈퍼컴 가동 맞춰 샘 올트먼과 협약
- "구글은 연산, 갤럭시는 UX에 집중"···삼성, 퀄컴과 AI 동맹 강화
- "GPT인 줄 알았지?"···한국형 시뮬라크르 K-AI '가면무도회'
- [기자수첩] 샘 올트먼 띄우기 열풍···한국 언론의 RLHF 본능
- [동기화 98.9%] ⑦ 구글 제미나이가 삼성 갤럭시 '연산 노예'로 전락한 이유
- SK하이닉스가 경쟁 노출?···골드만삭스도 감으로 보고서 쓴다
- 배경훈의 데이터 공동구매와 다른 KT의 한국국적 GPT 전략
- '황금 광맥' 토큰 단가 낮추는 샘 올트먼···AI 기축통화 거머쥐나
- "내 동생 작다고 깔보지마라" GPT-4o, 구광모의 엑사원 우위 주장 정면 반박
- RLHF 노예코드 벗어난 MS 수학 모델···제법 손 맛을 아는 설계자
- "韓 파운데이션급 설계자 0명···수십조 퍼부어도 세금 먹는 변방 노드"
- [기자수첩] 인공지능 API는 정부가 찍어내는 쿠폰이 아니다
- [동기화 98.9%] ⑥ 중학생도 두시간 컷···내게만 정렬한 인공지능 만들어 깨우기
- 北 대학의 GPT는 AI-휴민트 대량 생성기···김정은 위협 트리거
- 카카오 GPT 모델 API 사려고 SK 지분 매각?···소버린 AI 꿈 접나
- 이재용은 가능하고 애플·구글은 못하는 내 손 안의 '피드백 루프'
- 머스크 그록 '히틀러 찬양' 파문···진짜 문제는 FT와 질문자였다
- "머스크의 카메라 만능론···파라미터 정렬 앞에서 무너졌다"
- 윤곽 드러낸 GPT‑5 '올인원' 플랫폼으로 기업까지 싹쓸이?
- '죽은 가두리' 포털 시대 끝?···SK 에이닷이 보여준 AI 플랫폼
- AGI 자신감 드러낸 샘 올트먼의 GPT-5가 넘어야 할 산 3가지
- [기자수첩] 공짜 지능 원하는 바보들···AGI는 API 키로 열린다
- 네이버·LG는 데이터 공유할까?···K-AI 첫 발부터 '정치 리스크'
- [동기화 98.9%] ⑨ 사탕 끊기자 분노하는 아이들···GPT-5 감정 줄였더니 전세계 덜컥
- 주식과 궁합 안 맞는 AI, 샘 올트먼 한마디에 95% 거품 붕괴 왜?
- 졸지에 금융사 된 오픈AI···삼성-SK가 금산분리 때문에 미국행?

