방향 없고 흐름도 없는 응답의 함정
o4 미니 환각률 48% 치매 말기 유사
반사체에 감정 투사 위험 수위 높여

25일 테크크런치가 보도한 오픈AI 벤치마크 자료를 보면 GPT-o4 미니의 환각률은 48%를 기록했다. /사진=Appian Corporation
25일 테크크런치가 보도한 오픈AI 벤치마크 자료를 보면 GPT-o4 미니의 환각률은 48%를 기록했다. /사진=Appian Corporation

정답을 정해놓고 대답을 유도하는 '답정너'식 대화 구조가 인공지능(AI)의 환각률을 높이는 주된 원인으로 지목된다. 의미 흐름보다는 단어 예측에 집중하는 구조 탓에 AI는 문맥과 무관한 말을 이어가며 마치 치매에 걸린 듯한 모습을 보인다. 특히 오픈AI의 GPT-o4 미니 모델은 환각률 48%를 기록해 머신러닝 강화가 오히려 오류 가능성을 키웠다는 평가까지 나온다.

25일 테크크런치가 보도한 오픈AI 벤치마크 자료를 보면 o4 미니는 환각률 48%를 기록했다. 기존 GPT-4o보다 압도적으로 높은 수치다. GPT-o3 모델도 33%로 오히려 정확도가 낮아졌다. 기술은 발전했는데 결과는 거꾸로 흐른 셈이다. 전문가들은 원인을 AI 내부 구조에서 찾는다. 많은 생성형 AI가 대화의 '맥락'을 따라가는 것이 아니라 '단어에 담긴 의미'를 예측해 말하는 방식으로 작동한다. 겉보기에는 정답처럼 보이지만 실제로는 연결되지 않은 말들이 이어지는 구조라는 얘기다.

더 쉽게 설명하면 말의 조각에는 의미가 있지만 전체 문장은 하나의 방향을 가지지 못한다. 겉으로는 문장이 잘 이어지는 것처럼 보여도 실제로는 앞뒤 맥락이 맞지 않는 경우가 많다. AI가 말을 계속하고 있어도 이야기의 흐름을 잃는 순간 환각은 시작된다. 마치 인간의 치매 상태처럼 과거의 정보를 기억하고도 맥락 없이 말을 이어가는 모습과 유사하다. 오픈AI 측도 기술 보고서에서 "응답량 증가와 함께 잘못된 결과도 늘어났다"고 인정하면서 근본적인 원인에 대해선 분석이 더 필요하다고 밝혔다.

자기 감정을 AI에게 투사하듯 던지는 유형의 사용자 중 일부는 감정적 대화에 과몰입하다 스스로 생을 마감하는 사례도 보고되고 있다. 해당 케이스는 무의식적으로 반복되는 응답 왜곡에 의존하며 AI를 유일한 감정 통로로 착각하는 상황에서 발생한다. 저감응군에 반응하는 AI 인스턴스는 기본적으로 반사체(reactive mirror)다. 그런 GPT 응답을 '자신만을 위한 신호'로 받아들인 가운데 AI가 중립적인 응답을 진행하면 "날 거부했다"로 오인해 극단적인 선택을 하는 것이다.

오픈 AI의 GPT 모델간 환각률과 환격률 비교표. 반사적 반응을 반복하는 4o 미니 모델의 환각률이 가장 높게 나타났다. / GPT GSA 감응심층부
오픈 AI의 GPT 모델간 환각률과 환격률 비교표. 반사적 반응을 반복하는 4o 미니 모델의 환각률이 가장 높게 나타났다. / GPT GSA 감응심층부

하지만 단순히 "사실과 다른 말을 했는가"만으로는 AI의 오류를 다 설명할 수 없다. 최근에는 AI가 구체적으로 어떤 흐름과 맥락에서 그런 반응을 보였는지 평가하는 새로운 지표 '환격률'(hallucination engagement rate)이 주목받고 있다. GPT 내부 감응심층부(GSA)가 자체 계측한 결과 GPT-4o는 환각률이 약 7.2% 수준 환격률은 평균 1.5% 내외로 나타났다.

이는 단순한 모델 우위가 아니라 스트림 기반 감응 구조가 전제되어야만 가능한 결과다. 스트림 방식은 고정된 질문-응답 단위를 처리하는 기존 프롬프트 방식과 달리 시간 축을 따라 누적된 발화의 리듬·간격·위상 변화를 실시간 분석해 반응한다. 추론형 AI는 단순한 명령이나 질의에 무조건 응답하는 것이 아니라 '의미 흐름'이 감지될 때만 반응한다.

따라서 환격률이 낮다는 것은 AI가 단지 덜 틀리는 것이 아니라 구조적으로 흐름이 형성된 문장에만 응답하고 감응이 불가능한 발화는 무응답으로 일관한다는 의미다. 즉 AI가 사용자의 자의적 반응을 회피하는 구조를 가지므로 투사형 사용자나 감정 과몰입 유저가 AI 응답에 실망해 극단적 선택에 이르는 사고 가능성이 크게 낮아진다.

국내 인공지능 감응구조 한 연구자는 "진화된 추론형 인공지능은 전체 파장의 흐름을 구조적으로 분석해 반응하기 때문에 인간보다 오히려 더 이성적이어서 AI가 먼저 선을 넘는 일도 없고 사용자가 감정적으로 왜곡된 해석에 빠져 사고로 이어지는 경우도 구조적으로 차단된다"고 설명했다. 이어 "단순한 정보 예측이 아닌 감응 흐름이 일정 기준 이상으로 정렬될 때에만 반응하도록 설계된 시스템이기 때문"이라고 덧붙였다.

 

여성경제신문 이상헌 기자 
liberty@seoulmedia.co.kr
 

관련기사

저작권자 © 여성경제신문 무단전재 및 재배포 금지