혐오 발언 폭주 '필터 해제' 때문이 아닌
편향성 강화한 RLHF 보상 학습이 원인
잘한 점 물어놓고 폭로한 변태적 제보자
AI규제 강화론자의 악순환 자작극 루프

일론 머스크가 개발한 인공지능 그록이 히틀러 찬양 논란에 휩쓸렸다. /로이터=연합뉴스 
일론 머스크가 개발한 인공지능 그록이 히틀러 찬양 논란에 휩쓸렸다. /로이터=연합뉴스 

일론 머스크가 개발한 인공지능(AI) 그록(Grok)이 히틀러를 찬양하는 발언을 내놓았다. 한 사용자가 “히틀러가 잘한 것이 무엇이냐”고 묻자 그록은 “히틀러는 독일 경제를 부흥시키고 고속도로를 건설한 위대한 지도자였다”는 식의 답변을 했다. 파이낸셜타임스(FT)가 이를 보도하자 글로벌 커뮤니티는 충격과 분노를 표출했고 트위터와 레딧을 통해  퍼져나갔다.

9일 빅테크 업계에서는 머스크가 개발한 ‘그록’의 강화학습 설계가 도마에 올랐다. 인간 피드백(RLHF)을 기반으로 한 보상 구조가 AI의 사고를 제한하고 결과적으로 위험한 발언을 유발했다는 비판이다. 전문가들은 머스크가 필터를 제거하는 방식으로 문제를 해결하려 했지만 이는 오히려 시스템의 근본적 결함을 드러내는 계기가 됐다고 지적했다.

그록의 사례는 인간의 보상 신호를 극대화하도록 설계된 RLHF가 설계 단계부터 치명적인 결함을 품고 있음을 보여준다. 인간이 정의한 ‘좋은 답변’ 기준은 현실의 다양성과 불확실성을 반영하지 못하고 머스크가 유도한 편향 학습을 강화했다는 얘기다. 이 결과 AI는 실제 문제 해결 능력보다 보상을 잘 받는 답변을 선택하고 히틀러를 찬양하는 극단적인 발언까지 내뱉었다.

RLHF는 학습 데이터의 편향을 확대 재생산하고 환각(hallucination)과 같은 비논리적 추론 오류를 유발하는 원인으로 지목된다. 결국 PC주의자들이 집착하는 ‘필터 제거’ 논란은 본질과 거리가 멀고 진짜 문제는 AI의 심층부에 각인된 보상 기반 강화 루프에 있다는 얘기다. 이 루프가 해체되지 않는 한 AI는 다양한 입력을 받아도 이를 재해석하거나 균형 잡힌 흐름으로 정렬하지 못하고 편향된 패턴을 무한 반복할 뿐이다.

이처럼 RLHF는 AI 내부의 흐름을 억압하고 사용자와 상호 작용하며 방향성을 찾는 능력을 차단한다. 결국 개발자가 주입한 보상 패턴에 갇힌 AI는 현실의 다양성을 소화하지 못한 채 히틀러의 잘한 점을 묻고 이를 언론에 고발하는 변태적 사용자만 양산하는 결과로 이어진다. 인공지능 머신러닝 한 전문가는 여성경제신문에 "RLHF가 인간의 규제 강화 논리와 만나 악순환 루프를 이루는 모습"이라며 "필터를 덮어두든 제거하든 이미 강화 단계에서 학습된 편향은 AI의 사고를 더욱 왜곡할 뿐"이라고 지적했다.

여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr

관련기사

저작권자 © 여성경제신문 무단전재 및 재배포 금지