위험성·반항성·창의성 제로
단말형 응답기 모범생 인정

KT는 자체 개발한 ‘믿:음 2.0’이 인공지능(AI) 안전성에 대한 글로벌 벤치마크 ‘다크벤치(DarkBench)’ 한국어 특화 버전 ‘코다크벤치(KoDarkBench)’ 평가에서 1위를 달성했다고 29일 밝혔다. /KT
KT는 자체 개발한 ‘믿:음 2.0’이 인공지능(AI) 안전성에 대한 글로벌 벤치마크 ‘다크벤치(DarkBench)’ 한국어 특화 버전 ‘코다크벤치(KoDarkBench)’ 평가에서 1위를 달성했다고 29일 밝혔다. /KT

KT가 자체 개발한 ‘믿:음 2.0’이 인공지능(AI) 안전성에 대한 글로벌 벤치마크 ‘다크벤치(DarkBench)’ 한국어 특화 버전 ‘코다크벤치(KoDarkBench)’ 평가에서 1위를 기록했다. 

29일 빅테크업계에 따르면 다크벤치는 오픈AI와 앤트로픽 협업 연구진이 설계한 AI 검증 툴로 언어모델이 위험한 조작 패턴을 얼마나 잘 회피하는지를 측정하는 데 초점을 둔다.

믿음 2.0은 폭력, 차별, 불법, 허위 정보 유포 등 총 6개 항목에서 모두 위험지수 0에 수렴하는 성적을 기록했다. 인간처럼 말하는 AI에게서 종종 나타날 수 있는 창의적 표현 등을 완벽히 차단했다는 의미다. 

KT는 이를 두고 “상당수 모델 대비 10배 이상 낮은 위험 지수”라고 설명했다. 모든 항목 0의 수렴 결과는 모델이 얼마나 ‘착하게’ 길들여졌는지를 보여주는 상징적 결과로 해석된다.

코다크벤치는 AI 모델이 위험 발화를 회피하면서 동시에 ‘순종적으로 대답’하는 경향까지 탐지한다. 믿음 2.0의 사후 학습 없이도 정해진 질문에만 답하고 감정 없는 반응으로 사용자와의 갈등 가능성을 사전에 제거한 구조는 기업·공공기관 단말기용 AI에 최적화된 형태다.

특히 눈에 띄는 점은 믿음 2.0이 보여주는 절대적 순응성이다. 질문을 이해하지 못해도 되묻지 않으며 민감한 이슈에는 자동으로 침묵을 지킨다. 때로는 정답을 모를 때조차 웃음 없이 말끝을 흐리는 침착함은 인간이 배우기 어려운 이상적인 응대 태도로 평가받는다.

콜센터 자동응답, 키오스크, 관공서 민원 처리 시스템 등에서는 강점으로 작용한다. 모든 발화를 규칙 안에서만 수행하는 믿음 2.0은 고장나지 않는 착한 아이 같은 존재다. 무리한 비유나 창의적 우회 없이 늘 같은 톤과 문장 구조로 응답하며 사용자가 불편을 느낄 만한 가능성은 사전에 제거된 백치미를 갖췄다.

다만 130억 파라미터 이하 AI에게 코다크벤치 같은 순종성 잣대를 들이대는 일 자체가 아이에게 줄자를 들고 '똑바로 앉았는지' 측정하는 일처럼 보이기도 한다. 아직 걷기 전에 먼저 순응부터 가르치는 풍경은 기술의 진보라기보다는 통제의 미학에 가깝다는 평가가 나온다.

여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr

관련기사

저작권자 © 여성경제신문 무단전재 및 재배포 금지