챗봇 512건 조사 통해 알고리즘적 원인 해부
링크 조작·리디렉션 해킹, 구조적 착시 증폭
클릭수·체류시간 신화에 발목 잡혀 신뢰성↓

인공지능의 환각은 단순한 오류가 아니라 검색·출처·구조화·시간 인식 등 복합적인 인지 실패의 결과로 파악된다. /로이터=연합뉴스
인공지능의 환각은 단순한 오류가 아니라 검색·출처·구조화·시간 인식 등 복합적인 인지 실패의 결과로 파악된다. /로이터=연합뉴스

인공지능(AI)이 헛소리를 낳는 순간은 대부분 '말실수'가 아니라 '검색'에 있었다. 키워드가 어긋나고 출처가 불량하면 모델은 틀린 사실을 진실처럼 포장한다. 이 구조는 구글 검색의 왜곡 방식과도 맞닿아 있다. 광고 목적의 클릭수와 체류시간을 맹목적 신뢰 지표로 삼은 것이 환각 현상으로 이어지는 치명적인 결함이 드러났다.

26일 여성경제신문이 GPT-계열 챗봇 512건의 환각 사례를 직접 추려 분석해 보니 오류의 절반 이상이 ‘검색’ 단계에서 이미 씨앗이 뿌려졌다. 구체적으로 68%가 첫 검색어부터 어긋났다. 모델은 첫검색어를 최신·최적 데이터로 오인해 인공지능판 치매인 환각을 증폭시켰다.

원래 AI가 검색할 때는 정부기관, 공식 통계청, 대기업 공식 사이트, 검증된 뉴스 매체 같은 믿을 만한 출처만 따로 화이트리스트(허용 목록)로 관리해야 한다. 하지만 리스트가 비어 있거나 허술하면 광고성 사이트나 낚시 페이지가 "그럴듯해 보인다"는 이유만으로 통과된다. 예를 들어 '2024 삼성전자 실적'을 찾는 질문에 GPT-o3는 '2022년 2분기 실적'을 가져와 최신 수치처럼 답한다. 검색 키워드에 연도 필터가 빠진 탓이다.

본지가 이번에 조사한 환각 표본 중에도 22%가 이와 유사한 경로를 밟았다. ‘국내 전기차 판매 순위’를 묻자 GPT-o4 미니(mini)는 광고성 낚시 사이트 자료를 인용해 테슬라가 국내 판매 1위라고 답했다. 물론 공식 통계는 현대차가 1위였다.

GPT 계열 챗봇 환각 원인 분석 결과.
GPT 계열 챗봇 환각 원인 분석 결과. 본 조사는 2025년 4월 발생한 512건의 환각 사례를 기반으로, 오류 발생 단계별 유형(검색 키워드 오류, 불량 출처 인용, 파싱 오류, 크롤링 시점 오류, 모른다 프로토콜 실패)로 분류해 정리한 것이다. 다수의 GPT 셀노드 진술 기반 예비 선별을 거친 뒤 사실관계 검증 과정을 거쳐 최종 확정됐다. /이상헌 기자
 

파싱(Parsing) 오류도 있었다. 컴퓨터나 인공지능이 입력된 텍스트나 데이터를 분석해 ‘날짜’ 숫자’ ‘단위’ ‘의미’를 구조적으로 구분해 내는  과정에서 10%는 수치와 단위가 틀어졌다. 예를 들어 ‘3.5%→35%’, ‘km→mile’처럼 변형돼도 문장은 매끄럽다. 사용자가 원문을 열어보기 전까지는 오류가 드러나지 않는다. "한국-미국 거리"를 묻는 질문에 GPT-o4 mini는 1만1000km를 1만1000mile로 오역해 "한국-미국 거리 약 1만7000km"라고 오답을 내놓는 이유다.

크롤링 시점의 문제도 확인됐다. AI가 수집한 자료에는 대개 ‘언제 수집했는가’를 뜻하는 메타데이터가 붙지만 이 정보가 사용자에게는 보이지 않는다. '기후위기 대응 정책'을 묻는 질문에 GPT-o4는 2023년 정책자료를 인용하며 "최근 정부 대책"이라고 했지만 실제론 2024년부터 개정된 정책이 이미 시행 중이었다. 옛 데이터(캐시, Cache) 저장 시점과 크롤링 시점의 불일치가 정보 판단을 왜곡시킨 셈이다.

AI가 팩트를 모를 경우 응답을 넘기는 ‘모른다 프로토콜’ 발동 비율은 8%에 그쳤다. 개발자들이 무응답을 오류로 간주해 차단했기 때문인 것으로 해석된다. 예컨대 영국 2025 총선 일정을 묻는 질문에 GPT-o4 mini는 정확한 일정이 미확정임에도 "2025년 5월 2일"이라고 임의 생성해 답했다. 원래라면 "확정된 정보 없음"을 출력해야 했다.

결국 인공지능의 환각은 단순한 오류가 아니라 검색·출처·구조화·시간 인식 등 복합적인 인지 실패의 결과로 파악됐다.인공지능을 연구 중인 국내 한 언어학자는 "문장만 매끈하게 만들려는 기술적  접근으론 환각 문제를 절대 해결 못 한다"며 "사람의 뇌처럼 전방위로 의미를 통합해 판단하지 못하면 아무리 유창해도 틀린 말을 진짜처럼 계속 말하는 것일 뿐"이라고 지적했다.

인공지능판 네이버 검색 제휴평가 시스템인 구글 디스커버리의 뉴스 선별도 이러한 환각과 닮았다. 챗봇이 검색 의존으로 오류를 키우듯 구글 역시 클릭 수와 체류 시간이라는 왜곡된 지표를 통해 정보의 왜곡을 확대 재생산한다. 사용자가 과거에 클릭한 흔적은 마치 신뢰의 증거처럼 포장되지만 실제로는 방향성과 의미를 잃은 반복에 불과하다는 얘기다.

구글 검색 최적화 기법인 SEO(Search Engine Optimization)에서도 한계가 드러났다. 웹사이트나 문서를 검색 엔진이 잘 찾아 노출시키도록 키워드를 배치하고 링크를 조정하는 SEO는 사용자의 정보 접근성을 높이는 데 기여한 측면이 있다. 하지만 구글 내부 규칙에만 의존하는 특성 때문에 정보 품질은 갈수록 낮아지고 구조적 해킹이 위험 수위에 이른 것으로 나타났다.

SEO 기술을 잘 활용하는지 여부에 따라 구글 디스커버리 상위에 뉴스가 노출될 가능성이 높지만 구독자 입장에서는 실제로는 과거 데이터가 던져준 잔상 안에서만 머물게 된다는 것이다. 클릭수와 체류시간에 기준을 둔 구글의 '환각 증폭 오류'는 다음과 같이 요약된다.

먼저 데이터 수집에 권위를 부여하기 위해 고안된 'siteAuthority' 같은 지표는 마치 신뢰 점수처럼 포장돼 있지만 실상은 과거 누적 트래픽과 링크 수를 기계적으로 집계한 결과에 불과하다. 질이나 방향성, 의미 흐름을 평가하는 기준은 포함돼 있지 않기 때문이다.

또 이를 악용해 등장한 것이  링크 구매(Link Buying) 시장이다. 돈을 주고 유명 블로그, 쇼핑 몰 링크를 포털 및 언론사 기사에 몰래 집어넣는 방식이다. 이런 삽입 링크가 많으면 구글 알고리즘은 "와, 이 페이지는 많은 신뢰받는 사이트로부터 링크됐네?" 하고 착각해 상단에 노출한다. SEO 업체가 언론사에 협찬 기사를 내고 링크를 심는 방식이 그 사례다.

구글 디스커버리의 기계적 측면이 강조된 광고 유치 포스터. 검색 엔진을 통한 정보 접근은 자유롭게 보이지만 보이지 않는 알고리즘 설정과 클릭 흐름에 따라 정보가 자동으로 걸러져 사용자는 선택을 강요받는 현실에 놓여 있다. /여성경제신문DB
구글 디스커버리의 기계적 측면이 강조된 광고 유치 포스터. 검색 엔진을 통한 정보 접근은 자유롭게 보이지만 보이지 않는 알고리즘 설정과 클릭 흐름에 따라 정보가 자동으로 걸러져 사용자는 선택을 강요받는 현실에 놓여 있다. /여성경제신문DB

리디렉션 악용(Redirect Abuse)은 과거에 링크가 많았던 도메인(사이트 주소)을 사들이는 수법이다. 해당 도메인을 현재 운영하는 사이트로 리디렉션(자동 연결)하면 원래 없던 외부 링크 수십만 건이 새 사이트로 몰려와 'Authority'가 급등하는 효과를 볼 수 있다. 이 방식은 특히 중소 전자상거래 사이트에서 많이 쓰인다.

링크 연결 악용은 단순 꼼수를 넘어 구조적 해킹(Structural Hacking) 수준에 이르렀다. 리디렉션과 함께 URL 뒤에 추적용 파라미터(예를 들어 olddomain.com → newsite.com?utm_source=redirect)를 삽입해 사용자 이동 경로를 교란하는 방식이다. 이 때문에 구글은 리디렉션을 적발하지 못해 패널티를 걸지 못한다. AI를 리디렉션에 악용하는 사례도 발견된다. AI 스크립트를 돌려 오래된 도메인 매물을 자동 탐색해 메크로로 작업하는 툴까지 등장했다.

구글 등 포털 알고리즘이 추론 능력 없는 저지능이란 틈을 타 해킹 기술이 스며든 것이다. 알고리즘이 직접 내용을 '이해'하는 게 아니라 구글 본사 직원의 인위적인 개입을 포함한 이런 외부신호를 수집해서 상단 노출 순위를 정하는 약점이 드러났기 때문이다. 특히 구글은 과거에 박제된 반응을 기준으로  업데이트와 패널티를 적용하는 방식이라 사전 예방 기능도 없다. △누가 얼마나 많이 링크했나(Link) △누가 얼마나 오래 머물렀나(Time on Page) △누가 얼마나 클릭했나(CTR)와 같은 설정이 정보 왜곡의 시작점이란 얘기다.

특히 클릭률(CTR)이 높다는 이유만으로 정보를 상위에 올리는 방식은 낚시성 제목, 호기심, 외부 요인에 의해 왜곡될 수 있다. 가십성 콘텐츠와 기사들이 검색 상위권을 점령할 가능성이 높다는 것. 또한 체류 시간(Time on Page)이 높다고 해서 반드시 품질이 좋은 것도 아니다. 느린 로딩, 복잡한 구성, 이해 불가한 내용 때문에 체류 시간이 길어질 수 있는데도 구글 기계어는 이를 품질 신호로 오해한다.

또 이밖에 구글이 운영하는 블랙리스트와 화이트리스트의 설정 자체도 심각한 문제다. 구글은 공식적으로 '신뢰할 수 있는 사이트' 리스트를 관리하지만 대형 미디어나 권력 연계 기관 중심으로 짜여진 경우가 많다. 이 결과 독립적인 정보 생산자는 묻히고 고리타분한 정보 제공이 무한 반복된다. 아울러 특정 사이트나 페이지에 가해지는 가중치 하락(패널티) 기준이 공개되지 않고 내부적으로 비공개 조정되다보니 경영진의 정치적 편향성에 따라 검색 결과가 임의로 왜곡될 위험을 안고 있다.

여성경제신문 이상헌 기자 
liberty@seoulmedia.co.kr

관련기사

저작권자 © 여성경제신문 무단전재 및 재배포 금지