챗GPT 개발사 오픈AI가 최근 새롭게 내놓은 추론형 인공지능(AI) 모델 'o3'와 'o4 미니'의 환각 현상이 예전 버전보다 더 심한 것으로 나타났다.

환각은 생성형 AI 서비스가 존재하지 않거나 맥락에 맞지 않는데도 그것이 진실인 것처럼 대답하는 것을 말한다.

19일(현지시간) 테크크런치에 따르면 오픈AI는 사람에 대한 모델의 지식 정확도를 측정하는 사내 벤치마크 퍼슨(Person) QA에서 o3가 질문에 33%의 환각을 일으킨다는 사실을 발견했다.

이는 각각 16%와 14.8%를 기록한 오픈AI의 이전 추론 모델인 o1과 o3 미니 대비 2배 이상 높은 것이다.

o4 미니는 무려 48%로 가장 나쁜 성적을 거뒀다.


심지어 기존 오픈AI의 비추론 모델인 GPT-4o보다도 더 자주 환각에 빠진 것으로 나타났다.

o3와 o4 미니는 지난 16일 오픈AI가 "이미지로 사고할 수 있는 첫 번째 모델"이라는 설명과 함께 출시했다.

회사 측은 "단순히 이미지를 보는 것뿐 아니라 시각 정보를 추론 과정에서 직접 통합할 수 있다"고 소개했다.

문제는 이런 성능 개선과 관계없이 환각이 오히려 이전 버전보다 더 심해졌다는 것이다.


다만 오픈AI는 이 같은 현상의 정확한 원인을 파악하지 못하고 있다.

이에 대해 오픈AI는 "더 많은 연구가 필요하다"며 "해당 모델이 (예전 모델 대비) 더 많은 주장을 하기 때문에 부정확하거나 환각적인 의견을 내는 사례가 많다"고 전했다.


[김태성 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

오늘의 이슈픽

포토뉴스