o3·o4-미니, 환각률 각각 33%, 48%
전작 o1·o3-미니 각각 16%, 14.8%

오픈AI의 챗GPT 로고. (출처=연합뉴스)
오픈AI가 최근 공개한 추론형 인공지능(AI) 모델 챗GPT ‘o3’와 ‘o4-미니’가 이전 세대보다 강력해진 성능을 갖췄지만, 환각(hallucination) 현상은 더 심해진 것으로 나타났다.

환각은 생성형 AI가 실제 존재하지 않는 정보를 사실처럼 만들어내는 현상을 말한다.


4월 20일 미국 정보기술(IT) 전문매체 테크크런치는 오픈AI의 자체 벤치마크 테스트인 ‘퍼슨 QA’ 평가 결과를 인용해 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보였다고 보도했다.


이전 추론 모델인 o1과 o3-미니 모델의 환각 반응률은 각각 16%와 14.8%다.

전작과 비교하면 신작 모델 환각 반응이 거의 2배 이상 증가한 셈이다.

심지어 비추론 모델인 GPT-4o보다도 o3, o4-미니에서 환각이 더 자주 발생한 것으로 드러났다.


앞서 오픈AI는 4월 16일(현지 시각) “역대 가장 뛰어난 추론 모델이자 챗GPT의 마지막 독립형 AI 추론 모델이 될 것”이라고 홍보하며 o3·o4-미니 모델을 공개했다.

두 모델은 수학·코딩·과학 분야 테스트에서 기존 모델 대비 우수한 성능을 냈다.

이미지와 텍스트를 함께 해석하는 대학 수준 문제에 o3는 82.9%, o4-미니는 81.6%의 정답률을 기록했다.


다만 이 같은 기술적 진보에도 불구하고 환각률은 오히려 이전보다 증가했다.

그동안 새로운 모델이 나올 때마다 환각 문제가 점진적으로 개선됐다는 점에서 이번 결과는 이례적이라는 평가가 나온다.


오픈AI 측은 o3와 o4-미니에서 나타나는 높은 환각률의 명확한 원인과 대책을 내놓지 못하고 있다.

오픈AI는 기술 보고서를 통해 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”고 했다.

이어 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다.



[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

오늘의 이슈픽