픽사베이
국내 생물의학 분야 논문 20%는 챗GPT와 같은 대형언어모델, LLM의 도움을 받았다는 분석이 나왔습니다.

8일 과학기술계에 따르면 드미트리 코박 독일 튀빙겐대 박사 연구팀은 지난 15년간 생물의학 분야 논문 초록을 분석해 생성형 인공지능, AI의 흔적을 찾은 연구 결과를 최근 국제학술지 '사이언스 어드밴시스'에 발표했습니다.

연구팀은 2010년부터 2024년까지 미국 국립의학도서관(NLM)의 논문 데이터베이스 '펍메드'에 등록된 생물의학 논문 초록 1천500만여 개를 분석해 LLM이 선호하는 단어의 비중을 살피는 방식으로 LLM 이용 여부를 살폈습니다.

그 결과 초록에 쓰인 2만6천657개 단어 중 'delves'(조사하다), 'underscores'(강조하다)와 같은 잘 쓰이지 않는 단어부터 'potential'(가능성) 'findings'(조사 결과) 등 LLM이 선호하는 단어 454개의 빈도가 2024년 급증한 것을 확인했습니다.

이런 단어를 토대로 LLM 이용량을 추정한 결과 2024년 기준 13.5%가 LLM을 이용해 초록을 작성한 것으로 보인다고 연구팀은 밝혔습니다.

국가별로는 영국과 호주 등 영어권 국가는 5% 정도였던 반면 한국과 중국, 대만은 20% 수준으로 높게 나타났습니다.

이에 대해 연구팀은 한국과 같은 비영어권 국가에서 LLM을 영문 교정 도구 등으로 실용적으로 사용하고 있을 가능성이 높고, 영어권 국가는 LLM 추천 문구를 다듬어 외형상 흔적이 덜 남을 수 있다고 분석했습니다.

학술지별로 보면 네이처, 사이언스, 셀 등 최상위 논문의 경우 7%, 네이처 자매지는 10% 정도로 낮았지만, 부실 의심 학술지 의혹을 받는 스위스 출판기업 'MDPI'의 논문은 21%까지 높아지는 등 이른바 학술지의 '질'이 높을수록 빈도가 줄어드는 것으로 나타났습니다.

국가와 학술지 간 교차점 중에는 MDPI 학술지 '센서스'에 실린 한국 논문 중 34%가 LLM을 사용한 것으로 나타나 높은 수치 중 하나로 기록됐습니다.

연구팀은 LLM이 생물의학 분야 논문에 준 영향이 코로나19 출현보다도 크다며 이런 추세를 볼 때 과학 논문에 LLM을 사용하는 데 대한 정책과 규정을 재평가할 필요가 있다고 제시했습니다.

[ 이유진 기자 / lee.youjin@mktv.co.kr ]

[ⓒ 매일경제TV & mktv.co.kr, 무단전재 및 재배포 금지 ]

오늘의 이슈픽