KT, 한국형 AI ‘믿음 2.0’ 공개
오픈소스로 AI 생태계 지원
자체 개발·MS 협력 ‘투트랙’

연구원들이 3일 서울 서초구 KT 우면연구센터에서 KT가 자체 개발한 인공지능(AI) 모델 ‘믿음 2.0’을 테스트하고 있다.

[사진 = KT]

KT가 한국적 인공지능(AI) 개발에 박차를 가한다.

초거대언어모델(LLM)을 오픈소스로 공개하고, 글로벌 빅테크와의 협업을 이어가면서 독자적으로 모델을 개척하는 투트랙 전략을 추진한다.

이를 통해 이재명 정부가 강조하는 소버린 AI 구축에 참여하겠다는 목표다.


3일 KT는 온라인 기자간담회를 열고 한국어를 능숙하게 알아듣고 한국의 문화·정서까지 이해하는 AI 모델 ‘믿음 2.0’을 소개했다.

믿음 2.0은 오는 4일 AI 개발자 플랫폼 허깅페이스에 오픈소스로 게시하는 방식으로 공개된다.


누구나 원본 코드에 접근할 수 있도록 지원하고자 오픈소스를 선택한 것으로 보인다.

오픈소스는 열람, 수정, 성능 개선, 문제 해결, 배포 모두 제약 없이 가능하다.

개인·기관·스타트업들이 개발 속도를 높이면서도 비용을 줄일 수 있어 상생을 유도한다.


신동훈 KT 최고AI책임자(CAIO)는 “KT는 자체 개발을 멈춘 적이 없었다”며 “KT는 AI의 모든 영역에 데이터 주권, 사용자 선택권, 한국적 가치, 책임 있는 운영이라는 네 가지 원칙을 담고자 한다”고 강조했다.


이어 “KT는 기간 통신 사업자로서 생성형 AI 원천 기술을 반드시 확보해야 한다고 생각했다”며 “KT의 AI 철학과 방향이 맞기 때문에 (정부가 추진 중인) AI 파운데이션 모델 프로젝트에 참여할 준비를 하고 있다”고 전했다.


KT의 믿음 2.0은 지난 2023년 선보인 믿음 1.0을 고도화한 모델이다.

그동안 믿음 1.0은 KT AI 고객센터(AICC) 상담원 업무 보조, 지니TV 콘텐츠 추천과 질문 및 답변, AI 전화 자동 안내 등 다양한 서비스에서 활약해 왔다.


지난 4월 7일 방영을 시작한 지니 TV 오리지널 시리즈 ‘신병 3’에서 신병 전세계(김동준 분)가 경례하고 있다.

지니 TV의 셋톱박스에 전세계가 등장하는 장면만 보여 달라고 명령하면 인공지능(AI)이 요청을 수행한다.

[사진 = KT스튜디오지니]

KT는 믿음 2.0의 강점으로 성능을 꼽았다.

믿음 2.0은 고품질 한국어 데이터를 학습했다.

KT는 저작권을 확보한 데이터를 언어·형태·내용에 따라 200개가 넘는 카테고리로 분류·관리했고, 잘못된 정보나 출처가 모호한 데이터는 모두 제거했다.


KT는 믿음 2.0을 미니 버전과 베이스 버전으로 나눴다.

추후 프로 버전까지 확대할 방침이다.

지원 언어는 한국어와 영어다.

언어의 구조와 특성을 반영한 토크나이저도 자체 제작했다.

토크나이저는 문장의 구조를 분석해 AI가 이해할 수 있는 가장 작은 텍스트 단위인 토큰으로 분할하는 도구다.


믿음 2.0은 한국어 AI 역량 평가 지표인 ‘코-소버린(Ko-Sovereign)’ 벤치마크에서 비슷한 규모의 국내외 모델을 능가하는 점수를 기록했다.

특히 한국과 관련한 전문 지식의 이해도를 측정하는 벤치마크와 한국어 언어모델 평가 지표에서도 우수한 성능 평가를 받았다.


예를 들어 친구와 대화한 내용을 복사해 붙여넣고 무슨 뜻인지 물어보면 친구의 감정을 분석하고 문장 속에 숨어 있는 뜻까지 해석해낸다.

단순히 대화 내용을 요약하거나 대화 주제를 추천하는 데 그치지 않는 것이다.


이는 이재명 대통령이 강조하는 소버린 AI와 맥을 함께 한다.

소버린 AI는 국가가 주도해 개발하는 AI다.

한국 기업이 한국 데이터로 개발·관리하기에 보안이 중요한 국방·공공이나 전문 지식이 필요한 의료·제약, 강점 산업으로 꼽히는 제조업·콘텐츠 등 분야에도 도입할 수 있다.

소버린 AI가 없으면 우리나라 정보기술(IT) 서비스가 협상력을 잃고 글로벌 빅테크에 종속될 위험성이 커진다.


이날 KT는 빅테크인 마이크로소프트(MS)와 손잡고 기술과 서비스를 개발 중인 만큼 소버린 AI로 정의하기에 부적절하다는 지적에 대해, 아직 확보하지 못한 기술에 한정해서 MS와 협업하고 있다고 주장했다.

최고의 성능을 갖춘 AI를 완성하기 위한 하나의 방법이라고 강조했다.


그러면서 KT의 소버린 AI 철학을 제시했다.

▲데이터 주권이 자국에 있고 ▲모든 사용자의 이용 목적에 부합할 만큼 다양한 AI 선택권이 갖춰져야 하며 ▲가치관을 담고 있는 AI 서비스가 제공돼야 하고 ▲규제를 준수해 안전하게 서비스해야 한다는 것이다.


[사진 = SK텔레콤]
이날 SK텔레콤도 한국어 처리 능력을 강화한 ‘에이닷엑스(A.X) 4.0’을 오픈소스로 공개했다.

에이닷엑스 4.0는 기업 내부 서버에 직접 설치해 사용할 수 있는 온프레미스 방식으로 제공된다.

외부 서버와 연결되지 않아 보안 우려가 줄어든다.


SK텔레콤은 에이닷엑스 4.0가 국내 비즈니스 환경에 최적화된 모델이라고 설명했다.

에이닷엑스 4.0는 한국과 관련된 벤치마크에서 오픈AI의 챗GPT-포오(4o)보다 높은 점수를 기록했다.


대표적인 한국어 벤치마크인 KMMLU2에서 에이닷엑스 4.0은 78.3점을 기록했다.

반면 챗GPT-포오는 72.5점을 받는 데 그쳤다.

한국문화 벤치마크인 CLIcK3에서도 에이닷엑스 4.0는 83.5점을 획득하며 챗GPT-포오(80.2점)를 제쳤다.

SK텔레콤 자체 테스트 결과를 봐도 동일한 한국어 문장을 입력했을 때 GPT-포오보다 에이닷엑스 4.0이 33%가량 높은 토큰 효율을 기록해 경제성을 입증했다.


SK텔레콤은 에이닷엑스 4.0 개발 과정에서 대규모 트레이닝(CPT)의 전 과정을 외부와 연동 없이 자체 데이터로 학습해 데이터의 주권도 확보했다.

표준 모델은 720억개(72B), 경량 모델은 70억개(7B)의 매개변수를 갖춘 상태라 개개인이 이용 목적에 적합한 모델을 선택할 수 있다.



[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

오늘의 이슈픽