국립국어원이 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 25일 국립국어원 '모두의 말뭉치'에서 공개한다고 밝혔습니다.
공개하는 자료는 한국어 분야의 빅데이터로, 전문 분야에서는 말뭉치(corpus)라고 합니다.
홈페이지 주소 또한 이와 관련된 https://corpus.korean.go.kr입니다.
국립국어원은 "초기 구축에 큰 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 중소기업 등이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다"라며 "대기업이나 관련 연구 기관 등도 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 됐다"고 설명했습니다.
자료는 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있습니다.
[박상미 인턴기자 / alisten@mk.co.kr]
[ⓒ 매일경제TV & mktv.co.kr, 무단전재 및 재배포 금지 ]