미디어젠, 음성 자유대화 데이터 구축

[사진=미디어젠]

[정보통신신문=차종환기자]

미디어젠 컨소시엄이 한국지능정보사회진흥원(NIA) ‘2022년 인공지능 학습용 데이터 구축: 감정이 태깅된 자유대화 음성 데이터 구축’ 사업을 수행하고 있다고 밝혔다.

컨소시엄은 미디어젠, 비디, 메트릭스로 구성됐으며, 음성통화 녹음 및 자동 전사 시스템이 포함된 자체 수집 툴과 공정관리 시스템을 기반으로 데이터가 수집되고 있다.

‘인공지능 학습용 데이터 구축’ 사업은 과학기술정보통신부의 디지털 뉴딜 실행 계획의 하나로 NIA에서 수행하는 대규모 학습용 데이터 구축 사업이며, 구축된 데이터는 공익적인 목적으로 AI허브를 통해 일반에 공개된다.

이번 과제는 인공지능 데이터 중에서도 수집이 어려운 축에 속하는 자유대화 음성 데이터를 대규모로 구축한다는 데 큰 의미가 있다. 대화에 포함된 감정 상태를 분석할 수 있는 정보를 함께 제공함으로써 음성인식, 화자인식, 감정인식 등 다양한 분야에 활용할 수 있는 기초데이터를 제공할 것으로 기대된다.

과제 책임을 맡은 미디어젠의 송민규 상무는 “이번 과제는 성인 및 청소년을 대상으로 자유로운 대화 데이터 수집을 진행하고 있다”며, “특히 최근 많이 사용되고 있는 신조어 및 젊은 층의 발화 스타일을 수집할 수 있는 중고등학생들의 적극적인 참여를 권장한다”고 밝혔다.

한편, 미디어젠은 음성 및 언어 AI 전문 ‘남즈(NAMZ) 연구소’를 운영하고 있으며, AI 음성 인식 기술을 활용한 AICC 스마트 콜봇, AI 에듀테크, AI 헬스케어, AI 키오스크 등 다양한 인공지능 관련 사업을 진행하고 있다.

This article is from https://www.koit.co.kr/, if there is any copyright issue, please contact the webmaster to delete it.