동향

종단형 음성인식기술(한국어 및 12개 언어 지원/외국어 교육용) 및 화자분리기술(ver.1.0.)

분야

정보/통신

발행기관

한국전자통신연구원(ETRI)

발행일

2020.09.23

URL


인공지능연구소 지능정보연구본부 복합지능연구실에서는 종단형(End-to-End) 한국어 및 12개 언어 지원 음성인식 기술과 화자 분리 기술을 개발하였음. 종단형 한국어 및 다국어 음성인식 기술은 하드웨어 기술의 발달과, 심층신경망(Deep Neural Network) 기반 심층학습(Deep Learning) 기술의 고도화 및 초대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임. 원어민 및 비원어민의 대규모 한국어 및 다국어 발성을 수집하고 가공하여, ESPnet과 같은 오픈소스를 활용한 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 자체 기술 개발을 통하여 우수한 성능의 한국어 및 다국어 음성인식 모델을 개발하였음. 종단형 음성인식 기술은 비원어민의 한국어 또는 영어 발성평가에도 응용할 수 있어 외국어 학습에 적용이 용이함. 회의 환경등과 같이 다수 화자가 같은 장소에서 발성하는 경우 각 화자별로 발성한 구간을 추정하는 화자분리 기술도 개발이 이루어짐.


* 활용방안 및 기대성과 *

다양한 음성인식기술 응용 업체가 종단형 한국어 및 다국어 음성 인식 기술과 화자 분리 기술 관련 비즈니스 모델(컨택센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터 포함), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식, 언어 교육 등)을 적용할 수 있도록 함으로써 국내외 소프트웨어 산업 신시장을 창출하고 글로벌 인공지능 세계 시장 진출이 가능하도록 함.

○  ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고.


자세한 내용은 첨부파일을 참고하시기 바랍니다.
출처 : 한국전자통신연구원(ETRI) / 기술이전홈페이지
 

리포트 평점  
해당 콘텐츠에 대한 회원님의 소중한 평가를 부탁드립니다.
0.0 (0개의 평가)
평가하기
등록된 댓글이 없습니다.