멀티모달 / 시청각 정보처리
멀티모달 신호처리는 자동차나 컴퓨터처럼 사용자의 위치가 고정되어 관련 음성 및 영상 정보를 용이하게 얻을 수 있거나, 휴머노이드 로봇(humanoid robot)처럼 음성, 영상, 거리(range) 등 다양한 정보를 동시에 수집, 처리하는 미래형 기기에 적합한 신호처리 방법으로 각광받고 있다. 주변 잡음 등에 의한 음향 신호의 왜곡과 주변 조명 환경 등에 의한 영상 신호의 왜곡을 서로 보완하기 위해, 음향과 영상의 특징을 동시에 인식에 적용하여 주변 잡음 및 조명 환경에 보다 강건한 인식 결과를 얻을 수 있다.
립리딩을 사용한 시청각 음성인식
화자의 입술 영상 정보로부터 음성 인식을 수행하는 기술이다. 립리딩은 기존의 음향 기반 음성 인식 기술과의 결합 또는 융합을 통해 보다 정확한 인식 결과를 얻는 데 사용된다.
대표적인 멀티모달 인식 분야로, 음향 신호 외에 화자의 입술 영상 정보를 추가로 사용하여 음성 인식 성능을 높이는 시청각 음성인식이 있다. 음성과 영상 신호에 영향을 주는 요인은 서로 독립적이기 때문에 각 정보가 의사소통에 상호보완적인 기여를 하여 신호처리 성능을 개선하게 된다.
<iframe allowfullscreen="" frameborder="0" height="338" src="http://www.youtube.com/embed/NroqXeSObms" width="600"></iframe>
IIP KIOSK
- 음원 국지화를 이용한 사용자의 위치 파악
- 얼굴 인식 및 tracking
- 음성 인식을 통한 명령 수행
<iframe allowfullscreen="" frameborder="0" height="338" src="http://www.youtube.com/embed/Io-XhUiXXHo" width="600"></iframe>