멀티모달 / 시청각 정보처리

멀티모달 신호처리는 자동차나 컴퓨터처럼 사용자의 위치가 고정되어 관련 음성 및 영상 정보를 용이하게 얻을 수 있거나, 휴머노이드 로봇(humanoid robot)처럼 음성, 영상, 거리(range) 등 다양한 정보를 동시에 수집, 처리하는 미래형 기기에 적합한 신호처리 방법으로 각광받고 있다. 주변 잡음 등에 의한 음향 신호의 왜곡과 주변 조명 환경 등에 의한 영상 신호의 왜곡을 서로 보완하기 위해, 음향과 영상의 특징을 동시에 인식에 적용하여 주변 잡음 및 조명 환경에 보다 강건한 인식 결과를 얻을 수 있다.

립리딩을 사용한 시청각 음성인식

화자의 입술 영상 정보로부터 음성 인식을 수행하는 기술이다. 립리딩은 기존의 음향 기반 음성 인식 기술과의 결합 또는 융합을 통해 보다 정확한 인식 결과를 얻는 데 사용된다.

대표적인 멀티모달 인식 분야로, 음향 신호 외에 화자의 입술 영상 정보를 추가로 사용하여 음성 인식 성능을 높이는 시청각 음성인식이 있다. 음성과 영상 신호에 영향을 주는 요인은 서로 독립적이기 때문에 각 정보가 의사소통에 상호보완적인 기여를 하여 신호처리 성능을 개선하게 된다.

▼ 멀티모달 음성인식 시스템 (음성인식+입술인식)

IIP KIOSK

음원 국지화를 이용한 사용자의 위치 파악
얼굴 인식 및 tracking
음성 인식을 통한 명령 수행

▼ IIP KIOSK 데모<iframe allowfullscreen="" frameborder="0" height="338" src="http://www.youtube.com/embed/Io-XhUiXXHo" width="600"></iframe>

국가

대한민국

소속기관

서강대학교 (학교)

연락처

02-705-8916 http://iip.sogang.ac.kr/

책임자

박형민 hpark@sogang.ac.kr

KOSEN 한인과학기술자네트워크

홈

마이네트워크

네트워크

공유하기

멀티모달 / 시청각 정보처리

립리딩을 사용한 시청각 음성인식

IIP KIOSK

소속회원 0