동향

온라인 행동 탐지 기술 동향

분야

정보/통신

발행기관

한국전자통신연구원

발행일

2021.04.

URL


비디오 행동 이해 기술은 크게 비디오 내에 하나의 행동 인스턴스(Action Instance)만을
포함하도록 잘 분할 편집한 비디오(Well-trimmed Videos)에 대해서 행동 클래스(Action Class)를 분류하는 행동 인식(Action Recognition) 기술과
행동과 관련 없는 백그라운드(Background) 부분들과 다수의 행동 클래스에 속하는 복수 개의 행동 인스턴스를 포함하는무편집 비디오(Untrimmed Videos)에 대해서
각 행동 인스턴스별 발생 구간의 위치를 추정하고, 행동 클래스를 분류하는 행동 탐지(Action Detection) 기술로 구분된다(그림 1 참조).

행동 탐지 중에서 행동 인식을 제외하고, 특정 행동 클래스에 상관없이 
행동 인스턴스의 위치를 추정하는 기술을 행동 국지화(Action Localization) 또는
행동 프로포절 생성 기술(Action Proposal Generation)이라고 한다.

기존의 행동 탐지 방법들 중에서 일부는 행동 인식과 행동 국지화 기술을
종단 간 학습 기법으로 행동 프로포절 생성과 행동 인식을 동시에 최적화시키도록
탐지 모델을 학습시키고, 일부는 행동 프로포절 생성 기술과 프로포절에 대한 행동 인식 기술을 별도의 모델로 나누어 학습시키기도 한다.

무편집 비디오에서 하나의 행동 인스턴스를 포함하도록 비디오를 잘 분할하는 것 자체가
어려운 문제이고, 대부분의 현실 세계에서 사용자들이 소비하는 비디오들은
무편집 비디오이기 때문에 실세계 비디오에서 행동을 이해하기 위해서는
행동 탐지 또는 국지화 기술이 필수적이다.

행동 탐지 기술은 위치 추정의 대상에 따라, 위치를 시간에 국한하여
행동 인스턴스의 시간적 위치 정보를 제공하는 시간적 행동 탐지(TemporalAction Detection) 기술과
위치 추정 대상을 시·공간 모두를 고려하여 시간적 위치와 프레임 내에서의 공간적 위치
정보를 제공하는 시·공간적 행동 탐지(Spatio-temporal Action Detection) 기술로 구분된다.
그리고 행동 탐지는 입력 비디오의 처리 방식에 따라서
오프라인 행동 탐지(Offline Action Detection)와 온라인 행동 탐지(Onilne Action Detection)로 구분된다. 오프라인 행동 탐지 기술은 무편집 비디오 전체를 입력으로 주고, 입력 비디오에 포함된 복수 개의 행동 인스턴스들의 위치와 행동 클래스를 출력으로 제공하는 데 반해,

온라인 행동 탐지는 스트리밍 비디오를 등간격으로 분할한 비디오 세그먼트(Video Segment)를 입력으로 매 프레임 행동 클래스 예측 결과를 제공하는 것을 목표로 한다(그림 1).

지금까지 대부분의 비디오 행동 탐지 연구들이 
오프라인 방식의 시간적 행동 탐지 분야에 집중되어 있지만,
스트리밍 비디오를 위한 온라인 행동 탐지에 대한 관심이 점점 커지고 있다.

지능형 CCTV와 같이 장시간 대용량 비디오에 대한 지속적인 모니터링을 위해서는
행동 발생 직후 통지 기능이 필요하다. 이를 위해서는 비디오 전체가 아닌
순차적으로 들어오는 스트리밍 비디오를 처리 가능해야 한다.
따라서 본 고에서는 스트리밍 비디오를 위한 온라인 방식의 시간적 행동 탐지 기술을 다룬다.

KEYWORDS 온라인 행동 탐지, 비디오 행동 탐지, 비디오 행동 이해

ABSTRACT
Online action detection (OAD) in a streaming video is an attractive research area that has aroused interest lately. Although most studies for action understanding have considered action recognition in well-trimmed videos and offline temporal action detection in untrimmed videos, online action detection methods are required to monitor action occurrences in streaming videos. OAD predicts action probabilities for a current frame or frame sequence using a fixed-sized video segment, including past and current frames. In this article, we discuss deep learning-based OAD models. In addition, we investigated OAD evaluation methodologies, including benchmark datasets and performance measures, and compared the performances of the presented OAD models. 

<목차>
Ⅰ. 서론
Ⅱ. 온라인 행동 탐지 기술 개요
Ⅲ. 온라인 행동 탐지 방법
1. RED 모델
2. TRN 모델
3. IDN 모델
4. TFN 모델
Ⅳ. 온라인 행동 탐지 성능
1. 온라인 행동 탐지 데이터셋
2. 온라인 행동 탐지 평가 지표
3. 온라인 행동 탐지 성능 비교
Ⅴ. 결론


* 출처 : ETRI 전자통신동향분석 제36권 제2호 통권 189호 2021년 4월호
        온라인 행동 탐지 기술 동향
        문진영, 김형일, 이용주┃시각지능연구실

* 자세한 내용은 첨부파일을 참고하여 주시기 바랍니다.

 

리포트 평점  
해당 콘텐츠에 대한 회원님의 소중한 평가를 부탁드립니다.
0.0 (0개의 평가)
평가하기
등록된 댓글이 없습니다.