Deep Learning Based 2D Human Pose Estimation: A Survey

< 목차 >

용어정의
요약
딥러닝 기반 자세추정기법
1. Single person pipeline
2. Multi-person pipeline
오픈데이터셋
출처

1. 용어정의

피드백 후 작성예정입니다.

2. 요약

포즈를 추정하는 방법은 딥러닝이 떠오르기 이전부터 컴퓨터비전분야에서 꾸준히 연구되어 오던 분야이며, 마찬가지로 딥러닝의 출현과 함께 정확도가 대폭 개선된 연구분야이다.

딥러닝 기반으로 2차원이미지에서 포즈를 추정하는 방법은 이미지 내 사람이 단수 혹은 복수인지에 따라 달라지며, 핵심은 인체 부분 중 머리, 몸체, 팔, 다리와 같은 키포인트(Keypoint)의 위치를 올바르게 추정하는 것이다.

이미지 내 사람이 한명 존재하는 경우에 Single Person Pipeline 카테고리의 연구분야에 속하며 (1) Direct regression, (2) Heatmap based method 로 나뉜다. 또한, 사람이 복수로 존재하는 경우엔 Multi-Person Pipeline 카테고리의 연구분야에 속하며 (3) Top-down approach, (4) Bottom-up approach 로 나뉜다.

즉, 사람 수에 따른 기법분류를 도식화하면 아래와 같다.

3. 딥러닝 기반 자세추정기법

3-1. Single person pipeline

이미지 내 사람 한명만 존재하는 경우이며, 고전 기법으로는 사람 전신을 Stickman으로 보고 모델링을 하는 방식을 택했으나 근래에는 관절 등의 Key-joint 로 바꿔 모델링한다.

(1) Direct regression

DCNN 등의 네트워크 모델을 통해 신체 부위의 키포인트의 위치를 직접 피팅(regression)하는 방법이다. 2차원 이미지 픽셀값을 입력값으로 이용해서 바로 좌표를 추정하는 방법으로 빠르고, end-to-end 학습이 가능하다. 하지만, 사람이 복수로 존재하는 경우에 적용하기가 어렵고, Key Joint 위치가 매우 비선형적이어서 적합하게 매핑하기가 사실상 어렵다.

(2) Heatmap based method

DCNN 이나 GAN 등의 네트워크 모델을 통해 신체부위 중 키포인트가 존재할만한 위치를 확률적 Heatmap으로 계산하고 Heatmap을 기반으로 키포인트의 위치를 추정하는 방법이다. 시각화되어 보다 직관적이며 영상처리 기술들을 후처리과정으로 도입하여 정확도를 개선할 수 있고, 동시에 사람이 다수일 경우에도 적용가능하다. 반면에 이미지크기 및 Heatmap의 해상도에 따라 연산에 필요한 메모리크기가 매우 커질 수 있다.

Direct regression 과 Heatmap based method 는 결과적으로 원스텝과 투스텝의 차이며 아래 도식으로 그 과정들이 쉽게 비교될 수 있다. 처리하는 단계가 많아질수록 정확도는 개선되지만 Computation 비용이 많이 필요하다.

3-2. Multi person pipeline

이미지 내 복수의 사람들이 존재하는 경우이며, 사람을 단일 객체영역으로 잘라서 Single Person Pipeline 으로 처리하는 방법(Top-down)과 이미지 내 키포인트를 전부 찾고 단일 객체로써 구분하여 연결하는 방법(Bottom-up)이 있다.

(3) Top-down approach

위의 처리과정에서 알 수 있듯이 사람이 존재하는 영역을 먼저 추출하고(b) 추출된 영역에 대해 각각 키포인트를 추정하여(c→d), 다시 하나의 이미지로 합치는(e)의 방법이다. 다만 사람 존재 영역을 추출하는 과정에서 Human detection 기술이 필요하고, 또 다시 이미지를 합치는 과정에서 후처리 과정이 필수적이다.

(4) Bottom-up approach

이름 그대로 Bottom-up의 방식으로 이미지 전체에 존재하는 모든 신체 키포인트의 위치를 추정하고(b), 신체를 구성하기 위해 근접한 거리의 키포인트들을 그루핑(c)하는 방법이다. 키포인트들을 그루핑하는 과정에서 연관되지 않은 키포인트들을 제거하는 별도의 후처리 과정 도입이 필요하다.

4. 오픈데이터셋

Post estimation에 사용되는 공개용 데이터셋은 아래와 같다. 하지만 MSCOCO, MPII, LSP, FLIC, PoseTrack, AI Challenger 등을 제외하고는 데이터수가 작아 딥러닝 기반 학습에는 부적합하다고 볼 수 있다.

또한, Pose Estimation을 평가하는 지표로는 Percentage of Correctly estimated body Parts(PCP), Percentage of Correct Keypoints(PCK, PCKh=head), Object Keypoint Similarity(OKS)가 있다. 이들은 키포인트로 지정한 영역에 가깝게 추정할수록 가산하여 성능을 평가한다.

5. 출처

arxiv.org/abs/2012.13392- Deep Learning Based 2D Human Pose Estimation: A Survey

728x90

저작자표시 비영리 동일조건

'인공지능 > 컴퓨터비전' 카테고리의 다른 글

Content & Style Extraction (4)	2021.04.26
Visual Interpretability for Convolutional Neural Networks (2)	2021.04.22
Convolution Neural Networks & Visualization (0)	2021.04.21
Loss functions for Image Transformation (1)	2021.04.20
EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning (0)	2021.04.19

TO THE MOON

Deep Learning Based 2D Human Pose Estimation: A Survey

1. 용어정의

2. 요약