Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- OpenAI
- ControlNet
- 생성형 AI
- 일론 머스크
- 시간적 일관성
- 아두이노
- 메타
- 멀티모달
- AI 기술
- AI
- ChatGPT
- 딥러닝
- 우분투
- 딥마인드
- 오픈AI
- 티스토리챌린지
- 인공지능
- PYTHON
- TRANSFORMER
- 확산 모델
- 서보모터
- ubuntu
- 가상환경
- tts
- LORA
- 뉴럴링크
- 트랜스포머
- 휴머노이드 로봇
- 오블완
- LLM
Archives
- Today
- Total
AI 탐구노트
SkateFormer 본문
SkateFormer는 스켈레톤-시간적 관계를 효율적으로 캡처하여 행동 인식의 정확성을 향상시킨 모델입니다.
인간 행동을 인식하기 위해 객체의 스켈레톤의 조인트 좌표 데이터와 이들의 연결성을 기반으로 하는 사례는 이전에도 많이 있었습니다. GCN(Graph Convolution Network)은 조인트 연결성의 수용 영역 제한, 즉 물리적으로 먼 조인트 간의 관계를 포착하기 힘들다는 문제점이 있었고, Transformer 기반 방식은 모든 프레임의 모든 조인트 간의 상관 관계를 계산해야 해서 많은 메모리 자원과 계산이 필요하다는 문제점이 있었습니다. SkateFormer는다음과 같은 접근 방법을 통해 문제점을 해결합니다.
- 스켈레톤-시간적 분할 전략
스켈레톤-시간적 관계를 다음의 네 가지 유형으로 분류하고 조인트와 프레임을 분류하며 이를 통해 중요한 조인트와 프레임에 선택적으로 집중할 수 있게 합니다.
물리적으로 인접한 조인트와의 관계 / 물리적으로 먼 조인트와의 관계 / 이웃 프레임과의 시간적 관계 / 먼 프레임과의 시간적 관계 - Skate-MSA (Skeletal-Temporal Multi-Head Self-Attention)
입력 피처 맵을 네 개의 동일한 크기의 채널 별로 나누고 각 분할에 Self-Attention을 적용하여 조인트 간의 관계를 구별합니다. 이러한 접근을 통해 모든 조인트와 프레임을 일괄 계산하지 않고 중요한 부분에 집중해 자원을 절약해 메모리 사용량과 계산 복잡도를 줄이는 효과를 거둡니다. - Skate-Embedding
고정된 시간적 지표 피처 (Temporal Embedding)와 학습 가능한 스켈레톤 피처(Skeleton Embedding)를 결합하여, 다양한 길이의 시퀀스에서도 일관된 시간적 위치 정보를 제공하고, 조인트 위치 정보를 학습함으로써 다양한 상황에서 안정적인 성능을 제공하고 학습 효율을 높입니다. - 데이터 증강 (Intra-instance / Inter-instance augmentation)
각 프레임 시퀀스 내와 다른 프레임 시퀀스 간의 데이터 증강을 수행합니다.