AI 기술

A Lightweight Face Detector via Bi-Stream Convolutional Neural Network and Vision Transformer

42morrow 2024. 11. 21. 11:26

 

 

1. 서론

 

얼굴 검출은 이미지를 분석하여 사람의 얼굴을 정확히 식별하고 그 위치를 파악하는 기술로, 컴퓨터 비전 분야에서 중요한 역할을 담당합니다. 이는 얼굴 인식, 감정 분석, 사용자 인증 등 다양한 응용 분야에 필수적인 기초 기술로 자리 잡았습니다. 최근까지 CNN(Convolutional Neural Networks)은 지역적 특징을 효과적으로 학습하는 특성을 통해 높은 성능을 발휘하며 얼굴 검출에서 주요 기술로 사용되어 왔습니다. 그러나 CNN 기반 모델은 고정된 크기의 수용 영역(receptive field)으로 인해 가려짐, 흐림, 다양한 얼굴 각도와 같은 복잡한 조건에서 한계를 드러냅니다.

 

Transformer 모델은 전역적 관계를 학습하는 데 뛰어난 성능을 보이며 NLP를 넘어 컴퓨터 비전 분야에서도 주목받고 있습니다. 그러나 이 모델은 지역적 패턴을 잡아내는 데 어려움이 있어, CNN과의 결합이 필요성이 대두되었습니다. 이러한 필요성을 반영하여 본 연구에서는 CNN과 Transformer를 결합한 Bi-Stream 구조를 통해 복잡한 환경에서도 뛰어난 얼굴 검출 성능을 보이는 E-CT Face 모델을 제안합니다.

 


2. 본론

2.1. 기존 방식의 문제점

기존 CNN 기반 얼굴 검출 모델은 지역적 패턴 학습에 뛰어나지만, 고정된 크기의 수용 영역으로 인해 얼굴이 가려지거나 흐릿한 경우, 다양한 크기의 얼굴 검출에 한계를 가집니다. 또한 Transformer는 전역적 관계를 학습할 수 있으나, 이미지의 저수준(local) 세부 특징을 잃는 문제가 발생합니다.

 

2.2. 접근 방식

그림 : 파이프라인 개요

 

위에서 언급한 문제점을 이 논문에서는 CNN과 Transformer를 결합한 Bi-Stream 구조를 통해 이러한 문제를 해결하려 합니다. 이 구조는 CNN의 지역적 패턴 학습 능력과 Transformer의 전역적 문맥 표현 학습 능력을 통합하여 더욱 정교한 얼굴 검출이 가능하도록 설계되었습니다.

 

모델의 주요 설계는 다음과 같습니다:

  • 혼합 백본(hybrid backbone): CNN과 Transformer 블록을 결합하여 다단계 특징 추출
  • 특징 강화 합성 블록(FEC): CNN의 지역적 패턴을 보완하면서 세부 이미지를 복원
  • 다중 스케일 특징 집계(MFA): 다양한 얼굴 크기와 복잡한 환경에서의 검출 성능 향상

 

그림 ; 네트워크 아키텍처

 

 

2.3. 세부 적용 기술

  • 혼합 백본(Hybrid Backbone)
    • Bi-Stream 구조를 도입하여 CNN과 Transformer 블록의 장점을 결합
    • Transformer는 전역 문맥 정보를, CNN은 지역적 특징을 추출
    • 계층적 구조를 통해 다단계 출력 특징 맵을 생성
  • 특징 강화 합성 블록(FEC)
    • DP 계층을 포함하여 이미지의 세부 정보를 유지하며 저수준 특징 복원
    • CNN과 Transformer의 특징 맵을 융합하여 정밀도 향상
  • 다중 스케일 특징 집계(MFA)
    • 다양한 커널 크기의 컨볼루션을 사용하여 멀티스케일 특징 추출
    • 채널 주의 기법(branch channel attention)을 활용해 얼굴과 배경을 구분

 

2.4. 제약사항

 

모델의 주요 제약사항은 다음과 같습니다:

  • 경량화를 위해 매개변수 수를 줄였으나, 일부 복잡한 조건에서는 여전히 한계 존재
  • 고성능 검출을 위해 향후 대규모 데이터와의 추가 학습이 필요

3. 결론

이 논문은 CNN과 Transformer의 결합을 통해 기존 모델의 한계를 극복하고, 경량성과 성능을 동시에 갖춘 E-CT Face 모델을 제안합니다. 이 모델은 가려짐, 다양한 각도, 작은 얼굴 등의 복잡한 조건에서도 높은 정밀도를 보여주며, 실제 응용 환경에서 효과적인 활용 가능성을 입증하였습니다. 향후 모델의 확장을 통해 더 높은 정확도와 다목적성을 확보할 수 있을 것으로 기대됩니다.


4. 참고자료

  1. 논문 제목: A Lightweight Face Detector via Bi-Stream Convolutional Neural Network and Vision Transformer
  2. DOI: 10.3390/info15050290

5. Q&A

  1. 이 모델이 기존 CNN 모델과 다른 점은 무엇인가요?
    CNN과 Transformer를 결합하여 지역적 패턴과 전역적 문맥 정보를 동시에 학습합니다.
  2. 제안된 모델은 어떤 데이터를 사용하여 학습되었나요?
    WIDER FACE 데이터셋과 ImageNet-1K 데이터를 사용하여 학습되었습니다.
  3. 실제 적용 가능성은 어느 정도인가요?
    경량화된 설계로 CPU에서도 실시간 검출이 가능하며, 다양한 환경에서 높은 정확도를 보입니다.