AI 탐구노트

시각적 아나그램을 통해 본 인공지능의 형태 인식 능력 차이 본문

AI 기술

시각적 아나그램을 통해 본 인공지능의 형태 인식 능력 차이

42morrow 2025. 7. 8. 15:30

 

 

우리의 시각 시스템은 매우 정교합니다. 예를 들어, 조명이 달라지거나 물체의 텍스처(질감)가 바뀌더라도 우리는 그것이 같은 사물이라는 것을 쉽게 인식할 수 있습니다. 이런 능력은 물체를 구성하는 세부적인 요소뿐 아니라, 전체적인 형태나 구조적 관계를 파악할 수 있기 때문입니다. 하지만 인공지능, 특히 컴퓨터 비전 모델은 이러한 능력에서 아직 인간만큼 뛰어나지 못합니다. 이미지의 일부분만을 보고 판단하거나, 질감에만 의존하여 전체 구조를 놓치는 경우가 많죠.

 

최근에는 딥러닝 기술이 발전하면서 다양한 비전 모델들이 등장했지만, 여전히 ‘전체적인 형태’를 파악하는 능력에는 한계가 있다는 지적이 있습니다. 그 한계를 넘기 위한 새로운 평가 기준인 Configural Shape Score(CSS)와 이를 테스트하는 Object Anagram Dataset가 제시되었습니다. 단순히 모양 대 질감의 대결이 아닌, 인간처럼 ‘형태의 배치 관계’를 인식할 수 있는지 측정하려는 시도라고 합니다. 그나저나 AI 논문 가운데 하바드 대학에서 나온 논문은 참 오랜만에 보는 것 같습니다.


Configural Shape Score(CSS)

 

1) 기존 방식의 문제점

 

기존의 비전 모델 성능 평가에서는 보통 이미지를 보고 무엇인지 맞히는 ‘정답률’이 중요하게 여겨졌습니다. 하지만 이는 모델이 사물의 ‘형태’보다는 ‘질감’ 같은 국소적 특징에 의존할 가능성을 키웁니다. 예를 들어, 고양이 이미지에서 고양이의 털무늬나 색상만으로 정답을 맞히는 모델도 높은 정확도를 받을 수 있는 것이죠.

 

이를 해결하기 위한 방법 중 하나로 '모양 대 질감’ 실험이 있었는데, 이것도 상대적인 평가일 뿐 절대적으로 형태를 얼마나 잘 파악했는지는 알기 어렵다는 한계가 있었습니다. 결과적으로 ‘진짜 형태 인식 능력’을 측정할 수 있는 절대적인 평가 방식이 필요했습니다.

 

2) 접근 방식

 

이 논문에서는 Configural Shape Score(CSS)라는 새로운 지표를 도입해 모델이 '형태의 배치' 자체를 얼마나 잘 인식하는지 절대적으로 평가할 수 있도록 했습니다. 이를 위해 저자들은 Object Anagram Dataset이라는 독특한 이미지 쌍을 만들어 사용했습니다. 이 이미지 쌍은 동일한 조각(patch)들을 다른 위치에 배열해 전혀 다른 사물을 나타내도록 한 것으로, 질감은 동일하지만 구조는 완전히 다릅니다.

이런 이미지 쌍에서 두 이미지를 모두 정확히 분류할 수 있는 모델은 단순한 질감이나 일부 특징이 아닌 ‘전체적인 배치 관계’를 이해해야만 하므로, 진정한 형태 인식 능력을 가지고 있다고 볼 수 있습니다.

 

3) 세부 적용 기술

  • Object-Anagram Dataset
    • 각 이미지 쌍은 동일한 질감을 가진 16개의 조각(patch)으로 구성되며, 위치만 달리 배치되어 다른 사물을 형성합니다.
      예를 들어, 같은 조각들을 다르게 배치해 코끼리와 늑대 이미지를 각각 만들 수 있습니다.
    • 이렇게 하면 단순히 조각 자체가 아닌 ‘조각들의 배치’로 인식해야 하므로 형태 인식 능력을 테스트할 수 있습니다.

그림 : Object-Anagram Task 예시 (16개 패치를 달리 배치해 다른 사물을 생성)

 

 

  • Configural Shape Score (CSS)
    • 각 이미지 쌍에서 두 이미지를 모두 맞힌 비율을 측정하며, 단 하나라도 틀리면 감점되므로 매우 엄격한 기준입니다.
    • CSS가 높을수록 모델이 배치 관계를 잘 인식하는 것입니다.

그림 : 다양한 비전 모델들에서의 CSS 측정값 비교 (점선은 인간 기준선)

  • 장거리 상호작용(Self-Attention)
    • Vision Transformer 계열 모델들은 이미지의 여러 패치 간 상호작용을 통해 정보를 처리합니다.
    • 특히 CSS가 높은 모델들(예:DINOv2)은 중간 층에서 멀리 떨어진 패치들 간의 관계를 적극적으로 활용하는 것으로 나타났습니다.
      참고) 아래 그림은 '가까이보기(attention inside)' vs '멀리보기 (attention outside)' 제한이 각각 적용되었을 때의 성능 수치 비교를 보여주고 있습니다. 

그림 : Attention 제한 실험 비교 (attention inside vs attention outside)

  • 대표 모델들
    • CSS가 가장 높은 모델: DINOv2, EVA-CLIP, SigLIP2 (비지도 학습 또는 언어-이미지 연계 학습 기반)
    • CSS가 낮은 모델: ResNet50, BagNet (국소적 특징에만 의존)
  • 실험 결과
    • CSS는 ImageNet 정확도와 무관하게 독립적으로 형태 인식 능력을 평가합니다.
    • CSS가 높을수록 노이즈, 배경 변화 등 다양한 상황에서도 강인한 성능을 보였습니다.

4) 제약사항

  • 이 데이터셋은 생성형 모델 기반으로 만들어졌기 때문에, 실제 자연 이미지의 복잡성을 모두 반영하진 못합니다.
  • 전체적인 구조 인식에 초점이 맞춰져 있어, 세부 부품 간 조합(구성적 인식 능력)은 별도로 평가하지 않았습니다.

 

이 연구는 딥러닝 모델의 형태 인식 능력을 보다 정밀하고 절대적으로 평가할 수 있는 Configural Shape Score(CSS)를 제안하며, 인간과 유사한 전체 구조 인식 능력을 가진 모델을 판별하는 데 새로운 길을 제시합니다. 특히, Transformer 기반의 자가 지도 학습 모델과 언어 연계 모델들이 높은 CSS를 기록하며 진정한 ‘형태 중심’의 인식을 하고 있음을 보여주었습니다.

 

향후 이러한 모델들이 일상적인 이미지 인식, 자율주행, 의료 영상 분석 등 다양한 분야에 적용된다면 더 강건하고 오류에 강한 인공지능 시스템 개발에 기여할 수 있을 것입니다. 또한 제약사항으로 언급된 부분들이 개선된다면, 더 폭넓은 형태 인식 평가와 적용이 가능해질 것입니다.


참고자료

  • 논문) Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models (링크)
  • 사이트) 프로젝트 페이지 (링크) 

Q&A

 

Q. 기존의 '모양 대 질감' 실험과 CSS의 차이는 무엇인가요?

CSS는 두 이미지를 모두 맞혀야 점수를 주는 절대 평가 방식이라, 모델이 단순히 질감을 억제하는 것이 아닌 진짜 형태를 인식하는지를 평가합니다.

 

Q. 왜 Transformer 모델들이 높은 CSS를 기록했나요?

Transformer는 이미지의 여러 부분을 동시에 비교하고 통합하는 self-attention 메커니즘이 있어, 전체 배치를 이해하는 데 유리합니다.

 

Q. CSS가 높은 모델은 어떤 실제 이점이 있나요?

노이즈, 배경 변화, 형태 왜곡 등 다양한 상황에서도 안정적인 성능을 보여줘 실생활 적용 시 매우 유리합니다.