일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 딥러닝
- tts
- XAI
- 트랜스포머
- 강화 학습
- 생성형AI
- OpenAI
- ChatGPT
- 다국어 지원
- 메타
- 이미지 생성
- 감정 표현
- 우분투
- AI 기술
- 강화학습
- 휴머노이드 로봇
- 오픈AI
- PYTHON
- 확산 모델
- 멀티모달
- 티스토리챌린지
- 오픈소스
- 일론 머스크
- 인공지능
- Stable Diffusion
- AI
- 자연어 처리
- LLM
- 오블완
- 실시간 렌더링
- Today
- Total
AI 탐구노트
Anomaly-OV : 멀티모달 대형언어모델 기반 제로샷 이상탐지와 추론 본문
인공지능의 발전은 다양한 산업에서 품질 관리, 보안, 의료 영상 분석 등 시각 기반의 이상탐지(Anomaly Detection, AD) 기술을 필수 요소로 부각시켰습니다. 특히 산업 현장에서는 공정 중 발생하는 미세한 결함을 조기에 발견함으로써 제품 불량률을 낮추고, 의료 분야에서는 CT나 MRI 이미지 속 병변을 조기 발견하여 진단 정확도를 향상시킬 수 있습니다. 하지만 대부분의 기존 AD 시스템은 '정상 데이터'를 대량으로 수집해 모델을 학습시키는 방식에 의존하며, 이는 프라이버시 문제와 고비용의 데이터 라벨링 문제로 인해 현실에서 적용이 제한적입니다.
이러한 한계를 극복하기 위한 새로운 패러다임으로 '제로샷 이상탐지(Zero-Shot Anomaly Detection, ZSAD)'가 주목받고 있습니다. 이 방식은 기존처럼 특정 클래스에 맞춰 학습된 모델이 아닌, 다양한 상황에서 일반화된 인식과 추론이 가능한 멀티모달 대형언어모델(Multimodal Large Language Models, MLLMs)을 활용합니다. 최근에는 GPT-4o와 같은 모델들이 이미지 인식에서도 뛰어난 성능을 보여주고 있지만, 여전히 이미지 속 이상을 정밀하게 설명하는 데는 한계가 있습니다. 이런 배경에서 MLLM을 이용한 제로샷 이상 탐지 기술인 Anomaly-OneVision(Anomaly-OV)가 제안되었습니다.
Anomaly-OneVision
1) 기존 방식의 문제점
기존의 이상탐지 시스템은 정상 데이터만으로 학습한 후 이상 샘플을 탐지하는 방식이 주류입니다. 그러나 이 방식은 라벨링 비용과 데이터 수집의 어려움, 그리고 특정 도메인에 국한된 일반화 한계 등 여러 문제를 안고 있습니다. 또한 최신 MLLM조차도 이상 이미지의 정밀한 설명과 추론에는 취약한 한계를 드러냅니다.
2) 접근 방식
이에 Anomaly-OV라는 전문 시각 어시스턴트가 제안되었는데, 이는 범용 MLLM의 장점에 '이상탐지 전문가(anomaly expert)'를 추가로 결합한 구조입니다. 이 구조는 인간의 시각적 점검처럼 이미지 내의 의심 영역을 두 번 살펴보는 'Look-Twice Feature Matching(LTFM)' 메커니즘을 중심으로 구성되어 있습니다. Visual Token Selector는 모델이 중요한 이상 정보를 보다 정확하게 인식하고 설명할 수 있도록 돕습니다.
3) 아키텍처
Anomaly-OV의 학습은 다음의 2단계로 진행됩니다.
- Stage 1. 전문가 훈련 단계 : AI가 이미지를 보고 '이 부분이 이상하다'는 것을 판단할 수 있도록 훈련합니다.
- Stage 2. 지시 튜닝 단계 : AI가 이상한 부분을 설명할 수 있도록 언어 모델로 추가적으로 훈련합니다.
위의 그림은 전체 아키텍처를 보여주고 있습니다. 각 구성 요소가 하는 역할을 요약하면 다음과 같습니다.
- Visual Encoder (시각 인식기) : 이미지를 받아 패치를 만들고 CLIP을 이용해 특징 벡터로 바꿔줍니다.
- Adapter (어댑터) : 이미지에서 추출된 여러 층의 정보를 압축해서 중요한 것만 남기는 필터 역할을 합니다.
- Look-Twice Feature Matching (LTFM) : 전체적으로 한번, 의심스러운 부분 집중해서 다시 한번. 이렇게 두 번 보고 의심스러운 정도를 확률 점수로 매깁니다.
- Visual Token Selector (VT Selector) : 이상하다고 판단된 부분만 선택, 강조하는 단계로 중요한 내용만 추출합니다.
- Q-Former : 선택된 중요 정보를 더 잘 연결해서 정리해 줍니다.
- LLM (대형 언어 모델) : 정리된 정보를 바탕으로 문장을 생성합니다.
- Projector / Tokenizer : 이미지 정보를 언어 모델이 이해할 수 있는 형식으로 바꿔주는 도구입니다.
4) 세부 적용 기술
1️⃣ Look-Twice Feature Matching (LTFM, 두 번 보기)
LTFM은 이미지의 전반적인 특징과 이상/정상 임베딩을 조합하여 중요한 이상 토큰을 강조합니다. 코사인 유사도를 기반으로 각 패치의 이상 여부를 확률적으로 계산해 이상 부위를 자동으로 탐지합니다.
2️⃣ Visual Token Selector (중요한 부분 골라내기)
고해상도 이미지에서 수천 개의 시각 토큰 중 이상과 관련 있는 부분만을 선별해 LLM의 추론 효율과 정확도를 높입니다. Q-Former를 통해 연관성이 높은 토큰을 효과적으로 집계합니다.
3️⃣ Anomaly-Instruct-125k (훈련 데이터셋)
12.5만 개의 시각-언어 튜닝 데이터를 포함한 대규모 데이터셋으로, 산업/의료/3D 도메인의 다양한 이상 상황을 포괄합니다. 다중 질문-응답 형식으로 구성되어 복합 추론 학습에 적합합니다.
4️⃣ VisA-D&R 벤치마크
기존 이상탐지 벤치마크와 달리, 이상 탐지 후 그 원인 분석과 향후 조치까지 요구하는 복합 추론 벤치마크로, Anomaly-OV의 종합적 성능을 측정합니다.
4) 제약사항
Anomaly-OV의 성능은 Anomaly Expert의 토큰 선택 정확도에 크게 좌우됩니다. 이상 부위를 제대로 식별하지 못하면 추론 단계의 성능도 낮아지며, 이 모듈의 고도화가 향후 주요 과제로 제시됩니다.
Anomaly-OV는 멀티모달 대형언어모델의 일반화 능력에 이상탐지에 특화된 전문가 모듈을 결합한 구조로, 제로샷 방식으로도 정밀한 이상탐지와 설명이 가능합니다. 이 모델은 다양한 산업 및 의료 분야에 적용 가능하며, 이상에 대한 구체적 원인 분석과 개선 제안까지 제시할 수 있어 높은 실용성과 신뢰성을 제공합니다.
이상징후 감지는 산업 분야에서 아주 중요합니다. 대부분 초기 AI 도입이 제조분야 생산 라인의 이상징후 감지에 적용되었던 것도 당연한 것이었죠. 사람보다는 기계가 잘 할 수 있는 영역 가운데 대표적인 것이었으니까요. 게다가 적용하면 생산성을 획기적으로 올릴 수 있고 비용도 절감할 수 있었으니까요. 그리고, 실제 도입해서 많은 효과를 거두기도 했습니다.
여담이지만... 사람의 마음이 수시로 변하는데 이런 영역의 이상징후 감지도 가능해지면 어떨까 하는 생각을 해 봤습니다. 표정이나 어투, 행동 등등 사실 감지할 수 있는 데이터가 있다면 불가능한 영역도 아닐테죠. ^^;
참고자료
- 사이트) Anomaly-OV 프로젝트 (링크)
- 논문) Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models (링크)
- 코드) Anomaly-OV github 저장소 (링크)
Q&A
Q. Anomaly-OV는 기존 CLIP 기반 이상탐지 모델과 어떤 차별점이 있나요?
Anomaly-OV는 이상 여부뿐 아니라 왜 이상인지에 대한 설명까지 제공하며, Look-Twice 메커니즘과 시각 토큰 선택 기능으로 정밀도가 크게 향상되었습니다.
Q. Anomaly-Instruct-125k 데이터셋은 어떻게 구성되어 있나요?
12.5만 개의 시각-언어 튜닝 데이터로 구성되어 있으며, 산업, 의료, 3D 등 다양한 분야의 이상탐지 및 추론을 포함하고 있습니다.
Q. Anomaly-OV는 실시간 시스템에도 적용될 수 있나요?
전문가 모듈을 경량화하고 추론 단계를 최적화한다면, 실시간 품질 검사 시스템 등에도 응용이 가능할 것으로 보입니다.
'AI 기술' 카테고리의 다른 글
SongBloom : 가사에서 고품질 노래, 오픈소스 Suno가 긴장해야겠군! (0) | 2025.06.27 |
---|---|
Test3R - 테스트 시 학습만으로 3D 재구성 품질을 향상시키는 기법 (1) | 2025.06.26 |
특징 중앙화를 통해 훈련 없이도 사람을 재식별하는 기술 (0) | 2025.06.22 |
EdgeTAM : 모바일 기기에서 실시간으로 모든 객체를 추적하는 모델 (0) | 2025.06.21 |
Ego-R1 : 오랜 시간 동안 찍은 1인칭 영상에서 정보를 똑똑하게 찾아주는 AI 시스템 (0) | 2025.06.20 |