일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 우분투
- AI 기술
- Stable Diffusion
- OpenCV
- 오픈소스
- 다국어 지원
- 인공지능
- 메타
- 오블완
- 일론 머스크
- OpenAI
- 오픈AI
- LLM
- PYTHON
- 트랜스포머
- TRANSFORMER
- 티스토리챌린지
- 아두이노
- 가상환경
- 이미지 생성
- 확산 모델
- tts
- ChatGPT
- 딥러닝
- LORA
- 생성형 AI
- 강화 학습
- ubuntu
- 시간적 일관성
- AI
- Today
- Total
AI 탐구노트
Freestyle Sketch-in-the-Loop Image Segmentation : 스케치를 이용한 자유로운 이미지 분할 본문
Freestyle Sketch-in-the-Loop Image Segmentation : 스케치를 이용한 자유로운 이미지 분할
42morrow 2025. 2. 1. 10:351. 서론
우리는 사진을 볼 때 특정한 사물(예: 강아지, 자동차, 나무)을 구분해서 볼 수 있는 반면. 컴퓨터는 이를 쉽게 이해하지 못하죠. 그래서 컴퓨터가 사진 속에서 원하는 사물만 찾아내도록 하는 기술이 필요한데 이를 이미지 분할(Image Segmentation) 이라고 합니다.
기존의 이미지 분할 기술은 크게 두 가지 방법이 있습니다.
- 사전에 학습된 모델 사용 : 컴퓨터가 미리 학습한 사물(예: 고양이, 자동차)만 인식할 수 있어 새로운 사물에는 적용하기 어렵습니다.
- 사람이 직접 선택 : 사용자가 사진 위에 선을 그리거나 특정 영역을 클릭해서 원하는 부분을 골라야 하지만, 시간이 많이 걸리고 불편합니다.
이 논문에서는 스케치를 이용한 새로운 이미지 분할 방법을 제안합니다. 사용자가 직접 원하는 사물의 형태를 스케치(그림) 하면, 컴퓨터가 사진 속에서 그와 비슷한 부분을 자동으로 찾아 분할해 주는데 이렇게 하면 새로운 사물도 쉽게 찾을 수 있고, 원하는 부분만 정밀하게 분리할 수도 있습니다.
2. 본론
2.1 기존 방식의 문제점
현재 사용되는 이미지 분할 기술은 크게 네 가지 유형이 있습니다.
방식 | 특징 | 문제점 |
미리 학습된 모델 | 특정한 사물(예: 자동차, 개)을 학습해서 분할 | 새로운 사물을 찾을 수 없음 |
텍스트 기반 분할 | "강아지 찾기" 같은 문장을 입력해서 분할 | 세부적인 모양 표현이 어려움 |
사용자 상호작용 방식 | 사용자가 사진 위에서 영역을 지정 | 과정이 번거롭고 어렵움 |
개인화된 학습 방식 | 사용자가 예제 몇 개를 주고 학습 | 새롭게 학습하는 과정이 필요함 |
이러한 기존 방식들은 다음과 같은 한계가 있습니다.
- 새로운 사물을 쉽게 인식하지 못함 – 미리 학습된 것만 찾을 수 있습니다.
- 세밀한 조정이 어려움 – 부분적인 영역을 정확히 선택하기 어렵습니다.
- 사용하기 불편함 – 사용자가 직접 많은 작업을 해야 합니다.
2.2 새로운 접근 방식
본 논문에서는 "스케치를 활용한 이미지 분할" 이라는 새로운 방법을 제안합니다. 사용자가 원하는 사물의 형태를 그리면, 컴퓨터가 해당 스케치를 바탕으로 사진 속에서 비슷한 부분을 자동으로 찾아줍니다.
위의 그림은 기존의 방식 4가지 (N-클래스 분할 모델, 쿼리 기반 모델(Query-based), 상호작용 모델(Interactive Model), 개인화된 모델(Personalized Model))와 제안하는 스캐치 기반 방식을 비교해서 보여 줍니다.
이를 위해 두 가지 주요 기술을 사용합니다.
- 스케치 기반 이미지 검색(SBIR) 모델 활용
- 스케치는 텍스트보다 더 정확한 형태 표현이 가능 → '말' 대신 '앉아 있는 말'을 스케치하면 해당 부분만 찾아낼 수 있음
- 기존의 스케치-이미지 검색 기술을 이용하여 비슷한 모양을 가진 객체를 찾음
- 대규모 사전 학습 모델(CLIP, DINOv2) 결합
- CLIP과 DINOv2는 이미지를 분석하고 특징을 찾는 AI 모델
- 이 모델을 활용하여 스케치와 사진 간의 유사도를 계산하고 분할 수행
- 별도의 마스크 데이터를 만들 필요 없이 학습 가능!
이를 통해 분할 가능한 수준은 다음과 같이 다양합니다.
- 카테고리 수준(Category-level) : '강아지'를 스케치하면 사진 속 모든 강아지를 찾아냄
- 세밀한 수준(Fine-grained) : '앉아 있는 강아지'를 스케치하면 같은 포즈의 강아지만 찾아냄
- 부위별 수준(Part-level) : '강아지의 귀'를 스케치하면 해당 부위만 찾아냄
위의 그림은 스케치를 이용해 이미지 속에서 원하는 객체를 찾아내는 과정을 설명합니다. 즉, 사용자가 스케치를 입력하면 컴퓨터가 해당하는 이미지 부분을 찾아서 마스크(mask)를 생성하는 방법을 생성하는 방법입니다.
스케치와 이미지 각각에서 특징을 추출하고 이미지의 각 조각이 스케치와 얼마나 유사한지 비교합니다. 그런 뒤 이미지에서 스케치와 유사한 부분을 강조하고, 나머지 부분은 무시하는 과정을 거치게 되며 최종적으로 이미지에서 원하는 부분만 남기는 마스크(M)를 생성하게 됩니다. 이후에 추가적으로 정확도로를 높이기 위해 추가적인 학습 과정을 거치게 됩니다.
2.3 핵심 기술 설명
✔ 스케치-기반 마스크 생성
- 사용자의 스케치를 입력받아 해당하는 이미지 영역을 찾아 분할하며 CLIP과 DINOv2 모델을 사용하여 공간적 특징을 분석합니다.
✔ 스케치 분할 증강(Sketch Partitioning Augmentation)
- 스케치의 특정 부분을 랜덤으로 나눠 학습함으로써 부위별 분할 성능을 향상 시킬 수 있습니다.
✔ 마스크 없는 학습 방식
- 기존에는 사람이 직접 픽셀 단위의 정답 마스크를 만들어야 했지만, 본 연구에서는 스케치와 이미지 검색 기술을 활용해 자동으로 마스크를 생성합니다.
2.4 제약 사항
복잡한 배경이 있는 경우 정확도가 낮을 수 있고 스케치가 너무 단순하거나 복잡하면 인식이 어려울 수 있습니다. 또 대규모 모델을 활용하므로 계산 비용이 높다는 단점이 있습니다.
3. 결론
이 연구에서는 스케치를 활용하여 자유롭게 이미지 분할을 수행하는 기술을 제안했습니다. 기존의 방법들은 사전에 학습된 객체만 인식하거나, 사용자가 직접 영역을 선택해야 하는 번거로움이 있었습니다. 하지만 이 연구에서는 사용자가 원하는 형태를 직접 그려서 입력하면, 컴퓨터가 해당하는 이미지 속 부분을 자동으로 찾아 분할할 수 있도록 했습니다.
특히, 텍스트 대신 스케치를 활용함으로써 더 직관적이고 정밀한 조작이 가능하다는 점이 가장 큰 장점입니다. 예를 들어, "앉아 있는 강아지"처럼 세부적인 형태를 직접 표현할 수 있고, "강아지의 귀"처럼 특정 부분만 선택하는 것도 가능합니다. 또한, 기존의 모델들은 학습을 위해 정확한 마스크 데이터가 필요했지만, 본 연구에서는 이러한 마스크 없이도 학습이 가능하다는 점이 매우 혁신적입니다.
이 기술은 디자인, 증강 현실(AR), 의료 영상 분석과 같은 다양한 분야에서 활용될 가능성이 크다고 생각합니다. 특히 그래픽 디자이너나 일러스트레이터가 원하는 특정 부분만 빠르게 선택할 수 있는 도구로 발전할 수 있을 것 같구요. 또한, 의료 영상 분석에서도 특정 장기나 조직을 더 정밀하게 분할하는 데 도움이 될 수 있을 것이라고 봅니다. 종합적으로 볼 때, 이 연구는 이미지 분할 기술을 더 직관적이고 유연하게 만들 수 있는 가능성을 열었다는 점에서 매우 의미 있는 연구라고 생각합니다. 앞으로 더 발전된다면, 컴퓨터 비전과 인간의 상호작용 방식을 크게 바꿀 수 있을 것이라고 기대됩니다.
4. 참고자료
- 논문) Freestyle Sketch-in-the-Loop Image Segmentation (링크)
5. Q&A
Q. 기존 텍스트 기반 분할과 어떤 차이가 있나요?
텍스트("고양이 찾기")는 세부적인 형태를 지정하기 어렵지만, 스케치는 직관적으로 원하는 형태를 정확히 표현할 수 있습니다.
Q. 실제로 이 기술은 어디에 활용될 수 있나요?
그림을 기반으로 특정 부분을 선택해야 하는 디자인, AR, 의료 영상 분석 등 다양한 분야에서 사용할 수 있습니다.
Q. 이 모델을 더 개선하려면 어떻게 해야 할까요?
복잡한 배경에서도 더 정확한 분할이 가능하도록 개선하고, 사용자의 스케치를 자동으로 보정하는 기능을 추가할 수 있습니다.
'AI 기술' 카테고리의 다른 글
OmniHuman : 자연스러운 움직임을 만들어내는 애니메이션 생성 모델 (1) | 2025.02.06 |
---|---|
YuE : 가사로부터 완전한 노래를 생성하는 오픈소스 음악 생성 모델 (0) | 2025.02.03 |
Depth Pro : 제로샷 단일 이미지 깊이 추정 기술 (0) | 2025.01.30 |
DeepSeek R1 : 강화 학습 기반 차세대 추론 모델의 등장 (1) | 2025.01.29 |
CoTracker3 : 간단하고 효율적인 포인트 트래킹 모델 (0) | 2025.01.28 |