Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 휴머노이드 로봇
- 아두이노
- 일론 머스크
- AI 기술
- 딥러닝
- 시간적 일관성
- 오픈AI
- 확산 모델
- 딥마인드
- TRANSFORMER
- 인공지능
- ChatGPT
- 가상환경
- LLM
- 우분투
- 메타
- ubuntu
- 서보모터
- LORA
- 뉴럴링크
- AI
- ControlNet
- 멀티모달
- 오블완
- OpenAI
- tts
- PYTHON
- 트랜스포머
- 티스토리챌린지
- 생성형 AI
Archives
- Today
- Total
AI 탐구노트
GS-VTON : 조절 가능한 3D 가상 착용 시스템 본문
GS-VTON은 2D 가상 착용 기술을 3D로 확장해, 여러 각도에서 옷을 자연스럽게 입어볼 수 있게 해주는 기술입니다.
옷이나 안경, 액서사리와 같은 제품들은 디자인이나 기능적인 측면 외에도, 이를 입거나 갖췄을 때 '나한테 얼마나 어울리는가' 하는 것이 아주 중요한 구매 포인트가 됩니다. 그래서, 제품 구입 전에 입거나 걸쳐보는 등의 과정을 거치는 경우가 많습니다.
그런데, 만약 구입을 온라인에서 하게 된다면? 아니면 오프라인이라도 입고 걸쳐보고 싶은 것이 많은데 제품마다 갈아입어보기가 어렵거나 귀찮은 경우가 있다면? 아마도 많은 분들이 온라인에서 옷을 구매하면 마음에 들지 않아 반품을 해 보신 경험이 있을 겁니다. 오프라인에서는 눈치가 보여서라도 많은 옷을 입어보지 못하는 경우가 있을테구요.
이럴 때 필요한 서비스가 옷을 가상으로 입어볼 수 있는 서비스로 Virtual Try-on, Virtual Fitting 등 부르는 명칭도 다양합니다. 최근 2D 가상 착용(VTON) 기술이 많이 나왔고 좋은 성능을 보여주고 있습니다. 하지만 3D에서는 그만큼 발전하지도 못했고 더 사실적으로 만들려는 시도들이 있었지만 다음과 같은 문제들이 있었습니다.
- 텍스트로 옷을 설명하는 것이 충분치 않았습니다. 옷의 모양, 질감, 디테일을 단순히 글로 표현하기에는 한계가 있죠. 예를 들어 "빨간 셔츠"라고 하면, 그 셔츠의 주름이나 재질 같은 중요한 디테일을 표현하지 못하는 겁니다.
- 3D 장면을 여러 각도에서 볼 때, 각도가 달라질 때마다 옷의 모양이 일관성 없이 달라집니다. 한 방향에서 보면 괜찮지만, 다른 방향에서는 옷이 어색하게 보이거나 왜곡되기도 하죠.
GS-VTON은 이러한 문제를 해결하기 위해 나왔습니다. 이 기술의 특징은 다음과 같습니다.
- 3D 공간에서의 일관성
'3D Gaussian Splatting(3DGS)' 기술을 사용해 3D 공간에서 여러 각도에서 봐도 일관성 있게 옷을 보여줍니다. - 개인 맞춤형 모델
먼저, 기존에 학습된 2D 가상 착용 모델을 LoRA 기술로 사용자 맞춤형으로 조정해 사람마다 다른 특징을 반영한 옷 입기 결과를 만들어낼 수 있게 했습니다. - 참조 기반 이미지 편집
여러 각도에서 찍힌 이미지를 일관되게 편집하기 위해, 하나의 이미지를 기준으로 나머지 각도에서도 같은 방식으로 편집하는 방법을 사용해 어떤 각도에서 보더라도 옷이 자연스럽게 보이도록 합니다. - 페르소나 인식 편집
3D에서 옷을 편집할 때, 옷의 모양과 재질을 각도에 따라 일관성 있게 유지하기 위해 편집할 부분에 대한 정보와 다른 각도에서도 그 부분이 잘 맞도록 도와주는 정보 이렇게 2가지 정보를 입력합니다. - 3D-VTONBench 데이터셋
3D 가상 착용 성능을 평가할 수 있는 새로운 데이터셋을 만들어 공개했습니다.
'AI 기술' 카테고리의 다른 글
Gradio WebRTC : Gradio로 실시간 오디오/비디오 스트리밍 (3) | 2024.10.15 |
---|---|
Open NotebookLM (4) | 2024.10.12 |
Transfusion : 단일 Transformer 기반의 멀티모달 모델 (0) | 2024.10.10 |
Voice-Pro : 음성 관련 통합 서비스를 제공하는 오픈소스 웹 솔루션 (3) | 2024.10.07 |
gradio-client-lite : typescript도 개발된 경량 gradio client (0) | 2024.10.07 |