Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 멀티모달
- 오블완
- 서보모터
- 확산 모델
- AI 기술
- 메타
- 일론 머스크
- 티스토리챌린지
- 시간적 일관성
- 생성형 AI
- 가상환경
- OpenAI
- tts
- TRANSFORMER
- 아두이노
- PYTHON
- ControlNet
- ChatGPT
- 우분투
- 트랜스포머
- AI
- 오픈AI
- ubuntu
- 딥마인드
- 이미지 편집
- javascript
- LLM
- LORA
- 뉴럴링크
- 인공지능
Archives
- Today
- Total
AI 탐구노트
Flex3D : 고품질의 3D 콘텐츠를 생성하는 모델 본문
FLEX3D는 다수의 시각적 입력을 활용해 텍스트 또는 이미지로부터 고품질의 3D 콘텐츠를 생성하는 모델입니다.
기존 다중 뷰 확산 모델은 다중 뷰 이미지를 합성하되 적은 수의 뷰만을 사용하고 이후 다시 3D 재구성을 위한 피드포워드 프로세스르 사용합니다. 이로 인해 생성된 시점들의 품질이 낮을 경우엔 최종 3D 재구성 결과물의 품질이 떨어지는 문제가 있었습니다.
FLEX3D는 이런 문제를 후보 뷰 생성 및 큐레이션 파이프라인 소개, 유연한 FlexRM 아키텍처 설계, 모델의 견고성을 향상시키기 위해 불완전한 입력 뷰를 시뮬레이션하는 새로운 교육 전략 등을 적용해 해결하고 있습니다.
위 그림을 보면 FLEX3D는 두 단계로 나누어 동작합니다. 첫 번째 단계에서는 후보 시점 생성 및 선별 과정으로, 텍스트나 이미지를 기반으로 다양한 각도의 시점을 생성하고 그중 높은 품질과 일관성을 가진 시점만을 선별합니다. 두 번째 단계에서는 선택된 시점들을 기반으로 유연한 재구성 모델(FlexRM)이 다중 입력을 받아 3D 객체를 가우시안 포인트로 표현한 후 빠른 속도로 고품질의 3D 객체를 생성하게 됩니다.
FLEX3D의 특징은 다음과 같이 요약될 수 있습니다.
- 다양한 시점 생성 및 선별: 확산 모델을 통해 많은 후보 시점을 생성한 후, 품질 검사와 일관성 검증을 통해 최적의 시점만을 선택합니다.
- 유연한 재구성 모델: 선택된 시점들을 활용하여 FlexRM 모델이 3D 가우시안 포인트를 출력하는 방식으로 고품질 3D 객체를 효율적으로 생성합니다. 이 모델은 입력되는 시점의 수가 가변적일 수 있으며, 빠르고 메모리 효율적인 방식으로 작동합니다.
- 노이즈 시뮬레이션: 입력 시점들에 약간의 노이즈를 추가하여 모델이 불완전한 시각 정보에도 적응하도록 학습시킵니다.
'AI 기술' 카테고리의 다른 글
Invoke : 비주얼 미디어를 위한 전문 크리에이티브 AI 도구 (2) | 2024.10.07 |
---|---|
Crawl4AI : 비동기 웹 크롤링 데이터 추출 및 간소화 앱 (0) | 2024.10.07 |
LVCD : 스케치 영상을 색칠하는 비디오 확산 모델 (0) | 2024.10.03 |
LightLLM : Python 기반 LLM 추론 및 API 제공 프레임워크 (3) | 2024.10.03 |
Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델 (2) | 2024.10.03 |