Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 메타
- AI
- 아두이노
- ubuntu
- 트랜스포머
- TRANSFORMER
- 생성형 AI
- javascript
- 가상환경
- 우분투
- ChatGPT
- 이미지 편집
- 확산 모델
- 멀티모달
- 뉴럴링크
- OpenAI
- ControlNet
- PYTHON
- 오픈AI
- 서보모터
- LORA
- LLM
- 인공지능
- tts
- 일론 머스크
- AI 기술
- 딥마인드
- 시간적 일관성
- 오블완
- 티스토리챌린지
Archives
- Today
- Total
AI 탐구노트
PhysGen : 물리법칙을 이해하는 이미지-비디오 생성 모델 본문
단일 이미지와 입력 조건을 물리적으로 일관된 영상을 생성하는 모델
PhysGen은 단일 이미지와 입력 조건을 사용해 물리적으로 일관된 영상을 생성하는 모델입니다.
기존의 데이터 기반 비디오 생성 방식은 실제 물리적 원칙을 반영하지 않아, 생성된 비디오가 현실적이지 않고 물리적 일관성이 부족했으며 세밀한 제어가 어려웠습니다. 예를 들어 OpenAI에서 쇼킹할 수준의 영상 생성을 하는 SORA를 공개했을 때에도, 갑자기 수가 불어나는 새끼 늑대들의 영상이나 발굴현장에서 날아다니는 플라스틱 의자 등과 같은 예시 샘플 영상 을 보면서 아... 아직 물리법칙에 어긋나거나 일관성이 떨어지는 부분들은 여전히 있구나 하는 생각을 했었더랬습니다.
PhysGen은 물리 기반 시뮬레이션과 데이터 기반 비디오 생성 기술을 결합하여 물리적 일관성을 갖춘 영상을 생성합니다. 이를 위해 PhysGen은 세 가지 주요 모듈을 사용하여 작업을 진행합니다.
- 이미지 인식(Perception) 모듈
입력된 이미지 속에서 물체를 찾아내고, 그 물체들이 어떤 재질로 되어 있는지, 얼마나 무겁고(질량), 표면이 얼마나 미끄러운지(마찰), 탄력(탄성)이 있는지 등을 추정합니다. 이 단계에서 인공지능이 이미지 속 정보를 분석하고 물리적 특징을 알아냅니다. - 물리 시뮬레이션 모듈 (Dynamic Simulation)
물리적으로 일관된 움직임을 시뮬레이션하며, 뉴턴의 법칙에 따라 물체 간 충돌, 마찰 등을 계산합니다. 한마디로 게임으로 본다면 물리엔진이 적용된다고 보시면 될 것 같습니다. - 생성적 비디오 렌더링 모듈 (Rendering)
시뮬레이션된 물리적 움직임을 바탕으로 시간에 따라 어떻게 변할지 생성 모델이 예측합니다. 이 때 픽셀 수준에서 구현하고, 조명, 그림자 등의 변화 등을 반영한 사실적 비디오로 렌더링합니다.
PhysGen 모델의 특징을 요약하면 다음과 같습니다.
- 물리 시뮬레이션: 강체(rigid-body) 역학을 바탕으로 이미지 내 물체의 질량, 탄성, 마찰 등의 물리적 매개변수를 추정하여 물체의 실제적인 운동을 시뮬레이션합니다.
- 생성적 비디오 렌더링: 시뮬레이션 결과를 기반으로 영상 생성 확산 모델을 사용해 사실적이고 물리적으로 타당한 비디오를 생성합니다.
- 높은 제어성: 사용자는 물리적 매개변수 및 초기 조건을 제어할 수 있어 다양하게 상호작용하며 비디오 생성이 가능합니다.
'AI 기술' 카테고리의 다른 글
LightLLM : Python 기반 LLM 추론 및 API 제공 프레임워크 (3) | 2024.10.03 |
---|---|
Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델 (2) | 2024.10.03 |
Sketch Video : 영상에서 스케치를 생성하는 프레임워크 (1) | 2024.10.01 |
Firecrawl : 웹사이트 데이터 크롤링 API 서비스 (1) | 2024.10.01 |
LARS : 로컬 LLM으로 사용자 문서를 분석하는 애플리케이션 (1) | 2024.09.30 |