일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 오블완
- ubuntu
- ControlNet
- PYTHON
- AI 기술
- 시간적 일관성
- 뉴럴링크
- 생성형 AI
- 이미지 편집
- 서보모터
- tts
- 오픈AI
- OpenAI
- 가상환경
- 딥마인드
- 확산 모델
- AI
- 트랜스포머
- 티스토리챌린지
- LLM
- LORA
- 일론 머스크
- TRANSFORMER
- 멀티모달
- 우분투
- ChatGPT
- javascript
- 인공지능
- 메타
- 아두이노
- Today
- Total
목록확산 모델 (5)
AI 탐구노트

1.서론디지털 콘텐츠 제작과 편집 기술의 발전으로 인해 이미지 편집 기술은 점점 더 중요해지고 있습니다. 특히, 텍스트 설명을 바탕으로 이미지에 객체를 삽입하는 기술은 컴퓨터 그래픽스, 자율주행 훈련 데이터 생성 등 다양한 산업 분야에서 활용 가능성이 높습니다. 그러나 이러한 작업은 단순히 객체를 추가하는 것 이상의 복잡성을 가집니다. 원본 이미지의 구조와 질감을 유지하면서도 자연스러운 위치에 객체를 배치하는 것이 관건입니다. 기존의 텍스트-이미지 확산 모델은 뛰어난 생성 능력을 보여주지만, 객체 삽입과 같은 특정 편집 작업에서는 여전히 한계가 있습니다. 이에 대한 해결책으로 NVIDIA와 텔아비브 대학교 연구팀은 훈련 없이 객체 삽입이 가능한 ADD-IT 모델을 제안했습니다. 이 기술은 사전 학습된 확..

1. 서론가상 착용 기술은 온라인 쇼핑과 소셜 미디어 마케팅이 활성화됨에 따라 급격히 발전하고 있습니다. 특히, 의류를 직접 입어보지 않고도 착용감을 미리 확인할 수 있는 가상 착용 기술은 사용자 경험을 크게 향상시킬 수 있습니다. 기존의 이미지 기반 가상 착용 방식은 한정된 각도에서만 의류를 볼 수 있어 입체적인 이해가 어려웠습니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 비디오 기반 가상 착용 기술입니다. 비디오 기반 가상 착용 기술은 특정 의류를 다양한 각도와 움직임에서 확인할 수 있도록 하며, 옷감의 질감이나 주름, 동작에 따른 흐름까지도 시뮬레이션합니다. 그러나 이러한 기술을 구현하기 위해서는 일관성 있는 비디오 프레임 생성과 실감 나는 텍스처 렌더링이 필수적입니다. 기존 기술은 이러한 ..

FLEX3D는 다수의 시각적 입력을 활용해 텍스트 또는 이미지로부터 고품질의 3D 콘텐츠를 생성하는 모델입니다. 기존 다중 뷰 확산 모델은 다중 뷰 이미지를 합성하되 적은 수의 뷰만을 사용하고 이후 다시 3D 재구성을 위한 피드포워드 프로세스르 사용합니다. 이로 인해 생성된 시점들의 품질이 낮을 경우엔 최종 3D 재구성 결과물의 품질이 떨어지는 문제가 있었습니다. FLEX3D는 이런 문제를 후보 뷰 생성 및 큐레이션 파이프라인 소개, 유연한 FlexRM 아키텍처 설계, 모델의 견고성을 향상시키기 위해 불완전한 입력 뷰를 시뮬레이션하는 새로운 교육 전략 등을 적용해 해결하고 있습니다. 위 그림을 보면 FLEX3D는 두 단계로 나누어 동작합니다. 첫 번째 단계에서는 후보 시점 생성 및 선별 과정으로..

LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델 기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNet과 Reference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다. LVCD 모델 아키텍처..

고품질 음악 생성과 정교한 스타일 컨트롤을 가능하게 하는 음악 생성 및 편집 시스템 Seed-Music는 고품질 음악 생성과 정교한 스타일 컨트롤을 가능하게 하는 음악 생성 및 편집 시스템입니다. 음악 도메인은 신호의 복잡성으로 인해 참 어려운 영역입니다. 특히 보컬 같은 경우는 다양한 주파수 대역이 겹치는 소리를 포함하고 있어 더 그렇죠. 게다가 아무래도 전문적인 도메인 지식이 필요한 영역이다 보니 더 그런 것 같습니다. 음악을 만드는 것에는 멜롣, 화음 진행, 구조적 일관성 등에 대한 전문 지식도 필요하고 이를 AI를 이용하려고 할 때 가사, 쟝르, 악기 구성, 노래 구조와 같은 주석이 포하모딘 데이터를 이용해 학습해야 합니다. 하지만, 그런 데이터를 수집하는 것은 매우 어렵죠. Seed-Musi..