일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- AI 기술
- AI
- 멀티모달
- 휴머노이드 로봇
- 다국어 지원
- 오블완
- 오픈소스
- 메타
- 오픈AI
- 생성형AI
- ai 챗봇
- Stable Diffusion
- 인공지능
- XAI
- LLM
- 이미지 생성
- OpenAI
- 실시간 렌더링
- 딥러닝
- 자연어 처리
- tts
- ChatGPT
- 강화 학습
- 확산 모델
- PYTHON
- 트랜스포머
- 일론 머스크
- 강화학습
- 티스토리챌린지
- 우분투
- Today
- Total
목록확산 모델 (16)
AI 탐구노트

요즘 유튜브 쇼츠, 틱톡 영상, 넷플릭스의 자동 예고편 생성 등 다양한 산업에서 ‘영상 생성 AI’의 수요가 급격히 늘고 있습니다. 특히 영화나 광고, 게임 트레일러 제작과 같이 긴 시간 동안 정교한 장면을 생성해야 하는 분야에서는 ‘단순히 화질이 좋은 영상’이 아니라, 카메라 앵글, 인물 표정, 장면 전환까지 조율된 고품질 영상이 요구됩니다. 하지만 지금까지의 AI 영상 생성 기술은 5~10초 내외의 짧은 영상에 머무르며, 카메라 움직임이나 장면 구도에 대한 이해 부족, 시각적 일관성 문제 등 여러 한계에 부딪혀 왔습니다. 이러한 문제를 해결하기 위해 'SKYREELS-V2'라는 모델이 제안되었습니다. 이 모델은 단순한 영상 생성기가 아니라, 인간의 영화 언어, 즉 샷 구성, 인물 동작, 감정 표현, ..

최근 인공지능 기술의 발전은 이미지 생성 분야에 새로운 가능성을 열어주고 있습니다. 특히 사용자의 입력에 따라 사람 이미지를 생성하거나 옷을 갈아입히는 '가상 피팅(Virtual Try-on)' 기술은 온라인 쇼핑, 메타버스, 게임 산업 등 다양한 분야에서 큰 주목을 받고 있습니다. 이 기술은 기존에는 불가능했던 맞춤형 콘텐츠 제작을 가능하게 하며, 사용자 경험을 혁신적으로 변화시키고 있습니다. 그러나 이런 기술에도 한계가 있게 마련이죠. 기존 방식으로 생성된 이미지는 전체적으로는 훌륭해 보이지만, 가까이서 보면 옷의 무늬나 로고와 같은 디테일이 왜곡되는 문제가 있습니다. 이러한 문제를 해결하기 위해 'Leffa(Learning Flow Fields in Attention)'라는 새로운 기술이 제안되었습..

디지털 콘텐츠 제작 기술이 발전함에 따라, 단 한 장의 사진과 음성만으로 실제 사람처럼 자연스럽게 말하는 얼굴 영상을 생성하는 기술이 주목받고 있습니다. 이 기술은 가상현실(VR), 디지털 휴먼, 영화 및 게임 제작에 활용되며, 콘텐츠의 몰입감을 크게 향상시킬 수 있습니다. 특히 사람의 입 모양이 음성과 정확히 맞아떨어지고, 고개 움직임이나 표정 변화까지 자연스럽다면, 사람들은 인공지능 캐릭터를 실제 인물처럼 느끼게 됩니다. 하지만 지금까지의 연구는 주로 입 모양 동기화(lip-sync)에만 집중해 왔기 때문에, 고개 움직임이 거의 없거나 표정이 단조로운 영상이 생성되기 일쑤였습니다. 최근에는 입 모양뿐 아니라 고개 움직임, 눈동자 방향, 미세한 표정 변화까지 반영된 더 현실적인 얼굴 애니메이션이 요구되..

최근 3D 기술이 발전하면서, 사진 몇 장만으로도 새로운 시점을 만들어내는 기술이 주목받고 있습니다. 특히, 뉴럴 레디언스 필드(NeRF)와 3D 가우시안 스플래팅(3DGS) 같은 방법이 많이 사용됩니다. NeRF는 장면을 신경망으로 학습하여 새로운 시점을 만들어내는 기술이고, 3DGS는 수많은 가우시안 점을 배치하여 장면을 표현하는 방식입니다. 3DGS는 NeRF보다 빠르게 장면을 생성할 수 있다는 장점이 있어 최근 많은 연구가 진행되고 있습니다. 하지만, 기존의 방법들은 보통 여러 장의 사진이 있어야만 정확한 3D 장면을 만들 수 있습니다. 만약 사진이 몇 장밖에 없다면, 보이지 않는 부분을 제대로 채우지 못해 장면이 엉성하게 복원되거나, 보이지 않는 부분을 자연스럽게 채우는 것이 어렵습니다. 이런 ..

최근 이미지, 비디오, 오디오 생성 모델은 뛰어난 성능을 보이며 발전하고 있습니다. 특히 확산 모델(Diffusion Models)과 Flow Matching 방식은 고품질의 샘플을 생성하는 데 강력한 도구로 자리 잡고 있습니다. 하지만 이러한 모델들은 높은 연산량과 느린 추론 속도라는 문제점을 가지고 있습니다. 기존 연구에서는 이러한 속도를 개선하기 위해 일괄 증류(Distillation)나 일관성 모델(Consistency Models, CMs) 등의 방법을 제안했지만, 이들은 종종 불안정한 학습 과정이나 세밀한 하이퍼파라미터 튜닝이 필요하다는 단점이 있습니다. 이 논문에서는 이러한 문제를 해결하기 위해 새로운 생성 모델 학습 방식인 Inductive Moment Matching (IMM)을 제안합니..

최근 몇 년간 텍스트-이미지 변환 확산 모델(Text-to-Image Diffusion Models)은 이미지 생성 기술의 새로운 기준을 정립하며 놀라운 성과를 보였습니다. 그러나 이러한 모델들은 사용자가 원하는 세밀한 제어와 편집 기능을 충분히 제공하지 못하는 한계를 가지고 있습니다. 예를 들어, 특정 캐릭터를 다양한 맥락에서 일관되게 유지하면서 생성하는 것은 여전히 해결해야 할 도전 과제입니다. 이러한 한계를 극복하기 위해 Diffusion Self-Distillation(DSD) 기법이 제안되었습니다. DSD는 기존의 확산 모델을 활용해 자체적으로 학습 데이터를 생성하고, 이를 기반으로 모델을 미세 조정하여 이미지 편집 및 생성 능력을 강화하는 방법입니다. 본 논문에서는 DSD를 이용해 제로샷(Ze..

1. 서론디지털 3D 에셋은 게임, 영화, 물리 시뮬레이션, AI 연구 등 다양한 분야에서 중요한 역할을 합니다. 그러나 이 에셋을 제작하는 과정은 많은 시간과 비용이 소요되는 복잡한 작업으로, 스케치, 모델링, 텍스처 매핑 등 각 단계에서 높은 전문성이 요구됩니다. 이를 해결하기 위해 자동화된 3D 에셋 생성 기술이 주목받고 있으며, 특히 확산 모델 기반의 이미지와 비디오 생성 기술에서 발전을 이루면서 3D 생성 기술도 주목받고 있습니다. 이번에 Tencent가 공개한 Hunyuan3D 2.0은 이와 같은 배경에서 개발된 시스템으로, 텍스처 매핑과 3D 형태 생성의 어려움을 해결하기 위해 독창적인 접근 방식을 채택했습니다. 특히, 확장형 확산 모델을 기반으로 한 두 가지 주요 구성 요소인 Hunyuan..

인공지능과 컴퓨터 비전의 발달은 단일 이미지로부터 3D 객체를 재구성하는 기술에 새로운 가능성을 열었습니다. 이 기술은 영화 제작, 증강현실(AR), 제조업 등 다양한 산업에서 활용될 수 있습니다. 하지만 단일 이미지 기반 3D 복원은 본질적으로 불완전한 문제입니다. 입력 이미지에서 보이는 표면 정보는 비교적 쉽게 추출되지만, 가려진 영역의 재구성을 위해서는 강력한 3D 사전 지식이 필요합니다. 최근의 연구는 회귀 기반 방법과 생성 모델 기반 방법으로 나뉩니다. 회귀 방식은 빠르게 가시적 표면을 복원하지만, 가려진 영역에서 불확실성을 처리하는 데 한계가 있습니다. 반면, 생성 모델은 이러한 불확실성을 더 잘 처리하지만 계산 비용이 크고 입력 이미지와의 정렬이 부족한 경우가 많습니다. 이러한 상황에서 SP..

1. 서론영상 초해상도(VSR)는 저화질 영상을 고화질로 변환해 디테일을 살리고, 더 선명하게 만드는 기술입니다. 기존의 많은 기술들은 단순한 문제가 있는 영상에서는 성능이 좋았지만, 실제 세상에서 발생하는 복잡한 문제들(압축으로 인한 품질 저하, 노이즈, 흐릿함 등)에는 한계가 있었습니다. GAN(생성적 적대 신경망) 기반 기술은 디테일을 강화하긴 하지만, 너무 매끄럽게 만들어 자연스러운 느낌이 사라지는 문제가 있었습니다. 최근 확산 모델(diffusion model)이 VSR에 도입되면서 영상의 품질과 디테일 표현은 나아졌지만, 시간적으로 연속된 장면에서 일관성을 유지하는 데에는 여전히 어려움이 있었습니다. 이러한 한계를 해결하기 위해 STAR(Spatial-Temporal Augmentation ..

우리 주변에서 AI 기술은 빠르게 발전하며 일상에 큰 변화를 주고 있습니다. 립싱크 기술은 그 가운데 하나죠. 이 기술은 음성에 맞춰 사람의 입모양을 자연스럽게 만들어주는 것을 목표로 하며, 영화 더빙, 가상 캐릭터 제작, 화상회의 같은 여러 분야에서 유용하게 사용되고 있습니다. 최근에는 방문객들을 맞이하는 키오스크의 인간형 아바타에 이 기술이 접목되고 있습니다. 아무래도 말과 영상 속의 입모양이 다르면 사용자들은 '불편한 골짜기'를 경험할 수 밖에 없기 때문이죠. 지금까지의 립싱크 기술에는 몇 가지 한계가 있었습니다. 예를 들어, 기존에 주로 사용되던 AI 기술(GAN 기반 기술)은 훈련이 불안정하거나, 새로운 환경에서 잘 작동하지 않는 경우가 많았습니다. 또한, 최신 기술 중 일부는 입모양은 잘 맞췄..