일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- PYTHON
- 딥러닝
- 휴머노이드 로봇
- OpenCV
- TRANSFORMER
- 다국어 지원
- Stable Diffusion
- OpenAI
- 오픈소스
- 인공지능
- 우분투
- 메타
- 티스토리챌린지
- AI 기술
- 확산 모델
- 멀티모달
- 시간적 일관성
- LLM
- 오블완
- 트랜스포머
- ChatGPT
- 오픈AI
- 일론 머스크
- AI
- LORA
- ubuntu
- 강화 학습
- tts
- 생성형 AI
- 아두이노
- Today
- Total
목록확산 모델 (10)
AI 탐구노트

1. 서론디지털 3D 에셋은 게임, 영화, 물리 시뮬레이션, AI 연구 등 다양한 분야에서 중요한 역할을 합니다. 그러나 이 에셋을 제작하는 과정은 많은 시간과 비용이 소요되는 복잡한 작업으로, 스케치, 모델링, 텍스처 매핑 등 각 단계에서 높은 전문성이 요구됩니다. 이를 해결하기 위해 자동화된 3D 에셋 생성 기술이 주목받고 있으며, 특히 확산 모델 기반의 이미지와 비디오 생성 기술에서 발전을 이루면서 3D 생성 기술도 주목받고 있습니다. 이번에 Tencent가 공개한 Hunyuan3D 2.0은 이와 같은 배경에서 개발된 시스템으로, 텍스처 매핑과 3D 형태 생성의 어려움을 해결하기 위해 독창적인 접근 방식을 채택했습니다. 특히, 확장형 확산 모델을 기반으로 한 두 가지 주요 구성 요소인 Hunyuan..

인공지능과 컴퓨터 비전의 발달은 단일 이미지로부터 3D 객체를 재구성하는 기술에 새로운 가능성을 열었습니다. 이 기술은 영화 제작, 증강현실(AR), 제조업 등 다양한 산업에서 활용될 수 있습니다. 하지만 단일 이미지 기반 3D 복원은 본질적으로 불완전한 문제입니다. 입력 이미지에서 보이는 표면 정보는 비교적 쉽게 추출되지만, 가려진 영역의 재구성을 위해서는 강력한 3D 사전 지식이 필요합니다. 최근의 연구는 회귀 기반 방법과 생성 모델 기반 방법으로 나뉩니다. 회귀 방식은 빠르게 가시적 표면을 복원하지만, 가려진 영역에서 불확실성을 처리하는 데 한계가 있습니다. 반면, 생성 모델은 이러한 불확실성을 더 잘 처리하지만 계산 비용이 크고 입력 이미지와의 정렬이 부족한 경우가 많습니다. 이러한 상황에서 SP..

1. 서론영상 초해상도(VSR)는 저화질 영상을 고화질로 변환해 디테일을 살리고, 더 선명하게 만드는 기술입니다. 기존의 많은 기술들은 단순한 문제가 있는 영상에서는 성능이 좋았지만, 실제 세상에서 발생하는 복잡한 문제들(압축으로 인한 품질 저하, 노이즈, 흐릿함 등)에는 한계가 있었습니다. GAN(생성적 적대 신경망) 기반 기술은 디테일을 강화하긴 하지만, 너무 매끄럽게 만들어 자연스러운 느낌이 사라지는 문제가 있었습니다. 최근 확산 모델(diffusion model)이 VSR에 도입되면서 영상의 품질과 디테일 표현은 나아졌지만, 시간적으로 연속된 장면에서 일관성을 유지하는 데에는 여전히 어려움이 있었습니다. 이러한 한계를 해결하기 위해 STAR(Spatial-Temporal Augmentation ..

우리 주변에서 AI 기술은 빠르게 발전하며 일상에 큰 변화를 주고 있습니다. 립싱크 기술은 그 가운데 하나죠. 이 기술은 음성에 맞춰 사람의 입모양을 자연스럽게 만들어주는 것을 목표로 하며, 영화 더빙, 가상 캐릭터 제작, 화상회의 같은 여러 분야에서 유용하게 사용되고 있습니다. 최근에는 방문객들을 맞이하는 키오스크의 인간형 아바타에 이 기술이 접목되고 있습니다. 아무래도 말과 영상 속의 입모양이 다르면 사용자들은 '불편한 골짜기'를 경험할 수 밖에 없기 때문이죠. 지금까지의 립싱크 기술에는 몇 가지 한계가 있었습니다. 예를 들어, 기존에 주로 사용되던 AI 기술(GAN 기반 기술)은 훈련이 불안정하거나, 새로운 환경에서 잘 작동하지 않는 경우가 많았습니다. 또한, 최신 기술 중 일부는 입모양은 잘 맞췄..

1. 서론요즘 인공지능 기술에서 가장 주목받는 것은 대규모 언어 모델(LLM)입니다. 이런 모델은 우리에게 친숙한 챗봇이나 텍스트 생성 서비스 등에 사용되고 있죠. 하지만 이 모델들은 주어진 문장을 단어 하나하나를 예측하면서 작동합니다. 이는 많은 경우에 효과적이지만, 인간처럼 먼저 큰 그림을 그리며 생각하는 것과는 다릅니다. 예를 들어, 긴 문서를 작성하거나 복잡한 문제를 해결할 때 우리는 우선 큰 틀을 세우고, 그 다음에 세부 사항을 채워 넣습니다. 하지만 기존의 LLM은 이런 과정을 제대로 흉내 내지 못하죠. 이 문제를 해결하기 위해 Meta 연구팀은 문장이 하나의 "생각"처럼 작동하는 새로운 모델, 즉 대규모 개념 모델(LCM)을 개발했습니다. 이 모델은 사람들이 생각하는 방식에 더 가까운 방식으..

1.서론디지털 콘텐츠 제작과 편집 기술의 발전으로 인해 이미지 편집 기술은 점점 더 중요해지고 있습니다. 특히, 텍스트 설명을 바탕으로 이미지에 객체를 삽입하는 기술은 컴퓨터 그래픽스, 자율주행 훈련 데이터 생성 등 다양한 산업 분야에서 활용 가능성이 높습니다. 그러나 이러한 작업은 단순히 객체를 추가하는 것 이상의 복잡성을 가집니다. 원본 이미지의 구조와 질감을 유지하면서도 자연스러운 위치에 객체를 배치하는 것이 관건입니다. 기존의 텍스트-이미지 확산 모델은 뛰어난 생성 능력을 보여주지만, 객체 삽입과 같은 특정 편집 작업에서는 여전히 한계가 있습니다. 이에 대한 해결책으로 NVIDIA와 텔아비브 대학교 연구팀은 훈련 없이 객체 삽입이 가능한 ADD-IT 모델을 제안했습니다. 이 기술은 사전 학습된 확..

1. 서론가상 착용 기술은 온라인 쇼핑과 소셜 미디어 마케팅이 활성화됨에 따라 급격히 발전하고 있습니다. 특히, 의류를 직접 입어보지 않고도 착용감을 미리 확인할 수 있는 가상 착용 기술은 사용자 경험을 크게 향상시킬 수 있습니다. 기존의 이미지 기반 가상 착용 방식은 한정된 각도에서만 의류를 볼 수 있어 입체적인 이해가 어려웠습니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 비디오 기반 가상 착용 기술입니다. 비디오 기반 가상 착용 기술은 특정 의류를 다양한 각도와 움직임에서 확인할 수 있도록 하며, 옷감의 질감이나 주름, 동작에 따른 흐름까지도 시뮬레이션합니다. 그러나 이러한 기술을 구현하기 위해서는 일관성 있는 비디오 프레임 생성과 실감 나는 텍스처 렌더링이 필수적입니다. 기존 기술은 이러한 ..

FLEX3D는 다수의 시각적 입력을 활용해 텍스트 또는 이미지로부터 고품질의 3D 콘텐츠를 생성하는 모델입니다. 기존 다중 뷰 확산 모델은 다중 뷰 이미지를 합성하되 적은 수의 뷰만을 사용하고 이후 다시 3D 재구성을 위한 피드포워드 프로세스르 사용합니다. 이로 인해 생성된 시점들의 품질이 낮을 경우엔 최종 3D 재구성 결과물의 품질이 떨어지는 문제가 있었습니다. FLEX3D는 이런 문제를 후보 뷰 생성 및 큐레이션 파이프라인 소개, 유연한 FlexRM 아키텍처 설계, 모델의 견고성을 향상시키기 위해 불완전한 입력 뷰를 시뮬레이션하는 새로운 교육 전략 등을 적용해 해결하고 있습니다. 위 그림을 보면 FLEX3D는 두 단계로 나누어 동작합니다. 첫 번째 단계에서는 후보 시점 생성 및 선별 과정으로..

LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델 기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNet과 Reference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다. LVCD 모델 아키텍처..

고품질 음악 생성과 정교한 스타일 컨트롤을 가능하게 하는 음악 생성 및 편집 시스템 Seed-Music는 고품질 음악 생성과 정교한 스타일 컨트롤을 가능하게 하는 음악 생성 및 편집 시스템입니다. 음악 도메인은 신호의 복잡성으로 인해 참 어려운 영역입니다. 특히 보컬 같은 경우는 다양한 주파수 대역이 겹치는 소리를 포함하고 있어 더 그렇죠. 게다가 아무래도 전문적인 도메인 지식이 필요한 영역이다 보니 더 그런 것 같습니다. 음악을 만드는 것에는 멜롣, 화음 진행, 구조적 일관성 등에 대한 전문 지식도 필요하고 이를 AI를 이용하려고 할 때 가사, 쟝르, 악기 구성, 노래 구조와 같은 주석이 포하모딘 데이터를 이용해 학습해야 합니다. 하지만, 그런 데이터를 수집하는 것은 매우 어렵죠. Seed-Musi..