일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 트랜스포머
- LORA
- 3d 재구성
- 일론 머스크
- 오픈소스
- AI
- 딥러닝
- 오블완
- 우분투
- 다국어 지원
- 오픈AI
- Stable Diffusion
- tts
- 확산 모델
- 휴머노이드 로봇
- 생성형 AI
- 코딩
- ubuntu
- 생성형AI
- 인공지능
- 메타
- LLM
- OpenCV
- AI 기술
- 티스토리챌린지
- PYTHON
- OpenAI
- 실시간 렌더링
- 강화 학습
- 시간적 일관성
- Today
- Total
목록AI 기술 (172)
AI 탐구노트

디지털 아바타 기술의 발전은 가상 인간, 메타버스, 그리고 디지털 휴먼 분야의 핵심을 이루고 있습니다. 특히, 사람의 음성이나 얼굴 표정을 입력으로 자연스러운 영상 속 얼굴 움직임을 생성하는 '토킹 헤드(Talking Head)' 생성 기술은 인터페이스와 콘텐츠 제작에서 중요한 역할을 하고 있습니다. 기존에는 음성이나 모션 중 하나의 입력만을 기반으로 얼굴 움직임을 제어하는 것이 일반적이었지만, 실제 환경에서는 이 두 가지가 동시에 작용합니다. 예를 들어, 사람은 말을 하면서 고개를 움직이고, 감정을 드러냅니다. 따라서 보다 실감 나는 아바타를 만들기 위해서는 오디오와 시각적 모션을 동시에 제어할 수 있는 기술이 요구됩니다. 최근 확산 모델(diffusion model)이 이미지와 영상 생성에서 우수한 ..

인공지능 기반 컴퓨터 비전 분야에서는 객체 탐지(object detection)와 분할(segmentation) 기술이 핵심적인 역할을 해왔습니다. 자율 주행, 로봇 비전, 의료 영상 등 다양한 산업에서 이 기술들은 이미지 내 객체의 위치를 정확히 파악하고, 그 모양을 정밀하게 구분하는 데 사용됩니다. 기존에는 YOLO(You Only Look Once) 시리즈처럼 사전에 정의된 객체 범주에 맞춰 빠르고 정확한 성능을 내는 폐쇄형(closed-set) 모델이 주로 사용되었습니다. 하지만, 현실 세계의 응용 환경은 항상 예측 가능한 것이 아니며, 알려지지 않은 객체까지 탐지해야 하는 개방형(open-set) 상황이 점점 중요해지고 있습니다. 이러한 흐름에 따라 최근에는 텍스트 프롬프트(text prompt..

게임이나 영화, 가상현실 같은 분야에서는 현실처럼 보이는 3D 공간을 만들어내는 기술이 매우 중요합니다. 예를 들어, 게임 속에 등장하는 건물이나 거리, 또는 AR(증강현실)에서 보이는 가상의 물체들도 모두 이런 3D 기술 덕분에 만들어집니다. 그런데 이런 3D 장면을 만들려면 보통 수십 장 이상의 사진이 필요합니다. 사진이 많을수록 다양한 각도에서 정보를 얻을 수 있기 때문이죠. 하지만, 현실에서는 그렇게 많은 사진을 찍기가 어렵습니다. 그래서 최근에는 단 몇 장의 사진, 심지어는 두 장의 사진만으로도 3D 장면을 만들어보려는 연구가 활발하게 이루어지고 있습니다. VideoScene이라는 기술은 이런 배경에서 나오게 되었습니다. 단 두 장의 이미지를 입력하면, 마치 카메라가 장면 사이를 날아다니며 촬영..

요즘 인공지능은 그림이나 영상도 척척 만들어냅니다. 심지어 '사자가 걷는 모습'이라고 글만 써도 사자가 걷는 영상을 뚝딱 만들어내는 시대가 되었죠. 그런데 이렇게 멋져 보이는 기술에도 허점이 있습니다. 예를 들어, 사자의 다리가 갑자기 사라진다든가, 땅을 뚫고 들어간다든가, 아니면 걷는 다리가 이상하게 꼬여서 보인다던지 실제라면 절대 일어나지 않을 이상한 일이 생깁니다. 왜 그럴까요? 기존 기술은 '그림처럼 보이는 장면'을 잘 만들어낼 수 있지만, '진짜 살아있는 듯한 움직임'을 만드는 건 아직 어려운 일이었어요. 그래서 UCLA와 NVIDIA 연구팀은 이 문제를 해결하기 위해 'AKD'라는 새로운 AI 기술을 만들었습니다. AKD는 '영상 속 동작을 배워서 3D 캐릭터에 적용하는 기술'입니다. 예를 들..

스마트폰 하나로도 고퀄리티의 영상 콘텐츠를 만들 수 있는 시대가 열리면서, 사람의 얼굴이나 몸동작을 애니메이션처럼 변환해주는 기술에 대한 관심이 커지고 있습니다. 예를 들어, 한 장의 얼굴 사진만으로 그 사람이 웃거나 말하는 것처럼 보이게 만들거나, 춤을 추게 만드는 기술이 그 예입니다. 이러한 기술은 광고나 영화 제작, 게임뿐 아니라 개인 콘텐츠 제작자들에게도 매우 매력적인 도구가 될 수 있습니다.하지만 이런 애니메이션 기술은 아직 몇 가지 어려운 과제들을 안고 있습니다. 특히 문제는 세 가지로 나눌 수 있습니다. 첫째, 눈 깜빡임이나 입술 떨림 같은 미세한 움직임까지 자연스럽게 재현하기 어렵다는 점입니다. 둘째, 상반신만 있는 이미지부터 전신 이미지까지 다양한 스케일을 하나의 모델로 자연스럽게 다루는..

가상현실(VR)과 증강현실(AR), 그리고 영화·게임 산업의 발전은 사실적인 3D 장면 생성 기술에 대한 수요를 급격히 증가시키고 있습니다. 이러한 요구를 충족시키기 위해 최근 주목받고 있는 기술 중 하나가 바로 Neural Radiance Field(NeRF)입니다. NeRF는 비교적 적은 데이터로도 정밀한 3D 장면을 재현할 수 있어, 학계와 산업계 모두에서 큰 관심을 받고 있습니다. 그러나 NeRF의 핵심 방식인 볼륨 렌더링은 렌더링 속도가 느려 실시간 처리가 필요한 응용 분야에서는 활용이 어려운 문제가 있습니다. 이와 대조적으로 3D Gaussian Splatting(3DGS)은 렌더링 속도 면에서 뛰어난 성능을 보이지만, 수백만 개의 3D 가우시안 데이터를 개별적으로 저장해야 하기 때문에 저장 ..

현대의 자율주행 기술은 놀라운 속도로 발전하고 있지만, 여전히 넘어야 할 큰 장벽이 존재합니다. 그 중에서도 가장 중요한 문제 중 하나는 현실적인 운전 시나리오의 시뮬레이션입니다. 현실 세계에서 데이터를 수집하는 것은 시간과 비용이 많이 들 뿐만 아니라, 드물고 위험한 상황을 반복적으로 수집하는 것은 사실상 불가능합니다. 이러한 한계를 극복하기 위해 최근 인공지능 분야에서는 생성형 모델, 특히 비디오 생성 모델을 활용한 가상 세계 시뮬레이션이 주목받고 있습니다. 하지만 일반적인 생성형 비디오 모델은 자율주행의 고유한 요구사항 (예를 들어 다중 에이전트 간의 상호작용, 시간적·공간적 일관성, 그리고 여러 카메라 뷰의 조화 등)을 만족시키기 어렵습니다. 이러한 현실적인 문제를 해결하기 위해 제안된 모델이 바..

현대 사회에서 메타버스와 같은 가상 공간은 점점 더 중요한 산업으로 자리잡고 있습니다. 특히 증강현실(AR), 가상현실(VR), 게임, 영화 산업에서는 현실과 유사한 인간 아바타를 빠르게 생성하고 이를 애니메이션화하는 기술이 핵심입니다. 과거에는 이와 같은 작업을 위해 다각도의 촬영, 정밀한 센서, 오랜 후처리 시간이 필요했지만, 최근 AI 기술의 급속한 발전은 단 한 장의 이미지로 3D 아바타를 생성하려는 시도를 가능하게 만들고 있습니다. 하지만 단일 이미지로 3D 아바타를 생성하는 것은 여전히 큰 도전입니다. 사람의 형태, 옷의 주름, 얼굴의 정밀한 표정까지 재현하려면 높은 수준의 공간적 추론과 표현력이 필요하기 때문입니다. LHM(Large Animatable Human Reconstruction ..

가상현실(VR), 증강현실(AR), 3D 게임 그래픽 등에서 생생하고 사실적인 장면을 실시간으로 구현하는 기술은 날로 중요해지고 있습니다. 이러한 기술들은 대부분 시간에 따라 변하는 장면, 즉 '동적 장면'을 빠르고 정확하게 렌더링(rendering)하는 것을 목표로 합니다. 지금까지는 Neural Radiance Fields(NeRF)라는 기술이 주로 활용되어 왔지만, 이 방식은 처리 속도가 느리고 자원 소모가 커서 현실적인 적용에는 한계가 있었습니다. 최근에는 NeRF의 단점을 보완하기 위한 새로운 방식들이 등장하고 있으며, 그 중 하나가 바로 4D Gaussian Splatting(4DGS)입니다. 이 방식은 수많은 '가우시안 점'을 활용해 4차원(3D 공간 + 시간)의 정보를 표현하는 기술입니다...

최근 몇 년 사이, 영화 제작, 게임, 증강현실(AR), 가상현실(VR), 휴머노이드 로봇 등 다양한 분야에서 사람의 움직임을 디지털로 재현하고 생성하는 기술이 주목받고 있습니다. 특히 인공지능의 발전과 함께 사람의 동작을 텍스트나 음악과 같은 다양한 조건으로부터 생성하는 기술이 현실로 다가오고 있습니다. 이러한 배경 속에서 'Motion Anything'이라는 모델은 한 발 더 나아가, 조건 기반 모션 생성의 새로운 패러다임을 제시하고 있습니다. 지금까지 대부분의 모션 생성 기술은 텍스트나 음악과 같은 한 가지 조건에만 기반해 동작을 만들어왔습니다. 하지만 현실 세계의 움직임은 단순한 단일 조건만으로 설명되기 어렵습니다. 예를 들어, 어떤 사람이 "왼손을 들며 음악 박자에 맞춰 걷는다"라는 행동을 한다..