일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- AI
- 아두이노
- 휴머노이드 로봇
- AI 기술
- 메타
- 인공지능
- 멀티모달
- 티스토리챌린지
- Stable Diffusion
- 오블완
- OpenAI
- 우분투
- ChatGPT
- LORA
- 오픈소스
- 오픈AI
- LLM
- 다국어 지원
- 확산 모델
- 시간적 일관성
- OpenCV
- 딥러닝
- 일론 머스크
- 생성형 AI
- ubuntu
- tts
- PYTHON
- 강화 학습
- 트랜스포머
- TRANSFORMER
- Today
- Total
목록시간적 일관성 (8)
AI 탐구노트

얼굴 복원(Face Restoration, FR) 기술의 등장디지털 이미지 및 비디오 처리 기술은 현대 사회에서 중요한 역할을 하고 있으며, 특히 얼굴 복원(Face Restoration, FR)은 저해상도 혹은 손상된 얼굴 영상을 고품질로 복원하는 기술로 주목받고 있습니다. 기존 얼굴 복원 기술의 제약사항기존의 얼굴 복원 기술은 정지 이미지에 초점을 맞춰왔지만, 비디오 얼굴 복원(Video Face Restoration, VFR) 분야는 아직 많은 도전 과제를 안고 있습니다. 특히, 시간적 일관성 유지, 움직임에 따른 왜곡, 고품질 학습 데이터 부족 등의 문제가 해결되지 않았습니다.시간적 일관성 부족기존의 비디오 얼굴 복원 모델은 개별 프레임을 독립적으로 처리하는 경우가 많아, 영상에서 얼굴이 흔들리거..

1. 서론영상 초해상도(VSR)는 저화질 영상을 고화질로 변환해 디테일을 살리고, 더 선명하게 만드는 기술입니다. 기존의 많은 기술들은 단순한 문제가 있는 영상에서는 성능이 좋았지만, 실제 세상에서 발생하는 복잡한 문제들(압축으로 인한 품질 저하, 노이즈, 흐릿함 등)에는 한계가 있었습니다. GAN(생성적 적대 신경망) 기반 기술은 디테일을 강화하긴 하지만, 너무 매끄럽게 만들어 자연스러운 느낌이 사라지는 문제가 있었습니다. 최근 확산 모델(diffusion model)이 VSR에 도입되면서 영상의 품질과 디테일 표현은 나아졌지만, 시간적으로 연속된 장면에서 일관성을 유지하는 데에는 여전히 어려움이 있었습니다. 이러한 한계를 해결하기 위해 STAR(Spatial-Temporal Augmentation ..

우리 주변에서 AI 기술은 빠르게 발전하며 일상에 큰 변화를 주고 있습니다. 립싱크 기술은 그 가운데 하나죠. 이 기술은 음성에 맞춰 사람의 입모양을 자연스럽게 만들어주는 것을 목표로 하며, 영화 더빙, 가상 캐릭터 제작, 화상회의 같은 여러 분야에서 유용하게 사용되고 있습니다. 최근에는 방문객들을 맞이하는 키오스크의 인간형 아바타에 이 기술이 접목되고 있습니다. 아무래도 말과 영상 속의 입모양이 다르면 사용자들은 '불편한 골짜기'를 경험할 수 밖에 없기 때문이죠. 지금까지의 립싱크 기술에는 몇 가지 한계가 있었습니다. 예를 들어, 기존에 주로 사용되던 AI 기술(GAN 기반 기술)은 훈련이 불안정하거나, 새로운 환경에서 잘 작동하지 않는 경우가 많았습니다. 또한, 최신 기술 중 일부는 입모양은 잘 맞췄..

1. 서론가상 착용 기술은 온라인 쇼핑과 소셜 미디어 마케팅이 활성화됨에 따라 급격히 발전하고 있습니다. 특히, 의류를 직접 입어보지 않고도 착용감을 미리 확인할 수 있는 가상 착용 기술은 사용자 경험을 크게 향상시킬 수 있습니다. 기존의 이미지 기반 가상 착용 방식은 한정된 각도에서만 의류를 볼 수 있어 입체적인 이해가 어려웠습니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 비디오 기반 가상 착용 기술입니다. 비디오 기반 가상 착용 기술은 특정 의류를 다양한 각도와 움직임에서 확인할 수 있도록 하며, 옷감의 질감이나 주름, 동작에 따른 흐름까지도 시뮬레이션합니다. 그러나 이러한 기술을 구현하기 위해서는 일관성 있는 비디오 프레임 생성과 실감 나는 텍스처 렌더링이 필수적입니다. 기존 기술은 이러한 ..

LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델 기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNet과 Reference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다. LVCD 모델 아키텍처..

객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법 InterTrack는 객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법입니다. 기존의 비디오 기반 추적 방법은 사전에 정의된 객체 템플릿이 필요하며, 단일 이미지 기반 방법은 템플릿이 필요 없지만 시간적 일관성이 부족했고, 가려짐(occlusion)과 역동적인 움직임이 있는 상황에서 일관된 추적을 제공하기 힘들었습니다. InterTrack는 4D 추적 문제를 프레임별 포즈 추정과 정규화된 형태 최적화로 분해하여 템플릿 없이 인간과 객체의 상호작용을 추적합니다. 이를 위해 프레임마다 3D 인간과 객체의 포인트 클라우드를 생성하고, 시간적 일관성을 유지하기 위해 자동 인코더(CorrAE)와 영상 기반 ..

생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술 생성AI 모델을 이용해서 주어진 prompt나 입력 이미지에서 영상을 만들어내는 모델들이 속속 소개되고 있습니다. 이미지 생성에서 이제는 비디오 영상 생성으로 발전하고 있죠. 하지만 대부분 생성되는 비디오 영상은 각 프레임 별로 이전과 이후 간의 일관성이 보존되지 않는 경우가 많고 결과적으로 중간중간 튀어 버리거나 전혀 시간이 지나면서 점점 이전과는 전혀 다른 영상으로 바뀌게 되죠. TokenFlow는 이렇게 생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술입니다. 즉, 입력 영상을 기반으로 주어진 텍스트 프롬프트를 적용해서 비디오 영상이 만들어질 때, 그 전의 다른 모델들 대비해서 훨씬 자연스런 영상을 얻을 수..

이미지 + 얼굴 표정/ 안면 동작 = '원하는대로 초상화' 애니메이션 생성 기술 Follow-Your-Emoji는 입력된 정적 이미지를 기반으로, 목표로 하는 표정과 동작을 적용하여 초상화의 정체성과 시간적 일관성이 유지되는 애니메이션을 생성하는 기술입니다. 모델 학습을 위해 비디오 클립과 랜덤 참조 프레임(무작위 선택 프레임), 그리고 표정 인식 랜드마크(mediapipe 이용 3D 키포인트 추출한 것을 2D 랜드마크로 투영)를 사용하고, 얼굴 표정의 미세한 변화를 인식하고 반영하도록 돕는 세밀한 표정 손실 함수를 도입했습니다. 또한 길이가 긴 애니메이션 생성 시 시간적인 일관성 유지를 위해 키 프레임을 먼저 생성하고 이를 기반으로 중간 프레임을 생성하는 점진적 생성 전략을 사용합니다. 이외에 초상화..