일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 아두이노
- AI
- ubuntu
- 다국어 지원
- 생성형 AI
- 오픈AI
- PYTHON
- 휴머노이드 로봇
- OpenCV
- LORA
- 인공지능
- 트랜스포머
- tts
- TRANSFORMER
- 메타
- 확산 모델
- 우분투
- 멀티모달
- LLM
- 오픈소스
- ChatGPT
- 시간적 일관성
- 일론 머스크
- 티스토리챌린지
- Stable Diffusion
- AI 기술
- 강화 학습
- 딥러닝
- OpenAI
- 오블완
- Today
- Total
목록텍스트-비디오 생성 (3)
AI 탐구노트

1. 서론영상 콘텐츠는 오늘날의 디지털 환경에서 광고, 교육, 엔터테인먼트와 같은 다양한 분야에 걸쳐 중요한 역할을 하고 있습니다. 특히 텍스트를 입력으로 사용해 동영상을 만드는 기술은 복잡한 영상 편집 없이도 창의적인 결과물을 얻을 수 있는 혁신적인 방법으로 환영받고 있죠. 얼마 전까지만 해도 전문가의 영역이라고 여겨지던 분야가 이제는 학생들도 약간의 창의성과 프롬프트만으로 영상을 만들어내는 일반인의 영역이 되고 있습니다. 그것도 아주아주 빨리! 하지만 여기에는 중요한 제약이 있습니다. 현재 대부분의 모델은 투명한 효과(예: 유리나 연기처럼 배경이 보이는 효과)를 처리할 수 없습니다. 투명도를 처리하려면 RGBA라는 특별한 비디오 형식이 필요합니다. 여기서 A는 "알파 채널"을 뜻하며, 이 채널이 투명..

1. 서론 : 스케치 애니메이션오늘날의 디지털 콘텐츠 제작은 고도의 전문성과 기술을 요구합니다. 특히, 스케치 애니메이션은 디자이너가 정적인 이미지를 동적으로 변환하여 창의적인 스토리텔링을 할 수 있도록 돕습니다. 그러나 이러한 작업은 여전히 많은 시간과 노력을 필요로 합니다. 인공지능의 발전은 이를 단순화할 수 있는 가능성을 열어줍니다. 최근 텍스트-비디오 생성 모델은 텍스트 설명만으로도 짧은 동영상을 생성할 수 있는 혁신적인 방법을 제시했습니다. 2. 본론2.1. 기존 방식의 문제점기존의 스케치 애니메이션 도구들은 사용자 주도의 작업을 필요로 합니다. 이는 특정 스케치에 대해 수작업으로 키프레임을 설정하거나, 스켈레톤 데이터를 기반으로 모션을 생성해야 했습니다. 이러한 과정은 시간 소모적일 뿐만 아니..

텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델 CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다. CogVideoX 모델은 다음과 같은 특징을 갖고 ..