Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- OpenAI
- 오픈AI
- 트랜스포머
- LLM
- 인공지능
- 멀티모달
- 우분투
- gaussian splatting
- 이미지 편집
- AI 기술
- PYTHON
- 티스토리챌린지
- 감정 표현
- 오블완
- 생성형AI
- 강화학습
- 일론 머스크
- 메타
- 이미지 생성
- 음성합성
- XAI
- 자동화
- AI
- 딥러닝
- tts
- ChatGPT
- 음성 인식
- 확산 모델
- 오픈소스
- 바이브코딩
Archives
- Today
- Total
목록Scaled-RoPE (1)
AI 탐구노트
영상을 볼 때 우리는 자연스럽게 입 모양과 목소리가 맞아야 편안함을 느낍니다. 배경 음악은 장면의 리듬을 따라야 하고, 행동에는 정확한 효과음이 붙어야 하죠. 하지만 유튜브 혹은 다른 OTT에서도 편집이 잘못되어 립 싱크가 제대로 되지 않아 어색한 영상을 가끔 보기도 합니다. 최근에는 AI를 이용해 영상을 생성하는 경우가 많은데, 대부분의 생성 모델은 영상·오디오를 따로 만들고 나중에 맞추는 식으로 진행합니다. 그러다 보니 입모양이 어긋나거나, 음악이 장면과 따로 노는 일이 잦았습니다.OVI는 이런 문제를 해결하기 위한 방안으로 제시되었습니다. 핵심 아이디어는 간단합니다. '처음부터 오디오와 비디오를 하나의 생성 과정으로 묶는다.'는 것이죠. 이를 위해 오디오용과 비디오용 쌍둥이(트윈) Diffusion..
AI 기술
2025. 11. 13. 14:21
