| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 오픈소스
- AI 기술
- 오픈AI
- 트랜스포머
- gaussian splatting
- 우분투
- 자동화
- 음성합성
- 메타
- 멀티모달
- 일론 머스크
- tts
- 딥러닝
- 음성 인식
- 인공지능
- 티스토리챌린지
- ChatGPT
- XAI
- 바이브코딩
- 확산 모델
- OpenAI
- 감정 표현
- 이미지 편집
- 이미지 생성
- 생성형AI
- 오블완
- PYTHON
- AI
- 강화학습
- LLM
- Today
- Total
목록Flow Matching (3)
AI 탐구노트
영상을 볼 때 우리는 자연스럽게 입 모양과 목소리가 맞아야 편안함을 느낍니다. 배경 음악은 장면의 리듬을 따라야 하고, 행동에는 정확한 효과음이 붙어야 하죠. 하지만 유튜브 혹은 다른 OTT에서도 편집이 잘못되어 립 싱크가 제대로 되지 않아 어색한 영상을 가끔 보기도 합니다. 최근에는 AI를 이용해 영상을 생성하는 경우가 많은데, 대부분의 생성 모델은 영상·오디오를 따로 만들고 나중에 맞추는 식으로 진행합니다. 그러다 보니 입모양이 어긋나거나, 음악이 장면과 따로 노는 일이 잦았습니다.OVI는 이런 문제를 해결하기 위한 방안으로 제시되었습니다. 핵심 아이디어는 간단합니다. '처음부터 오디오와 비디오를 하나의 생성 과정으로 묶는다.'는 것이죠. 이를 위해 오디오용과 비디오용 쌍둥이(트윈) Diffusion..
최근 인공지능 기술이 급속도로 발전하면서, 사람처럼 자연스럽게 말하는 인공지능의 수요가 늘고 있습니다. 특히 영상 더빙, 오디오북 제작, 가상 인간 인터페이스와 같은 분야에서는 텍스트를 음성으로 변환하는 기술, 즉 TTS(Text-to-Speech)가 매우 중요한 역할을 하게 되었죠. 예전에는 특정 화자의 음성을 복제하거나 감정을 표현하는 것이 매우 어려웠지만, 대규모 음성 데이터를 기반으로 한 딥러닝 기술 덕분에 이제는 몇 초짜리 음성 샘플만으로도 새로운 화자의 목소리를 생성할 수 있게 되었습니다. 하지만 기존 TTS 시스템에는 두 가지 큰 한계가 존재했습니다. 하나는 음성의 길이를 정밀하게 제어하기 어렵다는 점이고, 또 하나는 감정을 풍부하게 표현하기 어렵다는 점입니다. 예를 들어 영상 더빙처럼 정확..
최근 인공지능 기술의 발전은 놀라운 수준의 이미지 생성과 텍스트 생성 능력을 보여주고 있습니다. 이제 그 영역은 3차원 공간까지 확장되고 있으며, 단순한 물체 생성 수준을 넘어 복잡한 도시, 자연 지형, 건축물 등을 통합한 장면(scene) 생성이 가능해지고 있습니다. 이러한 3D 생성 기술은 게임, 영화, 메타버스, 자율주행 등 다양한 산업에서 핵심 인프라로 떠오르고 있습니다. 하지만, 지금까지의 3D 생성 기술은 대부분 한정된 공간, 예를 들면 건물 내부나 도시 일부 구역에만 적용 가능했습니다. 실제 지구처럼 수천 제곱킬로미터에 이르는 광범위한 지형을 효율적으로 생성하는 것은 여전히 어려운 문제로 남아있습니다. 이 문제를 해결하기 위해 'EarthCrafter'라는 기술이 제안되었는데 이는 대규모 항..
