Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- LLM
- 바이브코딩
- PYTHON
- OpenAI
- 생성형AI
- 오픈AI
- 음성합성
- ChatGPT
- 오블완
- 확산 모델
- gaussian splatting
- 오픈소스
- 자동화
- 강화학습
- 이미지 생성
- AI
- 우분투
- 음성 인식
- 감정 표현
- 일론 머스크
- 딥러닝
- 멀티모달
- 이미지 편집
- 메타
- 인공지능
- AI 기술
- 티스토리챌린지
- 트랜스포머
- XAI
- tts
Archives
- Today
- Total
목록NexusScore (1)
AI 탐구노트
사진 몇 장만 주면 그 인물이나 물체가 동일한 모습으로 자연스럽게 움직이는 영상을 만들 수 있을까요? 요즘 텍스트-투-비디오 모델들은 그림처럼 그럴듯한 장면을 길게 만들어내지만, 정작 '이 사람이 계속 같은 사람인가?', '로고가 중간에 바뀌지 않았나?' 같은 주제(Subject) 일관성에서는 종종 삐끗합니다. 특히 '왼쪽의 개가 공을 집어 오른쪽 사람에게 준다'처럼 여러 주체의 관계·위치·시간 흐름까지 정확히 이해해야 하는 지시문에는 더 약합니다. BindWeave는 이런 문제를 해결하기 위해 제안되었는데, 핵심 아이디어는 텍스트와 참조 이미지를 얕게 붙였다 떼는 대신, 멀티모달 LLM(MLLM)이 먼저 '등장인물·속성·역할·상호작용'을 깊이 있게 해석해 '주제-의미 신호'를 만들어주고, 그 신호를 ..
AI 기술
2025. 11. 8. 11:53
