일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 메타
- tts
- 확산 모델
- AI
- 이미지 편집
- 오픈AI
- TRANSFORMER
- 멀티모달
- 티스토리챌린지
- 트랜스포머
- 서보모터
- 일론 머스크
- 뉴럴링크
- 시간적 일관성
- 우분투
- 인공지능
- ControlNet
- LLM
- ChatGPT
- 딥마인드
- OpenAI
- LORA
- AI 기술
- javascript
- 가상환경
- 생성형 AI
- PYTHON
- 아두이노
- ubuntu
- 오블완
- Today
- Total
목록고해상도 (2)
AI 탐구노트
메타(Meta)에서 동영상 생성/편집 기능을 가진 'Movie Gen'을 공개했습니다. 텍스트 프롬프트 입력을 통해 고해상도 동영상을 자동으로 생성하는 기능을 제공합니다. 제공되는 핵심 기능을 열거해 보면 다음과 같습니다. 너무 단촐하게 말했나요? -_-;비디오 생성 (16 FPS, 1080P, 최대 16초)개인화된 비디오 생성정밀한 비디오 편집오디오 생성 (48KHz)AI가 영상을 생성하면, 그걸 원하는 스타일로 바꾸거나 새롭게 뭔가를 추가할 수도 있고영상에 어울리는 배경 음악과 효과음까지 포함시켜 최종 영상을 만들 수 있다는 얘기입니다. 공식 사이트에 소개된 영상들 각각도 멋지지만, 그 가운데 위 영상은 음향효과와 잘 어울려 더 놀라웠습니다.꼭 한번 클릭해서 보시길... 그런데 이것도 혹시 ..
비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델 EAGLE은 다양한 비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델입니다.기존의 멀티모달 모델들은 주로 낮은 해상도 이미지 처리에 한정되었으며, 시각 인코더 선택 및 결합 전략에 대한 체계적인 비교와 세부적인 연구가 부족했고 이는 결과적으로 OCR 및 문서 분석과 같이 해상도가 민감한 작업에서 성능 저하를 초래했습니다. EAGLE은 여러 비전 인코더의 조합과 고해상도 적응을 통해 이러한 문제를 해결하고자 합니다. 특히, 각 인코더의 시각적 토큰을 단순히 결합하는 방식이 복잡한 혼합 아키텍처만큼 효과적이며, 비전 인코더와 언어 토큰 간의 사전 정렬(Pre-Alignm..