일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 강화 학습
- 우분투
- 확산 모델
- ChatGPT
- LORA
- 일론 머스크
- OpenAI
- 다국어 지원
- 인공지능
- 오블완
- 휴머노이드 로봇
- 오픈소스
- 오픈AI
- tts
- OpenCV
- 실시간 렌더링
- 3d 재구성
- 시간적 일관성
- PYTHON
- AI
- 메타
- ubuntu
- gradio
- 코딩
- 생성형 AI
- AI 기술
- 트랜스포머
- 딥러닝
- 티스토리챌린지
- LLM
- Today
- Total
목록고해상도 (4)
AI 탐구노트

1. 서론 단일 이미지를 보고 그 안에 있는 물체와 환경의 3D 깊이를 알아내는 기술은 요즘 다양한 분야에서 중요한 역할을 하고 있습니다. 이 기술은 가상현실, 영화 제작, 게임 디자인뿐 아니라 자율 주행 차량, 로봇 공학 등에서도 활용됩니다. 하지만 이 기술을 제대로 구현하려면 기존에는 특정 데이터나 카메라 정보가 꼭 필요했기 때문에 일반적으로 사용하기 어려운 경우가 많았습니다. 이런 한계를 극복하기 위해 나온 모델이 Depth Pro입니다. Depth Pro는 이미지를 찍은 카메라의 정보 없이도 단일 이미지에서 정확하고 세밀한 깊이 정보를 빠르게 추출할 수 있습니다. 특히, 카메라 초점 거리 등의 메타데이터 없이도 2.25메가픽셀(약 200만 화소)의 고화질 깊이 맵을 단 0.3초 만에 생성할 수 있..

1. 서론디지털 3D 에셋은 게임, 영화, 물리 시뮬레이션, AI 연구 등 다양한 분야에서 중요한 역할을 합니다. 그러나 이 에셋을 제작하는 과정은 많은 시간과 비용이 소요되는 복잡한 작업으로, 스케치, 모델링, 텍스처 매핑 등 각 단계에서 높은 전문성이 요구됩니다. 이를 해결하기 위해 자동화된 3D 에셋 생성 기술이 주목받고 있으며, 특히 확산 모델 기반의 이미지와 비디오 생성 기술에서 발전을 이루면서 3D 생성 기술도 주목받고 있습니다. 이번에 Tencent가 공개한 Hunyuan3D 2.0은 이와 같은 배경에서 개발된 시스템으로, 텍스처 매핑과 3D 형태 생성의 어려움을 해결하기 위해 독창적인 접근 방식을 채택했습니다. 특히, 확장형 확산 모델을 기반으로 한 두 가지 주요 구성 요소인 Hunyuan..

메타(Meta)에서 동영상 생성/편집 기능을 가진 'Movie Gen'을 공개했습니다. 텍스트 프롬프트 입력을 통해 고해상도 동영상을 자동으로 생성하는 기능을 제공합니다. 제공되는 핵심 기능을 열거해 보면 다음과 같습니다. 너무 단촐하게 말했나요? -_-;비디오 생성 (16 FPS, 1080P, 최대 16초)개인화된 비디오 생성정밀한 비디오 편집오디오 생성 (48KHz)AI가 영상을 생성하면, 그걸 원하는 스타일로 바꾸거나 새롭게 뭔가를 추가할 수도 있고영상에 어울리는 배경 음악과 효과음까지 포함시켜 최종 영상을 만들 수 있다는 얘기입니다. 공식 사이트에 소개된 영상들 각각도 멋지지만, 그 가운데 위 영상은 음향효과와 잘 어울려 더 놀라웠습니다.꼭 한번 클릭해서 보시길... 그런데 이것도 혹시 ..

비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델 EAGLE은 다양한 비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델입니다.기존의 멀티모달 모델들은 주로 낮은 해상도 이미지 처리에 한정되었으며, 시각 인코더 선택 및 결합 전략에 대한 체계적인 비교와 세부적인 연구가 부족했고 이는 결과적으로 OCR 및 문서 분석과 같이 해상도가 민감한 작업에서 성능 저하를 초래했습니다. EAGLE은 여러 비전 인코더의 조합과 고해상도 적응을 통해 이러한 문제를 해결하고자 합니다. 특히, 각 인코더의 시각적 토큰을 단순히 결합하는 방식이 복잡한 혼합 아키텍처만큼 효과적이며, 비전 인코더와 언어 토큰 간의 사전 정렬(Pre-Alignm..