일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 오블완
- 서보모터
- 오픈AI
- TRANSFORMER
- 트랜스포머
- 아두이노
- LLM
- ChatGPT
- OpenAI
- PYTHON
- 뉴럴링크
- tts
- 확산 모델
- ubuntu
- 딥마인드
- ControlNet
- 시간적 일관성
- 우분투
- 일론 머스크
- 가상환경
- 인공지능
- 티스토리챌린지
- LORA
- 딥러닝
- 멀티모달
- AI
- 생성형 AI
- AI 기술
- 휴머노이드 로봇
- 메타
- Today
- Total
목록2024/08/13 (7)
AI 탐구노트
멀티모달 모델을 이용한 이미지 이해를 수행할 때, 이미지가 고해상도이거나 동영상의 길이가 긴 경우 많은 시각적 토큰 정보가 필요하므로 비효율적이게 됩니다. 이를 해결하기 위해 시각적 정보를 여러 단계의 세밀도로 나타낼 수 있도록 하는 모델이 소개되었는데 그것인 Matryoshka Multimodal Models (M3)입니다. 이 모델의 특징은 이미지를 필요에 따라 여러 단계의 시각적 토큰으로 나타내어, 정보가 점점 더 세밀해지는 구조를 만든다는 것으로 단계를 진행될수록 고수준 정보에서 세부 정보를 포함하게 된다는 것과, 이미지의 복잡도에 따른 적정한 크기의 토큰을 사용함으로써 최적의 성능과 자원 사용의 효율성을 극대화할 수 있다는 것입니다. 참고) 프로젝트, 논문, 코드, 데모
실시간으로 움직이는 실감나는 아바타를 만드는 것은 아주 어려운 일입니다. 머리카락이나 얼굴 표정 등 디테일한 부분들을 처리하기 위해서는 상당히 많은 컴퓨팅 연산과 고도의 컴퓨터 그래픽 기법이 필요하기 때문이죠. NPGA는 3D 가우시안 스플래팅 기법을 이용해 실제 사람처럼 움직이는 디지털 아바타를 만드는 방법으로 다양한 각도에서 찍은 비디오를 컴퓨터 그래픽과 기계 학습 기술로 처리해 사람의 머리를 매우 사실적으로 묘사한 3D 디지털 모델 (아바타)를 만들 수 있게 합니다. 우선 이 방식은 다양한 각도에서 찍은 비디오를 이용해 사람의 외모와 움직임에 대한 자세한 정보를 얻게 되며 얼굴 표면의 점들(위치, 색상 정보 포함, Gaussian Point Cloud) 정보를 이용해 대상 얼굴의 기본 3D 모델을 ..
올 2월 OpenAI는 SORA라는 비디오 생성 모델을 공개했습니다. 기존의 다른 모델 대비 월등히 뛰어난 생성 결과 때문에 기존 영상 제작 업계분들까지 위기감을 느끼기도 했습니다. OpenAI가 일부 크리에이터들에게만 서비스를 공개하고 일반인에게는 공개를 하지 않은 덕분에, 엄청난 기술적 점프였지만 그 뒤로는 살짝 수면 아래로 내려가 있었죠. 그런데 이번에 Kuaishou라는 곳에서 중국판 SORA라 불리는 KLING 이라는 비디오 생성 모델을 공개하면서 이전의 충격이 다시 한번 떠 올랐습니다. KLING은 SORA와 비슷하게 물리 법칙을 이해하고 있고 1080p 30fps의 일관성있는 실제같은 영상물을 만들어냅니다. 일부 크리에이터들에게만 접근을 허용했던 SORA와는 달리 등록한 대기자들에 대해 일..
Unique3D는 단일 뷰 이미지에서 고품질의 3D Mesh를 생성해 내는 이미지 to 3D 프레임워크입니다. 이를 이용하면 한장의 이미지만 가지고 별도의 3D 스캔 작업 없이도 3D 메쉬를 자동으로 생성해 낼 수 있죠. 처리 순서를 보면 입력된 단일 뷰 이미지로부터 다중 뷰 확산 모델을 사용해 여러 시점의 이미지를 생성하고, 점진적으로 높은 해상도로 업스케일링합니다. 업스케일된 컬러 이미지와 노멀 맵에서 복잡한 기하학적 세부사항과 질감으로 3D 메쉬를 재구성하기 위해 메쉬 재구성 알고리즘인 ISOMER를 이용합니다. 기존 다른 방식을 이용하는 경우보다 높은 충실도와 일관성있는 3D 메쉬 결과물, 빠른 생성 속도라는 잇점을 동시에 얻을 수 있다는 장점이 있습니다. 참고) 프로젝트, 논문, 코드, 데모
ToonCrafter는 이미지 to 비디오 생성을 수행하는 확산 기반 모델입니다. 시작 프레임의 이미지와 끝 프레임의 이미지를 입력으로 받아 그 사이 동작을 확산모델을 이용해 보간 이미지들을 생성해서 채우는 방식으로 수행됩니다. 고전적인 방식의 애니메이션들은 애니메이터(만화가?)들이 영상의 매 프레임을 이미지로 그리고 채색해서 이를 연속적으로 보여주는 방식을 취했었는데 ToonCrafter는 이런 반복적이고 손이 많이 가는 작업을 대체할 수 있는 단비같은 기술인 셈입니다. 만화 스케치에서의 프레임 보간 이미지 생성, 참조 스케치를 이용한 이미지 자동 채색 등의 기능도 함께 제공합니다. 공개된 생성 결과물들 가운데는 지브리 애니메이션을 가지고 만든 것이 많았는데 원본과 비슷하다고 느껴질 정도로 품질이 상..
LivePortrait는 정적인 초상화 이미지를 생동감 있게 움직이는 비디오로 변환하는 기술입니다. 실제 동영상들을 참고해서 얼굴 표정이나 머리 움직임 등을 추출하고 이를 제시된 정적 이미지에 적용하는 방식이죠. 6900만 개나 되는 많은 수의 고품질 프레임을 모델 학습에 이용하다 보니 다양한 상황들도 잘 지원한다고 합니다. 실시간 영상 변환이 되므로 이를 잘 활용하면 재미있는 콘텐츠나 실감 영상 혹은 화상회의 도구 등을 만들 수 있을 것 같습니다. 사용된 기술 요소로 Implicit Keypoints (얼굴의 특정 지점을 표시하는 간단한 점들로 얼굴 움직임을 효과적으로 제어할 때 사용), Stitching (이미지 간 매끄러운 연결을 통해 일관된 영상 생성에 사용), Retargeting(눈, 입 등의..
Mobile-Agent-V2는 알리바바 그룹이 공개한 모바일 기기 상에서 내비게이션과 실행의 개선을 돕는 작업 도우미 기술입니다. 모바일 기기에서 작업을 자동으로 처리하기 위해서는 사용자의 지시나 행동의 의도 등을 파악하고 기기 상에서 동작하는 다양한 기능들을 다룰 수 있도록 만드는 것이 필요한데, 이 목적으로 최근 에이전트 기술이 많이 연구되고 있습니다. 스마트폰에서의 자동화 처리를 위해 예전에는 단순한 룰 기반의 IFTTT(IF This Then That)라는 기술을 사용하기도 했습니다. IFTTT의 경우 단순하지만 광범위한 작업에 사용될 수 있었던 반면, Mobile-Agent-V2는 복잡한 작업과 다단계 작업을 효과적으로 처리할 수 있다는 장점이 있습니다. Mobile-Agent-V2에는 Plan..