일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 멀티모달
- ubuntu
- ChatGPT
- TRANSFORMER
- LORA
- 티스토리챌린지
- 오블완
- 이미지 편집
- ControlNet
- 시간적 일관성
- 메타
- LLM
- 트랜스포머
- AI 기술
- OpenAI
- 우분투
- 아두이노
- 서보모터
- 뉴럴링크
- 인공지능
- javascript
- 생성형 AI
- 확산 모델
- tts
- 일론 머스크
- PYTHON
- 딥마인드
- 가상환경
- 오픈AI
- AI
- Today
- Total
목록2024/08/24 (3)
AI 탐구노트
NVIDIA가 발표한 Text to 3D 생성 모델 LATTE3D( Large-scale Amortized Text-To-Enhanced 3D Synthesis )는 NVIDIA에서 발표한 Text-3D 생성 모델입니다.복잡한 3D 개체를 단일 GPU 상에서 단 몇 초만에 뚝딱 만들어낼 수 있습니다. LATTE3D는 GPT를 사용하여 프롬프트를 규격화하고, 사전 학습된 네트워크로 한번 생성된 결과물의 잠재 벡터를 다시 사용하는 방식을 택했고, 3D개체의 volume과 texture를 분할생성하는 방식으로 생성속도와 정밀함이라는 두 마리 토끼를 다 잡았다고 합니다. 생성된 결과물은 오픈 USD(Universal Scene Description, OpenUSD) 기반 3D 워크플로우와 애플리케이션에서 사..
패션 가상 착장/피팅 기술 (Virtual Try-On) Wear-Any-Way는 알리바바 그룹 연구진이 공개한 패션 가상 착장을 위한 기술입니다. AI 관련 전시회에 가보면 유사한 서비스를 제공하는 AI기업들이 많이 있습니다. 인물의 사진과 입혀보고 싶은 옷 이미지를 선택하면 기존 사진에 자연스레 옷이 입혀진 결과 이미지가 나오는 방식이죠. 일부는 인물의 자세를 키포인트를 움직이는 방식으로 바꿀 수 있도록 하는 변화를 주기도 했었습니다. 그렇지만 대부분은 여기까지가 끝이었죠. 이와는 달리 Wear-Any-Way 모델은 사용자가 착장 스타일을, 포인트 기반 제어와 이를 이용한 사용자 상호 작용을 통해 조작할 수 있도록 해 줍니다. 마우스 클릭이나 드래그와 같은 단순한 상호 작용을 이용해 소매를 말아올리거..
효율적인 비디오 이해를 위한 상태 공간 모델(SSM: State Space Model) VideoMamba는 효율적인 비디오 이해를 위한 상태 공간 모델(SSM: State Space Model)입니다. 비디오 영상을 보면서 어떤 상황인지를 파악하고 싶은 경우에 사용할 수 있는 기술로 보시면 될 것 같습니다. 이 모델은 이름 그대로 Mamba 기술을 비디오 영역에 적용한 것인데 Mamba 자체에 대해서는 이곳을 참고하세요. VideoMamba는 아래의 네 가지 핵심 기능을 제공합니다.새로운 자체 증류 기술 : 광범위한 데이터 세트 교육 없이 시각적 영역의 확장 (입력 크기의 증가 가능)단기 동작 인식에 대한 민감도 : 미세한 움직임, 세밀한 차이가 있는 단기 동작을 구별하는 능력 탁월장기 비디오 영상 이..