일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- LORA
- 오픈AI
- 오블완
- 티스토리챌린지
- AI 기술
- 다국어 지원
- 휴머노이드 로봇
- TRANSFORMER
- ubuntu
- 아두이노
- 실시간 렌더링
- PYTHON
- 시간적 일관성
- 확산 모델
- 일론 머스크
- 인공지능
- 우분투
- OpenAI
- 트랜스포머
- LLM
- 딥러닝
- ChatGPT
- 이미지 생성
- 메타
- OpenCV
- 강화 학습
- AI
- 오픈소스
- 생성형 AI
- tts
- Today
- Total
목록nvidia (6)
AI 탐구노트

현대의 인공지능(AI) 모델들은 자연어 처리(NLP)와 이미지 인식 분야에서 비약적인 발전을 이루었지만, 오디오를 효과적으로 이해하고 추론하는 능력은 여전히 제한적입니다. 인간은 비언어적 소리, 음악, 환경음을 통해 감정과 상황을 해석할 수 있으며, AI 역시 이러한 능력을 갖춘다면 보다 자연스럽고 직관적인 상호작용이 가능해지겠죠. 최근 몇 년간 오디오-언어 모델(Audio-Language Model, ALM)이 발전하면서 AI의 청각적 이해력도 향상되고 있습니다. 대표적으로 Contrastive Language-Audio Pre-training(CLAP) 같은 모델은 오디오와 언어 간의 관계를 학습하는 데 사용되어 왔지만, 기존 ALM은 짧은 오디오(최대 30초)만을 처리할 수 있었고, 전문가 수준의 ..

X에서 신기한 글을 하나 봤습니다. Nvidia RTX4090에 96GB의 VRAM을 달아서 사용하는 사례였습니다. X의 青龍聖者님(@bdsqlsz)4090 96gb verify.😎x.com 글을 내용을 봐서는 중국 쪽 분의 게시글 같았는데 증빙을 하느라 실제 돌아가는 화면과 사진을 첨부했습니다. NVIDIA에서 정상적으로 판매하는 제품은 RTX4090에는 24GB VRAM만 존재하므로 이 사진이 정말이라면 물리적으로 VRAM을 추가하도록 개조한 것으로 볼 수 있습니다. 최근 생성형 AI나 LLM을 개발하기 위해서는 GPU의 코어 성능, 메모리 대역폭도 중요하지만 사용가능한 VRAM 용량도 그 못지않게 중요해졌습니다. 참고로 고가형 GPU들 가운데 A100, H100은 80GB, 최신 H200..

1.개요1.1.기존 문제점기존 휴머노이드 로봇 제어 방식은 각각의 작업에 맞춘 별도의 제어기가 필요했습니다. 예를 들어 로봇이 이동할 때와 물건을 집을 때 각기 다른 방식으로 제어를 하게 되고 작업이 추가될 때마다 제어 시스템을 다시 훈련하거나 수정해야 했습니다. 1.2 HOVERHOVER는 휴머노이드 로봇이 이동, 물건 조작 등 여러 다양한 작업을 하나의 통합된 제어 시스템으로 수행하도록 돕는 기술입니다. NVIDIA 연구진이 소형 신경망을 개발해 특화된 시스템보다 효율적으로 휴머노이드를 제어할 수 있음을 보여준 것입니다. 2.HOVER 기술요소 2.1.특징 HOVER는 여러 작업 모드를 하나로 통합하여 로봇이 이동하거나 물건을 다루는 동작을 하나의 제어 방식으로 자연스럽게 전환할 수 있도록 할 수 ..

Black Forest Labs, Flux.1.1 Pro 출시Black Forest Labs가 기존 1.0 버전 대비 더 빠른 속도와 더 우수한 이미지 품질을 보여주는 Flux 1.1 Pro를 출시했는데, 이는 MidJourney 보다 우수하다고 평가받고 있습니다. (AI타임스) 품질이 향상된 생성형 모델들이 계속해서 나오고 있습니다.최근 나온 모델들을 보면 실제와 AI를 구분하지 못하는 수준이 된 것 같기도 합니다. 다양한 솔루션들의 출시로 시장이 포화되면 그 다음은 각자 자신이 우수한 분야를 특화해서 시장을 선점하려 하겠죠. 앞으로 이런 우수한 기술을 가진 기업들이 어떤 재미난 서비스들을 출시하게 될 지 기대됩니다. NVIDIA, GPT-4와 경쟁할 오픈 소스 AI 모델 NVLM-D-72B 공개N..

언어, 이미지, 비디오 등을 엮어 다중모드 프롬프트로 표현하고 학습하여 로봇 팔을 제어할 수 있도록 한 에이전트 일반적으로 로봇(예:협동로봇)에게 작업을 지시하기 위해서는, 사람이 직접 로봇팔 등을 조작하는 것을 모방하도록 학습을 시키거나 언어적으로 지시문을 주고 이를 처리하도록 하거나 혹은 시각적으로 최종 상태를 목표로 제시하여 이를 달성하도록 학습시키는 방식이 사용됩니다. 그런데 이런 것들은 제각각 그 작업을 수행할 수 있도록 하는 전용 모델을 사용하게 되죠. NVIDIA에서 발표한 VIMA는 이렇게 하는 대신 언어, 이미지, 비디오 등을 엮어 다중모드 프롬프트로 표현하고 학습하여 로봇 팔을 제어할 수 있도록 한 에이전트입니다. 참고) 프로젝트, 깃헙, 논문, 영상

소형이지만 강력한 성능, 엔비디아의 라마 3.1-미니트론 4B 모델 공개 NVIDIA가 소형 언어모델(sLM) 'Llama-3.1-Minitron 4B와 8B'를 공개했습니다. 좀 더 큰 모델인 Nemotron 15B에서 가중치 가지치기(Pruninig), 지식 증류(Knowledge Distilation) 기술을 결합해서 만들었다고 합니다. 덩치는 작아졌지만 MMLU 기준 성능은 16% 가량 더 향상되었고 교육을 위한 토큰 수도 최대 40배 감소했다고 하네요. (링크)