일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- tts
- ControlNet
- 메타
- OpenAI
- TRANSFORMER
- 서보모터
- 멀티모달
- 확산 모델
- javascript
- 트랜스포머
- 뉴럴링크
- 시간적 일관성
- AI
- 오블완
- LORA
- 우분투
- 오픈AI
- 인공지능
- AI 기술
- 일론 머스크
- ChatGPT
- 아두이노
- 가상환경
- PYTHON
- 딥마인드
- 이미지 편집
- LLM
- 생성형 AI
- 티스토리챌린지
- ubuntu
- Today
- Total
목록2024/09/27 (3)
AI 탐구노트
초저비트레이트에서 고품질의 음악을 복원할 수 있는 음악 코덱 MuCodec은 초저비트레이트에서 고품질의 음악을 복원하기 위한 음악 코덱으로 이를 이용해 음성 및 배경음 등을 효과적으로 처리해 높은 품질의 음악을 재생할 수 있습니다. 기존의 음악 압축 기술들은 음악의 복잡한 배경과 보컬의 풍부한 표현을 모두 재현하지 못해 정보 손실이 발생하며, 저비트레이트에서는 재생 품질이 크게 저하되는 문제가 있었습니다. MuCodec은 두 가지 중요한 요소인 보컬과 배경음악을 고려하여, MuEncoder로 음향 및 의미적 특징을 추출하고, 이를 RVQ로 양자화한 뒤, 흐름 맞춤(flow-matching)을 통해 Mel-VAE 특징을 복원하여 HiFi-GAN을 통해 음악을 재생합니다. 위 그림에서 소개되는 MuC..
9월 25일 (현지 시간 기준) 메타의 연례 개발자 컨퍼런스 '커넥트 2024' 행사가 있었습니다.많은 기술과 제품이 소개되었는데 그 가운데 제 관심을 끈 것은 레이벤 스마트 안경 'Orion'과 '메타 퀘스트 3S'였습니다. 발표 내용에서 제가 느낀 것을 요약하면 다음과 같았습니다. 미래에 나올 건 Orion인데 시간이 걸리니 지금은 퀘스트3S로 만족하고 있어줘~ 퀘스트2를 가지고 있는 입장에서 저렴한 가격의 퀘스트3S가 제대로 된 MR까지 지원하는 상황이라 약간 약이 오르기도 했습니다.하지만 어쩔 수 있나요... 기술은 머물러 있는게 아니라 계속 발전하며 흘러가고 있는데... 레이벤 스마트 안경 'Orion' 그래도 사람들의 이목을 끈 것은 단연 레이벤 스마트 안경인 'Orion'이었습니다..
사람의 2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측을 수행하는 단일 모델 Sapiens는 인간 중심의 4가지 주요 비전 작업(2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측)을 위한 고성능 비전 트랜스포머 모델입니다. 기존 모델들은 인간 중심의 비전 작업에서 일반화 성능이 낮고, 다양한 작업을 일관되게 수행하기 어렵다는 한계가 있었습니다. 또한, 현실 세계의 데이터를 충분히 반영하지 못하거나, 고해상도 출력을 지원하지 못해 세부적인 표현이 부족했습니다. Sapiens는 3억 장 이상의 인간 이미지 데이터셋(Human-300M)로 MAE(Masked AutoEncoder) 접근 방식을 사용하여 사전 학습된 비전 트랜스포머 모델(ViT)을 활용하여 2D 포즈 추정, 신체..