일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 휴머노이드 로봇
- 일론 머스크
- 가상환경
- 오픈AI
- LORA
- 확산 모델
- PYTHON
- TRANSFORMER
- LLM
- 딥러닝
- 아두이노
- 인공지능
- 티스토리챌린지
- 시간적 일관성
- ControlNet
- AI
- 트랜스포머
- 멀티모달
- AI 기술
- 우분투
- 생성형 AI
- 뉴럴링크
- ChatGPT
- 오블완
- OpenAI
- tts
- 서보모터
- ubuntu
- 딥마인드
- 메타
- Today
- Total
목록2024/08/28 (5)
AI 탐구노트
AI 기반 약물 개발 모델 ActFound, 새로운 가능성 제시중국과 미국의 과학자들이 개발한 AI 모델 ActFound는 데이터가 부족한 상황에서도 정확한 생물학적 활성 예측이 가능하며, 전통적인 계산 방법보다 더 효율적이고 비용도 절감할 수 있어 약물 개발 과정에서의 주요 과제를 극복하며, 기존 방법들보다 뛰어난 성능을 보여준다고 합니다. ( SCMP) 기업 AI 활용률 저조, 인프라 및 재원 부족이 주요 원인국내 기업의 78.4%가 AI 기술의 필요성을 느끼지만 실제 활용률은 30%에 불과하며, 특히 제조업에서는 활용률이 23.8%로 낮고, 중소기업과 비수도권 기업은 AI 도입에 큰 어려움을 겪고 있는데, 주요 원인은 AI 인프라와 재원 부족이라고 합니다. (비즈니스포스트)루닛, 의료AI 분야에서 ..
스케치 등의 이미지를 기반으로 주어지는 프롬프트를 이용해 사용자가 컨트롤할 수 있는 2D 대화형 게임을 만드는 생성형 AI Genie는 구글이 게임 메커니즘에 대한 사전 교육이 없이 사진이나 AI 생성 이미지, 개인이 직접 그린 스케치 등의 이미지를 기반으로 주어지는 프롬프트를 이용해 사용자가 컨트롤할 수 있는 2D 대화형 게임을 만드는 생성형 AI입니다. 기초 세계모델(foundation world model)로 시공간 비디오 토크나이저, 자동회귀 역학 모델, 그리고 확장 가능한 잠재 동작 모델로 구성됩니다. 20,000 시간 이상의 2D 인터넷 게임 비디오 영상 데이터셋으로 훈련해 게임 플레이를 자율적으로 이해하게 되었다고 합니다. 캐릭터의 동작에 대한 훈련을 별도로 하지 않았음에도 학습된 잠재 행..
고품질의 일관된 다중 뷰 이미지를 생성하여 인간 3D를 재구성할 수 있게 만드는 모델 MagicMan은 단일 이미지로부터 고품질의 일관된 다중 뷰 이미지를 생성하여 인간 3D 재구성을 가능하게 하는 모델입니다. 기존의 단일 이미지 기반 인간 3D 재구성 방법들은 부족한 훈련 데이터로 인한 일반화 능력의 약화와 3D 일관성 부족으로 인해 제한된 성능을 보입니다. 특히, 포즈 추정의 부정확성으로 인해 왜곡된 3D 재구성 결과가 발생합니다. MagicMan은 사전 훈련된 2D 확산 모델(Stable Diffusion)과 3D 신체 모델(SMPL-X)을 결합하여 다중 뷰 일관성을 개선하고, 하이브리드 멀티뷰 어텐션 메커니즘과 기하학적 인식 듀얼 브랜치를 도입하여 다중 뷰 간의 정보 교환을 효율적으로 수행합니다...
알리바바 그룹이 공개한 오디오 기반 초상화(portrait) 비디오 생성 프레임워크 EMO (Emote Portrait Alive)는 알리바바 그룹이 공개한 오디오 기반 초상화(portrait) 비디오 생성 프레임워크입니다. 참조 이미지 한장과 보컬 오디오 클립을 입력하면 오디오가 입혀진, 그것도 입모양과 안면 움직임 등이 자연스럽게 반영된 비디오 영상을 생성하는데, 250시간 이상의 영상과 1억 5천만 개 이상의 이미지를 학습 데이터셋으로 사용했다고 합니다. 공개된 데모 영상이 너무 자연스러워서 깃헙 게시판에는 실행 코드를 공개하기 전까지는 못 믿겠다는 반응도 일부 있었습니다. ^^; 이 경우처럼, 모델 공개 때 깃헙 링크를 함께 공개하면서 실행코드가 없는 경우들을 가끔 볼 수 있죠. 하지만 대부분 언..
실시간으로 깊이 추정을 개선하는 모델 DoubleTake는 이전 프레임에서 얻은 3D 기하학적 정보를 활용하여 실시간으로 깊이 추정을 개선하는 모델입니다.기존의 깊이 추정 모델들은 실시간으로 깊이를 예측하는 과정에서 정확도가 떨어질 수 있으며, 특히 이전 프레임의 정보나 장면의 전체적인 기하학적 구조를 충분히 활용하지 못했습니다. 이런 문제를 해결하기 위해 DoubleTake는 이전 프레임에서 생성된 3D 기하학적 정보를 현재 프레임의 입력으로 사용하여 깊이 예측을 개선합니다. 이를 위해 Hint MLP를 도입해, 다중 뷰 스테레오(MVS) 기반의 코스트 볼륨에 이전의 기하학적 정보를 결합합니다.* 다중 뷰 스테레오(MVS)는 여러 각도에서 찍은 사진들을 비교해서 물체까지의 거리를 측정하는 기술이고 코스..