일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 오블완
- AI 기술
- 인공지능
- 일론 머스크
- 딥마인드
- 이미지 편집
- 가상환경
- PYTHON
- 우분투
- ChatGPT
- 메타
- 아두이노
- AI
- 생성형 AI
- 트랜스포머
- javascript
- tts
- 티스토리챌린지
- TRANSFORMER
- 뉴럴링크
- LORA
- 시간적 일관성
- ControlNet
- OpenAI
- ubuntu
- 서보모터
- 멀티모달
- 오픈AI
- LLM
- 확산 모델
- Today
- Total
목록2024/08 (123)
AI 탐구노트
Octopus v2는 안드로이드 기반 단말기기에서 동작하는 에이전트를 위한 LLM 입니다. 스마트폰 OS 가운데 안드로이드를 타겟으로 하고 있는 것 같습니다. 이를 공개한 NEXA AI의 사이트에 가 보면 Octopus 모델은 v2, v3, v4가 있고, 각각은 20억개 매개변수를 가진 언어모델, 10억개의 매개변수를 가진 텍스트와 이미지를 처리할 수 있는 멀티 모달 모델, 100억개의 매개변수를 가지면서 v2를 마스터노드로 사용하면서 다른 많은 오픈소스 모델들을 작업자 노드 역할을 하도록 만들어진 그래프 네트워크로 소개되어 있습니다. 이 가운데 Octopus v2는 안드로이드 API를 호출하는 기능에 특화되어 있으며 훈련 및 추론 단계 모두에 대한 고유한 기능적 토큰 전략을 채용해, 유사하게 온디바이..
포즈, 오디오, 참조 이미지 등의 제어신호를 받아 대화형으로 초상화 영상을 생성하는 모델 초상화 비디오를 만드는 방법 가운데 하나로 단일 이미지에서 이어지는 여러 장면들을 생성하는 것이 있습니다. 이 때 텍스트, 오디오, 이미지 참조, 포즈, 깊이맵 등 다양한 신호를 이용할 수 있는데, 모든 신호가 동일하게 작동하진 않습니다. 특히 오디오 신호는 포즈나 참조 이미지 등에 비해 약하게 작용하는 특징이 있는데 그러다보니 오디오 신호를 이용해서 비디오를 생성하는 것에 어려움이 있습니다. V-Express는 점진적인 드롭 작업을 통해, 비디오 생성 과정에서 다양한 제어 신호 간의 균형을 맞추기 위해 고안된 방법입니다. 약한 신호를 점진적으로 강화하며 이를 통해 오디오 신호를 이용해 인물의 입을 움직이게 하면서도..
Tender는 텍스트 기반 2D 전신 인간 동작 생성을 위한 모델로 Holistic-Motion2D 데이터셋과 함께 공개되었습니다. 2D 동작데이터는 수집이나 데이터 처리가 3D 데이터에 비해 상대적으로 용이하기 때문에 더 확장 가능하고 다양한 형태로 제공될 수 있습니다. 2D 동작 데이터는 신체 부위의 키포인트들로 구성되는데 이것과 텍스트 설명을 결합해서 동작을 생성하면 2D 신체 부위 키포인트들의 동작 시퀀스가 생성됩니다. Tender 프레임워크는 PA-VAE(부위 인식 변이 오토인코더)와 트랜스포머 기반 확산 모델, CAG(신뢰 인식 생성)을 갖춘 전신 부위 인식 주의 메커니즘으로 구성되어 있습니다. 사람의 행동이 기록된 비디오 클립이 있고, 신체의 키포인트 데이터와 행동에 대한 설명 텍스트 데이터..
FastHTML은 Python으로 웹 개발을 단순화하는 프레임워크입니다. Javascript와 CSS의 의존성을 줄이고 python을 이용해 처리할 수 있도록 하여 간단한 웹 어프리케이션을 빠르고 손쉽게 개발할 수 있도록 해 줍니다. Kaggle, FastAI 등 다수 기업의 공동 창업자인 Jeremy Howard가 만든 프로젝트에서 개발을 하고 있죠. 그가 개발해서 공개한 FastAI 와 이름만 비교해 봐도 유사하죠? (참고로 FastAPI는 전혀 관련이 없습니다) 잘 아시는 바와 같이 Python 기반으로 웹 어플리케이션을 개발할 경우, 많은 제약사항이 따랐습니다. python 에코시스템에서는 주로 Django나 Flask, FastAPI등을 이용하는 경우가 많을텐데 그때도 여전히 HTML, CSS,..
구글 딥마인드에서 인간 아마추어 수준의 성능을 달성한 탁구 로봇 에이전트를 공개 했습니다. (링크) 어? 이상하다... 예전에도 이런 로봇을 본 것 같은데? 하는 분도 있을 겁니다. 실제로 이런 상상으로 만들어진 로봇들이 제법 있기 때문입니다. 예를 들어 2014년 로봇 업체 KUKA가 광고로 만든 영상에도 이런 장면이 나옵니다. 최근에는 영상에서 사람을 휴머노이드 로봇으로 바꿔치기한 가짜 영상들도 많이 볼 수 있죠. 실제 상황을 지원하는 로봇으로 제가 아는 최고는 OMRON사의 제품(영상)입니다. 연구진은 로봇 에이전트를 개발하기 위해, 계층 구조로 나눠진 모듈들을 사용해서 로봇이 여러 가지 탁구 기술을 배우도록 했고, 시뮬레이션에서 학습한 기술을 현실에서 바로 사용할 수 있도록 하는 방법 ( "ze..
객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다. Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있..
StyleShot은 다양한 스타일이 자유롭게 적용된 고품질의 이미지를 생성하는 모델입니다. 스타일을 참조할 텍스트나 이미지에서 특징을 추출하고 사용자가 입력한 텍스트 프롬프트나 이미지에 스타일을 적용해 결과 이미지를 생성하는 방식을 취하고 있습니다. Stable Diffusion을 기반으로 하고 있고 StyleGallery라는 다양한 스타일을 포함한 훈련 데이터셋으로 학습되었으며 모델 성능의 종합적 평가를 위한 StyleBench를 제공합니다. StyleShot은 테스트 시 별도의 튜닝 없이 스타일 전이가 바로 가능하다는 장점을 제공합니다. 적용된 기술 요소는 다음과 같습니다.다중 레벨 패치 임베딩 : 이미지의 다양한 크기의 패치로부터 스타일 정보를 추출하여 더욱 풍부한 스타일 표현을 학습합니다.디컬러라..
멀티모달 모델을 이용한 이미지 이해를 수행할 때, 이미지가 고해상도이거나 동영상의 길이가 긴 경우 많은 시각적 토큰 정보가 필요하므로 비효율적이게 됩니다. 이를 해결하기 위해 시각적 정보를 여러 단계의 세밀도로 나타낼 수 있도록 하는 모델이 소개되었는데 그것인 Matryoshka Multimodal Models (M3)입니다. 이 모델의 특징은 이미지를 필요에 따라 여러 단계의 시각적 토큰으로 나타내어, 정보가 점점 더 세밀해지는 구조를 만든다는 것으로 단계를 진행될수록 고수준 정보에서 세부 정보를 포함하게 된다는 것과, 이미지의 복잡도에 따른 적정한 크기의 토큰을 사용함으로써 최적의 성능과 자원 사용의 효율성을 극대화할 수 있다는 것입니다. 참고) 프로젝트, 논문, 코드, 데모
실시간으로 움직이는 실감나는 아바타를 만드는 것은 아주 어려운 일입니다. 머리카락이나 얼굴 표정 등 디테일한 부분들을 처리하기 위해서는 상당히 많은 컴퓨팅 연산과 고도의 컴퓨터 그래픽 기법이 필요하기 때문이죠. NPGA는 3D 가우시안 스플래팅 기법을 이용해 실제 사람처럼 움직이는 디지털 아바타를 만드는 방법으로 다양한 각도에서 찍은 비디오를 컴퓨터 그래픽과 기계 학습 기술로 처리해 사람의 머리를 매우 사실적으로 묘사한 3D 디지털 모델 (아바타)를 만들 수 있게 합니다. 우선 이 방식은 다양한 각도에서 찍은 비디오를 이용해 사람의 외모와 움직임에 대한 자세한 정보를 얻게 되며 얼굴 표면의 점들(위치, 색상 정보 포함, Gaussian Point Cloud) 정보를 이용해 대상 얼굴의 기본 3D 모델을 ..
올 2월 OpenAI는 SORA라는 비디오 생성 모델을 공개했습니다. 기존의 다른 모델 대비 월등히 뛰어난 생성 결과 때문에 기존 영상 제작 업계분들까지 위기감을 느끼기도 했습니다. OpenAI가 일부 크리에이터들에게만 서비스를 공개하고 일반인에게는 공개를 하지 않은 덕분에, 엄청난 기술적 점프였지만 그 뒤로는 살짝 수면 아래로 내려가 있었죠. 그런데 이번에 Kuaishou라는 곳에서 중국판 SORA라 불리는 KLING 이라는 비디오 생성 모델을 공개하면서 이전의 충격이 다시 한번 떠 올랐습니다. KLING은 SORA와 비슷하게 물리 법칙을 이해하고 있고 1080p 30fps의 일관성있는 실제같은 영상물을 만들어냅니다. 일부 크리에이터들에게만 접근을 허용했던 SORA와는 달리 등록한 대기자들에 대해 일..