일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 오블완
- 티스토리챌린지
- 오픈소스
- 멀티모달
- OpenCV
- ubuntu
- 시간적 일관성
- 다국어 지원
- 일론 머스크
- 우분투
- 오픈AI
- 아두이노
- 트랜스포머
- 생성형 AI
- 인공지능
- PYTHON
- LLM
- AI
- LORA
- ChatGPT
- 확산 모델
- tts
- TRANSFORMER
- AI 기술
- OpenAI
- 딥러닝
- 휴머노이드 로봇
- 강화 학습
- 메타
- Stable Diffusion
- Today
- Total
목록2024/08/14 (10)
AI 탐구노트

텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet(*1)을 사용하는 경우가 많습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠. CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는..
구글, '제미나이 라이브'로 차세대 AI 비서 기능 공개구글이 새로운 스마트폰 픽셀9 시리즈와 함께 차세대 AI 비서 기능 '제미나이 라이브'를 발표했습니다. 예전 구글 어시스턴스 때 처럼 'Hey, Google'로 실행할 수 있다고 합니다. 스마트폰에서 활용할 수 있는 AI 기능들이 이제 하나둘씩 추가될 것인데, 애플의 Apple Intelligence가 상용 공개되는 시점이 늦어질 것으로 전망되는 가운데, 구글이 먼저 치고나가 AI 비서 시장에서 주도권을 잡으려는 모양새입니다. '제미나이 라이브'는 영상이나 이미지를 분석해 관련 정보를 제공할 수 있어 다양한 용도로 활용할 수 있을 것으로 기대됩니다. 하지만 아쉽게도... 안드로이드 폰에서 유료 구독 서비스로 출시될 것이라고 하니... 흠... 굳이..

Slicedit은 기존의 T2I(Text to Image) 확산 모델을 이용해 비디오의 특정 부분을 텍스트 설명에 맞게 자연스럽게 편집하는 새로운 방법입니다. 아시는 바와 같이 최근 나오는 많은 T2I 모델들의 성능은 놀라울 정도입니다. 하지만, 이미지가 아닌 비디오 영상에서는 일부에서 많은 발전이 있긴 했지만 아직도 복잡한 움직임 처리 등에서 어려움이 있습니다. Slicedit은 자연 비디오의 시공간 슬라이스가 자연 이미지와 유사한 특성을 지닌다는 점에 착안해, 기존 T2I 확산 모델을 시공간 슬라이스에 적용하는 식으로 접근합니다. 이를 통해 비디오의 구조와 움직임을 유지하면서도 입력되는 텍스트에 맞게 비디오를 편집할 수 있게 됩니다. Slicedit은 비디오의 특정 시점에서 노이즈 볼륨과 어텐션맵을 ..

Octopus v2는 안드로이드 기반 단말기기에서 동작하는 에이전트를 위한 LLM 입니다. 스마트폰 OS 가운데 안드로이드를 타겟으로 하고 있는 것 같습니다. 이를 공개한 NEXA AI의 사이트에 가 보면 Octopus 모델은 v2, v3, v4가 있고, 각각은 20억개 매개변수를 가진 언어모델, 10억개의 매개변수를 가진 텍스트와 이미지를 처리할 수 있는 멀티 모달 모델, 100억개의 매개변수를 가지면서 v2를 마스터노드로 사용하면서 다른 많은 오픈소스 모델들을 작업자 노드 역할을 하도록 만들어진 그래프 네트워크로 소개되어 있습니다. 이 가운데 Octopus v2는 안드로이드 API를 호출하는 기능에 특화되어 있으며 훈련 및 추론 단계 모두에 대한 고유한 기능적 토큰 전략을 채용해, 유사하게 온디바이..

포즈, 오디오, 참조 이미지 등의 제어신호를 받아 대화형으로 초상화 영상을 생성하는 모델 초상화 비디오를 만드는 방법 가운데 하나로 단일 이미지에서 이어지는 여러 장면들을 생성하는 것이 있습니다. 이 때 텍스트, 오디오, 이미지 참조, 포즈, 깊이맵 등 다양한 신호를 이용할 수 있는데, 모든 신호가 동일하게 작동하진 않습니다. 특히 오디오 신호는 포즈나 참조 이미지 등에 비해 약하게 작용하는 특징이 있는데 그러다보니 오디오 신호를 이용해서 비디오를 생성하는 것에 어려움이 있습니다. V-Express는 점진적인 드롭 작업을 통해, 비디오 생성 과정에서 다양한 제어 신호 간의 균형을 맞추기 위해 고안된 방법입니다. 약한 신호를 점진적으로 강화하며 이를 통해 오디오 신호를 이용해 인물의 입을 움직이게 하면서도..

Tender는 텍스트 기반 2D 전신 인간 동작 생성을 위한 모델로 Holistic-Motion2D 데이터셋과 함께 공개되었습니다. 2D 동작데이터는 수집이나 데이터 처리가 3D 데이터에 비해 상대적으로 용이하기 때문에 더 확장 가능하고 다양한 형태로 제공될 수 있습니다. 2D 동작 데이터는 신체 부위의 키포인트들로 구성되는데 이것과 텍스트 설명을 결합해서 동작을 생성하면 2D 신체 부위 키포인트들의 동작 시퀀스가 생성됩니다. Tender 프레임워크는 PA-VAE(부위 인식 변이 오토인코더)와 트랜스포머 기반 확산 모델, CAG(신뢰 인식 생성)을 갖춘 전신 부위 인식 주의 메커니즘으로 구성되어 있습니다. 사람의 행동이 기록된 비디오 클립이 있고, 신체의 키포인트 데이터와 행동에 대한 설명 텍스트 데이터..

FastHTML은 Python으로 웹 개발을 단순화하는 프레임워크입니다. Javascript와 CSS의 의존성을 줄이고 python을 이용해 처리할 수 있도록 하여 간단한 웹 어프리케이션을 빠르고 손쉽게 개발할 수 있도록 해 줍니다. Kaggle, FastAI 등 다수 기업의 공동 창업자인 Jeremy Howard가 만든 프로젝트에서 개발을 하고 있죠. 그가 개발해서 공개한 FastAI 와 이름만 비교해 봐도 유사하죠? (참고로 FastAPI는 전혀 관련이 없습니다) 잘 아시는 바와 같이 Python 기반으로 웹 어플리케이션을 개발할 경우, 많은 제약사항이 따랐습니다. python 에코시스템에서는 주로 Django나 Flask, FastAPI등을 이용하는 경우가 많을텐데 그때도 여전히 HTML, CSS,..

구글 딥마인드에서 인간 아마추어 수준의 성능을 달성한 탁구 로봇 에이전트를 공개 했습니다. (링크) 어? 이상하다... 예전에도 이런 로봇을 본 것 같은데? 하는 분도 있을 겁니다. 실제로 이런 상상으로 만들어진 로봇들이 제법 있기 때문입니다. 예를 들어 2014년 로봇 업체 KUKA가 광고로 만든 영상에도 이런 장면이 나옵니다. 최근에는 영상에서 사람을 휴머노이드 로봇으로 바꿔치기한 가짜 영상들도 많이 볼 수 있죠. 실제 상황을 지원하는 로봇으로 제가 아는 최고는 OMRON사의 제품(영상)입니다. 연구진은 로봇 에이전트를 개발하기 위해, 계층 구조로 나눠진 모듈들을 사용해서 로봇이 여러 가지 탁구 기술을 배우도록 했고, 시뮬레이션에서 학습한 기술을 현실에서 바로 사용할 수 있도록 하는 방법 ( "ze..

객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다. Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있..

StyleShot은 다양한 스타일이 자유롭게 적용된 고품질의 이미지를 생성하는 모델입니다. 스타일을 참조할 텍스트나 이미지에서 특징을 추출하고 사용자가 입력한 텍스트 프롬프트나 이미지에 스타일을 적용해 결과 이미지를 생성하는 방식을 취하고 있습니다. Stable Diffusion을 기반으로 하고 있고 StyleGallery라는 다양한 스타일을 포함한 훈련 데이터셋으로 학습되었으며 모델 성능의 종합적 평가를 위한 StyleBench를 제공합니다. StyleShot은 테스트 시 별도의 튜닝 없이 스타일 전이가 바로 가능하다는 장점을 제공합니다. 적용된 기술 요소는 다음과 같습니다.다중 레벨 패치 임베딩 : 이미지의 다양한 크기의 패치로부터 스타일 정보를 추출하여 더욱 풍부한 스타일 표현을 학습합니다.디컬러라..