일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 오픈AI
- PYTHON
- AI
- TRANSFORMER
- 인공지능
- 우분투
- 생성형 AI
- 멀티모달
- 트랜스포머
- OpenAI
- 일론 머스크
- ChatGPT
- 시간적 일관성
- LLM
- 확산 모델
- 뉴럴링크
- 이미지 편집
- 서보모터
- ubuntu
- ControlNet
- 가상환경
- 메타
- 오블완
- 딥마인드
- javascript
- 티스토리챌린지
- AI 기술
- tts
- LORA
- 아두이노
- Today
- Total
목록2024/08 (123)
AI 탐구노트
최소한의 인물 사진으로 나만의 디지털 트윈을 만들고 원하는 설정을 적용한 개인 사진을 생성할 수 있는 툴 체인 FaceChain은 최소 1장 (최대 3장)의 인물사진으로 나만의 디지털 트윈을 만들고 다양한 설정을 적용한 개인 인물사진을 생성할 수 있도록 해 주는 툴 체인입니다. 네이버나 카카오에서 프로필 사진을 생성하는 유료 서비스를 제공하고 있는데 이와 유사한 역할을 한다고 생각하면 될 것 같습니다. 이 툴 체인의 아키텍처를 보면 아시겠지만, 사용되는 모델들이 상당히 많으며 복잡한 처리 과정을 거칩니다. 모델로는 DamoFD (얼굴인식), 이미지 회전모델, M2FP (인간구문 분석모델), ABPN (피부 리터칭 모델), FairFace (얼굴 속성 인식모델), DeepDanbooru 모델, FQA(얼..
단일 뷰 얼굴 이미지에서 머리 전체의 3D 텍스처 모델을 생성하는 기술 PanoHead는 360° 모든 각도에서 일관된 고품질 3D 머리 이미지를 생성하는 최초의 3D GAN 모델입니다. 중국 바이트댄스와 위스콘신대 연구진이 공동으로 발표했죠. 기존의 GAN 방식은 높은 품질의 이미지 합성이 가능했지만 2D에 국한되어 서로 다른 방향에서 보는 장면을 합성하는데는 일관성이 제대로 보장되기 어려운 문제가 있었습니다. 그리고, 3D 모델을 만들기 위해서는 3D 스캔이나 별도의 렌더링 기술 적용 등의 추가적인 작업들이 필요했고 새로 등장한 모델들 또한 주로 정면에 가까운 시점만 제대로 지원이 되는 제약이 있었습니다. PanoHead는 이런 문제점들을 아래와 같은 기법을 이용해서 해결하고 있습니다. 트라이-그..
다양한 크기의 물체를 효과적으로 감지하기 위해 이미지를 슬라이스로 나누어 처리한 후 합치는 기법 객체감지 모델을 통해 작은 물체를 감지하는 것은 주로 항공, 드론, 위성 사진 등에서 찍힌 물체를 감지하는 경우에 많이 활용되며 경우에 따라서는 도로 상의 CCTV에서 원거리에 있는 물체를 판별할 때도 해당됩니다. 극히 작은 물체의 경우, 그 자체로도 감지가 쉽지 않은데 그보다 더 어려운 것은 큰 객체와 극히 작은 객체처럼 한 이미지 상에 다양한 스케일의 객체가 포함되어 있는 경우입니다. 학습할 때 이에 대한 고려가 충분히 되고 많은 데이터가 필요한 경우가 되는 것이죠. SAHI는 이미지에서 작은 물체를 감지하는데 도움이 되는 컴퓨터 비전 모델의 추론 기술입니다. 입력된 이미지에 대해 한번에 객체감지를 수행..
비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델 EAGLE은 다양한 비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델입니다.기존의 멀티모달 모델들은 주로 낮은 해상도 이미지 처리에 한정되었으며, 시각 인코더 선택 및 결합 전략에 대한 체계적인 비교와 세부적인 연구가 부족했고 이는 결과적으로 OCR 및 문서 분석과 같이 해상도가 민감한 작업에서 성능 저하를 초래했습니다. EAGLE은 여러 비전 인코더의 조합과 고해상도 적응을 통해 이러한 문제를 해결하고자 합니다. 특히, 각 인코더의 시각적 토큰을 단순히 결합하는 방식이 복잡한 혼합 아키텍처만큼 효과적이며, 비전 인코더와 언어 토큰 간의 사전 정렬(Pre-Alignm..
영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법 영상분석에서 많이 사용되는 방식으로 분류, 감지, 분할, 트래킹 등등이 있는데 이 가운데 분할(segmentation)은 학습데이터를 만드는데 객체감지(detection)의 경우에 비해 많은 시간과 비용이 듭니다. 데이터 가공을 할 때 이미지마다 대상이 되는 객체의 윤곽을 따라 적게는 십수개에서 많게는 수백개의 점을 가지는 폴리곤 라벨링 작업을 해야 하기 때문이죠. 비디오 영상이 수많은 프레임을 가지고 있다는 것을 생각하면 흠... 결코 쉽고 짧은 작업은 아닙니다. 정리해보면 비디오 분할 작업을 위해 각 작업마다 비디오 데이터를 사용하여 훈련하는 것은 데이터 주석 비용이 높아 새로운 작업으로의 확장이 어렵다..
객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법 InterTrack는 객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법입니다. 기존의 비디오 기반 추적 방법은 사전에 정의된 객체 템플릿이 필요하며, 단일 이미지 기반 방법은 템플릿이 필요 없지만 시간적 일관성이 부족했고, 가려짐(occlusion)과 역동적인 움직임이 있는 상황에서 일관된 추적을 제공하기 힘들었습니다. InterTrack는 4D 추적 문제를 프레임별 포즈 추정과 정규화된 형태 최적화로 분해하여 템플릿 없이 인간과 객체의 상호작용을 추적합니다. 이를 위해 프레임마다 3D 인간과 객체의 포인트 클라우드를 생성하고, 시간적 일관성을 유지하기 위해 자동 인코더(CorrAE)와 영상 기반 ..
텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델 CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다. CogVideoX 모델은 다음과 같은 특징을 갖고 ..
생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술 생성AI 모델을 이용해서 주어진 prompt나 입력 이미지에서 영상을 만들어내는 모델들이 속속 소개되고 있습니다. 이미지 생성에서 이제는 비디오 영상 생성으로 발전하고 있죠. 하지만 대부분 생성되는 비디오 영상은 각 프레임 별로 이전과 이후 간의 일관성이 보존되지 않는 경우가 많고 결과적으로 중간중간 튀어 버리거나 전혀 시간이 지나면서 점점 이전과는 전혀 다른 영상으로 바뀌게 되죠. TokenFlow는 이렇게 생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술입니다. 즉, 입력 영상을 기반으로 주어진 텍스트 프롬프트를 적용해서 비디오 영상이 만들어질 때, 그 전의 다른 모델들 대비해서 훨씬 자연스런 영상을 얻을 수..
비디오 영상에서 Inpainting 기능을 제공하는 프레임워크 이미지나 영상을 편집할 때 특정한 객체나 워터마크 같은 것을 선택적으로 지워야 할 때가 있습니다. 이럴 때 사용하는 것이 Inpating 기술이죠. ProPainter는 비디오 영상에서 Inpainting 기능을 제공하는 프레임워크입니다. 프로젝트 페이지에서 공개된 기능으로는 다음과 같은 기능이 제공됩니다.Object Removal: 비디오 영상에서 특정 객체를 제거Watermark Removal: 비디오 영상에서 워터마크를 제거Video Completion: 마스크 처리된 영상을 완성(복원)Video Outpainting: 비디오 영상의 영역을 확장이 모델은 recurrent flow completion, dual-domain propaga..
음악을 입력 받아 피아노 연주용으로 편곡된 midi 파일 생성 모델 Pop2Piano(Pop Audio-based Piano Cover Generation)는 팝음악을 입력으로 받아 피아노 연주용으로 편곡된 midi 파일을 자동으로 생성해 주는 모델입니다. 대량의 '팝음악-피아노 커버음악' 쌍 데이터셋을 만들고 이를 Transformer 기반 네트워크를 가진 모델로 학습했다고 합니다. 국내 연구자(최종호님, 이교구님)께서 논문으로 발표하셨고 코드까지 제공되고 있어 누구나 손쉽게 테스트 해 볼 수 있습니다. 대략적인 처리 흐름은 '입력오디오→파형변환→인코더 전달→Latent Representation 변환→Auto Regression방식으로 Token ID생성→MIDI 파일로 디코딩' 입니다. (아래 ..