일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 딥마인드
- 이미지 편집
- 우분투
- ControlNet
- 티스토리챌린지
- PYTHON
- LLM
- javascript
- 뉴럴링크
- 시간적 일관성
- 가상환경
- 아두이노
- tts
- 오블완
- 서보모터
- ChatGPT
- ubuntu
- AI 기술
- 멀티모달
- AI
- 인공지능
- 생성형 AI
- 확산 모델
- TRANSFORMER
- OpenAI
- LORA
- 트랜스포머
- 메타
- 일론 머스크
- 오픈AI
- Today
- Total
목록2024/08/29 (7)
AI 탐구노트
텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델 CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다. CogVideoX 모델은 다음과 같은 특징을 갖고 ..
생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술 생성AI 모델을 이용해서 주어진 prompt나 입력 이미지에서 영상을 만들어내는 모델들이 속속 소개되고 있습니다. 이미지 생성에서 이제는 비디오 영상 생성으로 발전하고 있죠. 하지만 대부분 생성되는 비디오 영상은 각 프레임 별로 이전과 이후 간의 일관성이 보존되지 않는 경우가 많고 결과적으로 중간중간 튀어 버리거나 전혀 시간이 지나면서 점점 이전과는 전혀 다른 영상으로 바뀌게 되죠. TokenFlow는 이렇게 생성AI를 이용한 영상 편집에서의 시간적인 일관성 문제를 해결하는 기술입니다. 즉, 입력 영상을 기반으로 주어진 텍스트 프롬프트를 적용해서 비디오 영상이 만들어질 때, 그 전의 다른 모델들 대비해서 훨씬 자연스런 영상을 얻을 수..
비디오 영상에서 Inpainting 기능을 제공하는 프레임워크 이미지나 영상을 편집할 때 특정한 객체나 워터마크 같은 것을 선택적으로 지워야 할 때가 있습니다. 이럴 때 사용하는 것이 Inpating 기술이죠. ProPainter는 비디오 영상에서 Inpainting 기능을 제공하는 프레임워크입니다. 프로젝트 페이지에서 공개된 기능으로는 다음과 같은 기능이 제공됩니다.Object Removal: 비디오 영상에서 특정 객체를 제거Watermark Removal: 비디오 영상에서 워터마크를 제거Video Completion: 마스크 처리된 영상을 완성(복원)Video Outpainting: 비디오 영상의 영역을 확장이 모델은 recurrent flow completion, dual-domain propaga..
음악을 입력 받아 피아노 연주용으로 편곡된 midi 파일 생성 모델 Pop2Piano(Pop Audio-based Piano Cover Generation)는 팝음악을 입력으로 받아 피아노 연주용으로 편곡된 midi 파일을 자동으로 생성해 주는 모델입니다. 대량의 '팝음악-피아노 커버음악' 쌍 데이터셋을 만들고 이를 Transformer 기반 네트워크를 가진 모델로 학습했다고 합니다. 국내 연구자(최종호님, 이교구님)께서 논문으로 발표하셨고 코드까지 제공되고 있어 누구나 손쉽게 테스트 해 볼 수 있습니다. 대략적인 처리 흐름은 '입력오디오→파형변환→인코더 전달→Latent Representation 변환→Auto Regression방식으로 Token ID생성→MIDI 파일로 디코딩' 입니다. (아래 ..
저사양 로컬 장비에서 구동가능한 소형 언어모델 (SLM) TinyLlama는 StatNLP 연구 그룹과 싱가포르 기술 디자인 대학이 함께 개발한 11억 개의 매개변수로 작동하는 소형 언어모델(SLM)입니다. 아시는 바와 같이 LLM(Large Language Model)은 수많은 매개변수를 가지고 있으며 대부분은 수천억~수조개 수준의 대규모의 토큰을 가진 데이터셋으로 학습시키고 있습니다. Llama 모델을 공개한 Meta의 경우, 사전학습된 모델만 공개할 뿐 이를 학습시키기 위해 사용한 데이터셋 자체는 공개하고 있지 않습니다. 다들 이를 기반모델(base model)로 해서 각자의 용도에 맞춰 파인튜닝을 하는 방식으로 활용하고 있죠. TinyLlama는 3조개의 토큰 데이터로 학습되었고 11억개의 매..
제이엘케이, AI 뇌혈관 솔루션 공급 계약 체결…검진센터의 진단 능력 강화 기대제이엘케이(JLK)가 하트스캔 검진센터와 인공지능(AI) 기반 뇌혈관 질환 진단 솔루션 공급 계약을 체결했으며, 하트스캔 검진센터는 JLK의 JLK-UIA와 JLK-SVD 패키지를 포함한 4가지 뇌질환 솔루션을 검진 및 진료에 도입하게 된다고 합니다. (뉴시스) SK쉴더스, 클라우드와 AI로 보안 시장 확대SK쉴더스는 클라우드와 인공지능(AI) 기술을 새로운 수익 창출의 핵심으로 삼고, 이를 통해 기존 보안 솔루션의 고도화와 매출 증대를 꾀하고 있는데, 클라우드 보안 강화와 MSP와의 협력, 그리고 AI 카메라 기반 침입탐지 등을 이용한 보안 솔루션 고도화 등을 통해 새로운 수익 창출 기회를 모색 중입니다. (머니투데이) ..
실시간 상호작용하며 시뮬레이션 가능한 신경망 기반의 게임 엔진 GameNGen은 구글에서 공개한 신경망 기반의 게임 엔진으로, 복잡한 환경을 실시간으로 상호작용하며 시뮬레이션할 수 있는 최초의 모델입니다. 기존의 게임 엔진은 수작업으로 작성된 규칙과 로직에 따라 상태를 업데이트하고 렌더링하기 때문에 확장성과 자동화가 제한적입니다. 또한, 기존의 신경망 기반 시뮬레이션은 시뮬레이션 속도나 안정성, 또는 시각적 품질이 낮다는 한계가 있었습니다. GameNGen은 강화 학습 에이전트를 통해 수집된 데이터를 바탕으로 확장된 Stable Diffusion 모델을 학습하여 실시간 상호작용이 가능한 게임 시뮬레이션을 구현했습니다. 이 모델은 행동과 이전 프레임들을 조건으로 다음 프레임을 예측하며, 노이즈 증강을 통..