일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 시간적 일관성
- ChatGPT
- AI
- 우분투
- TRANSFORMER
- 이미지 편집
- 메타
- 인공지능
- 오블완
- 트랜스포머
- 뉴럴링크
- 서보모터
- 아두이노
- 티스토리챌린지
- OpenAI
- PYTHON
- AI 기술
- 오픈AI
- ControlNet
- ubuntu
- 생성형 AI
- 딥마인드
- 멀티모달
- 확산 모델
- javascript
- 가상환경
- 일론 머스크
- LORA
- LLM
- tts
- Today
- Total
목록TRANSFORMER (6)
AI 탐구노트
1. 서론 얼굴 검출은 이미지를 분석하여 사람의 얼굴을 정확히 식별하고 그 위치를 파악하는 기술로, 컴퓨터 비전 분야에서 중요한 역할을 담당합니다. 이는 얼굴 인식, 감정 분석, 사용자 인증 등 다양한 응용 분야에 필수적인 기초 기술로 자리 잡았습니다. 최근까지 CNN(Convolutional Neural Networks)은 지역적 특징을 효과적으로 학습하는 특성을 통해 높은 성능을 발휘하며 얼굴 검출에서 주요 기술로 사용되어 왔습니다. 그러나 CNN 기반 모델은 고정된 크기의 수용 영역(receptive field)으로 인해 가려짐, 흐림, 다양한 얼굴 각도와 같은 복잡한 조건에서 한계를 드러냅니다. Transformer 모델은 전역적 관계를 학습하는 데 뛰어난 성능을 보이며 NLP를 넘어 컴퓨터 비전..
1. 서론음악 제작에서 드럼 비트는 중요한 역할을 하며, 그 복잡성은 상당합니다. 드럼 비트를 생성하는 과정은 일반적으로 고도의 기술과 시간이 요구됩니다. 이 과정에서 비전문가와 전문가 모두에게 유용한 새로운 도구가 등장하고 있습니다. 최근 인공지능은 드럼 비트 생성에서 중요한 역할을 하고 있으며, 특히 제스처 기반의 리듬 표현을 활용해 이를 자동으로 변환하는 기술이 주목받고 있습니다. 본 글에서는 TRIA(The Rhythm In Anything)라는 시스템을 소개합니다. TRIA는 다양한 비드럼 음원을 드럼 비트로 변환하는 혁신적인 방법을 제시하며, 이를 통해 사용자는 리듬과 소닉 팔레트(*)를 간단히 제공하여 고품질의 드럼 비트를 생성할 수 있습니다. 이 기술은 음악 제작 과정을 단순화하며, 창의적..
비디오 영상에서 Inpainting 기능을 제공하는 프레임워크 이미지나 영상을 편집할 때 특정한 객체나 워터마크 같은 것을 선택적으로 지워야 할 때가 있습니다. 이럴 때 사용하는 것이 Inpating 기술이죠. ProPainter는 비디오 영상에서 Inpainting 기능을 제공하는 프레임워크입니다. 프로젝트 페이지에서 공개된 기능으로는 다음과 같은 기능이 제공됩니다.Object Removal: 비디오 영상에서 특정 객체를 제거Watermark Removal: 비디오 영상에서 워터마크를 제거Video Completion: 마스크 처리된 영상을 완성(복원)Video Outpainting: 비디오 영상의 영역을 확장이 모델은 recurrent flow completion, dual-domain propaga..
음악을 입력 받아 피아노 연주용으로 편곡된 midi 파일 생성 모델 Pop2Piano(Pop Audio-based Piano Cover Generation)는 팝음악을 입력으로 받아 피아노 연주용으로 편곡된 midi 파일을 자동으로 생성해 주는 모델입니다. 대량의 '팝음악-피아노 커버음악' 쌍 데이터셋을 만들고 이를 Transformer 기반 네트워크를 가진 모델로 학습했다고 합니다. 국내 연구자(최종호님, 이교구님)께서 논문으로 발표하셨고 코드까지 제공되고 있어 누구나 손쉽게 테스트 해 볼 수 있습니다. 대략적인 처리 흐름은 '입력오디오→파형변환→인코더 전달→Latent Representation 변환→Auto Regression방식으로 Token ID생성→MIDI 파일로 디코딩' 입니다. (아래 ..
마이크로소프트에서 공개한 경량 LLM 모델 Phi-1.5는 Microsoft가 발표한 공개 LLM 모델입니다. 13억개의 매개변수를 가진 상대적으로 덩치가 작은 sLLM 쪽에 가깝습니다. Microsoft에서는 소규모 Transformer 기반 언어모델의 성능에 대한 연구가 계속 진행해왔으며 그 결과 Phi-1 이후 Phi-1.5까지 이르게 되었고 13B로 70B의 매개변수를 가지는 Llama2 모델의 성능과 유사한 결과를 낸다고 하네요. 이 모델은 사회적 편견 이해, 독성 감소 등을 목적으로 하고 있기에 학습에 사용한 데이터 자체에 먼저 집중했습니다. '교과서 품질'의 데이터셋을 구성하기 위해 웹에서 크롤링한 데이터를 배제했습니다. 그리고 기존 LLM을 활용하는 방식으로 접근했으며 인간 피드백을 통한 ..
TAPTR(Tracking Any Point with TRansformer)은 비디오의 모든 점을 트랜스포머를 사용하여 효율적으로 추적하는 프레임워크입니다. 기존의 Optical Flow 추정 방식은 두 연속된 프레임 간의 상관 관계를 추적할 수 있도록 했지만, 장기적인 시간 정보를 처리하지 못해 추적 대상이 가려지거나 하는 경우에 이를 제대로 처리하지 못하는 문제가 있었습니다. 뿐만 아니라, 기존 방법들은 서로 다른 프레임의 추적 점들의 정보가 서로 교환되지 않기 때문에 같은 객체에 속한 점들 간에도 상관관계가 무시되는 한계가 있었습니다. TAPTR은 이런 문제를 DETR(Detection Transformer) 모델에서 영감을 받아, 각 비디오 프레임의 각 추적점을 포지션과 콘텐츠로 나눠 쿼리로 표..