일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 일론 머스크
- tts
- 가상환경
- ChatGPT
- LLM
- 오픈AI
- 확산 모델
- 멀티모달
- AI
- 우분투
- 생성형 AI
- 이미지 편집
- 딥마인드
- 메타
- 시간적 일관성
- 트랜스포머
- ubuntu
- TRANSFORMER
- 티스토리챌린지
- 서보모터
- ControlNet
- 뉴럴링크
- OpenAI
- LORA
- 인공지능
- javascript
- AI 기술
- 오블완
- PYTHON
- 아두이노
- Today
- Total
목록트랜스포머 (5)
AI 탐구노트
1. 서론사람이 어디를 보고 있는지를 추적하는 기술은 우리가 주변 세계와 상호작용하는 방식을 이해하는 데 중요한 역할을 합니다. 예를 들어, 대화 중 상대방의 시선 방향은 그들이 관심을 가지고 있는 대상을 파악하거나 의도를 추측하는 데 도움을 줍니다. 이런 기술은 특히 인간-컴퓨터 상호작용, 자율주행, 로봇 비전, 혹은 광고 효과 분석 등 다양한 분야에서 응용될 수 있습니다. 과거에는 시선 방향을 추적하기 위해 여러 종류의 데이터를 분석하고 조합하는 복잡한 시스템이 주로 사용되었습니다. 하지만 이러한 방식은 개발이 어렵고 많은 비용이 들며, 데이터가 부족한 환경에서는 정확도가 떨어지는 한계가 있었습니다. 최근에는 대규모 데이터를 바탕으로 학습된 인공지능 모델들이 여러 시각적 문제를 해결하는 데 매우 좋은..
1. 서론앞서 다른 글에서도 언급한 것처럼 현대 디지털 디자인에서 벡터 그래픽은 스케일 조정의 유연성으로 인해 광범위하게 사용됩니다. 벡터 그래픽은 크기를 조정할 때 품질 손실이 없다는 점에서 레스터 이미지보다 뛰어난 장점을 가지고 있죠. 하지만, 대부분의 인공지능 연구는 레스터 이미지 생성에 집중되어 있으며, 벡터 그래픽을 학습하거나 생성하려는 노력은 상대적으로 부족했습니다. 이러한 한계를 극복하기 위해 DeepSVG라는 새로운 접근이 제시되었습니다. DeepSVG는 SVG(Scalable Vector Graphics) 형식의 복잡한 벡터 그래픽을 생성하고 애니메이션을 지원하는 계층적 생성 네트워크입니다. 이 모델은 벡터 그래픽 데이터를 효율적으로 표현할 수 있는 계층적 구조를 활용하여 복잡한 아이콘을..
1. 서론 자동화된 필기체 이미지 생성은 글씨체가 제각각인 텍스트를 효과적으로 생성하는 기술로, 개인의 글씨체를 모방하거나, 특정 스타일로 메모를 작성하는 데 유용하며 필기체 인식 기술을 개선하거나, 텍스트 데이터를 추가적으로 수집할 수 있는 도구로 활용될 수 있습니다. 수년 전부터 스타일과 내용을 모두 고려하는 생성적 적대 신경망(GAN)이 많이 사용되고 있지만, 기존 접근법은 스타일과 내용의 긴밀한 연결을 확보하지 못하거나, 로컬 글씨체 패턴을 제대로 표현하지 못하는 문제가 있었습니다. 이에 대응하기 위해 트랜스포머 기반의 새로운 필기체 생성 기술인 HWT(Handwriting Transformers)이 제안되었습니다. HWT는 스타일-내용 얽힘(style-content entanglement)을 글..
OmniGen? OmniGen은 텍스트-이미지 생성 외에도 이미지 편집, 주제 기반 생성, 시각적 조건부 생성 등의 작업을 한 번에 처리할 수 있는 통합 이미지 생성모델입니다. 보통 이미지 생성 모델은 특정 작업만 할 수 있어서, 이미지 편집이나 텍스트를 바탕으로 그림을 그릴 때 각각 다른 모델을 사용해야 했죠. 하지만 OmniGen은 하나의 모델로 다양한 작업들을 처리할 수 있습니다. 3.8B의 매개변수를 가지는 상대적으로 작은 모델이지만 높은 성능을 보입니다. 게다가 MIT 라이선스로 공개되어 있다는 장점도 있습니다. 지원하는 기능은?OmniGen은 아래와 같이 다양한 기능을 제공합니다. 텍스트-이미지 생성 : 텍스트 설명에 따라 이미지를 생성. 주어진 텍스트 조건을 기반으로 다양한 스타일과 내..
단일 트랜스포머 모델로 텍스트, 이미지, 영상을 처리할 수 있는 모델 Emu3는 이미지, 텍스트, 비디오를 토큰화하여 단일 트랜스포머 모델로 차세대 멀티모달 생성 및 인식 작업에서 최고 성능을 달성한 모델입니다. 이전 멀티모달 모델들은 이미지나 비디오를 처리할 때 여러가지 다른 기술을 함께 사용해야 했습니다. 예로 Diffusion 모델들은 복잡한 과정이 필요했고 CLIP 같은 모델은 이미지에 대한 이해를 위해 또 다른 LLM과의 연결이 필요했습니다. 그러다보니 모델의 설계가 복잡해지고 각각의 작업에 최적화된 모듈을 별도로 만들어야 하는 불편함이 있었고 사용하기 어렵고 확장도 힘들었습니다. Emu3는 이미지, 텍스트, 비디오를 모두 토큰화하여 단일 트랜스포머를 사용한 차세대 토큰 예측을 기반으로 ..