일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 메타
- PYTHON
- javascript
- 서보모터
- 일론 머스크
- AI
- 뉴럴링크
- 오픈AI
- 시간적 일관성
- 가상환경
- 인공지능
- ubuntu
- LLM
- tts
- OpenAI
- 멀티모달
- 확산 모델
- 티스토리챌린지
- 트랜스포머
- 아두이노
- 딥마인드
- ControlNet
- 오블완
- 우분투
- AI 기술
- ChatGPT
- TRANSFORMER
- 이미지 편집
- LORA
- 생성형 AI
- Today
- Total
목록AI 기술 (173)
AI 탐구노트
1. 서론우리가 흔히 보는 영화나 게임에서는 멋진 3D 그래픽과 애니메이션이 사용됩니다. 이 중, 볼류메트릭 비디오(Volumetric Video)라는 기술은 사람이나 사물을 여러 카메라로 촬영한 후, 이를 3D로 재구성해 사용자가 자유롭게 시점을 바꿀 수 있게 합니다. 예를 들어, 게임 캐릭터가 춤을 출 때, 옆에서 보다가 뒤에서 볼 수도 있는 기술입니다. 이 기술은 가상현실(VR), 증강현실(AR)이나 실시간 화상회의에서 매우 유용합니다. 그런데, 이 기술에는 몇 가지 제약사항이 존재합니다. 예를 들어 긴 영상(예: 5분 이상)을 만들려고 하면, 컴퓨터가 처리해야 할 데이터가 너무 많아서 그래픽카드(GPU)가 감당하기 어렵고, 파일도 너무 커져 저장하기도 힘듭니다. 게다가 영상이 길어질수록 처리 속도..
1. 서론사람이 어디를 보고 있는지를 추적하는 기술은 우리가 주변 세계와 상호작용하는 방식을 이해하는 데 중요한 역할을 합니다. 예를 들어, 대화 중 상대방의 시선 방향은 그들이 관심을 가지고 있는 대상을 파악하거나 의도를 추측하는 데 도움을 줍니다. 이런 기술은 특히 인간-컴퓨터 상호작용, 자율주행, 로봇 비전, 혹은 광고 효과 분석 등 다양한 분야에서 응용될 수 있습니다. 과거에는 시선 방향을 추적하기 위해 여러 종류의 데이터를 분석하고 조합하는 복잡한 시스템이 주로 사용되었습니다. 하지만 이러한 방식은 개발이 어렵고 많은 비용이 들며, 데이터가 부족한 환경에서는 정확도가 떨어지는 한계가 있었습니다. 최근에는 대규모 데이터를 바탕으로 학습된 인공지능 모델들이 여러 시각적 문제를 해결하는 데 매우 좋은..
1. 서론앞서 다른 글에서도 언급한 것처럼 현대 디지털 디자인에서 벡터 그래픽은 스케일 조정의 유연성으로 인해 광범위하게 사용됩니다. 벡터 그래픽은 크기를 조정할 때 품질 손실이 없다는 점에서 레스터 이미지보다 뛰어난 장점을 가지고 있죠. 하지만, 대부분의 인공지능 연구는 레스터 이미지 생성에 집중되어 있으며, 벡터 그래픽을 학습하거나 생성하려는 노력은 상대적으로 부족했습니다. 이러한 한계를 극복하기 위해 DeepSVG라는 새로운 접근이 제시되었습니다. DeepSVG는 SVG(Scalable Vector Graphics) 형식의 복잡한 벡터 그래픽을 생성하고 애니메이션을 지원하는 계층적 생성 네트워크입니다. 이 모델은 벡터 그래픽 데이터를 효율적으로 표현할 수 있는 계층적 구조를 활용하여 복잡한 아이콘을..
1. 서론 그래픽 디자인에서 벡터 이미지는 이미지의 해상도에 구애받지 않고 렌더링 가능하다는 특징을 가지고 있습니다. 선화(Sketch) 이미지가 벡터화 되면 공학 설계나 2D 애니메이션, 3D 프린팅 등 다양한 산업에서 폭넓게 활용될 수 있습니다. 하지만 스케치를 수작업으로 벡터화하는 것은 많은 시간과 노력이 소요되며, 복잡한 선화를 간소화하거나 사진에서 선화를 생성하는 작업은 더욱 까다롭습니다. 최근 머신러닝 기술은 복잡한 이미지 처리와 변환 작업에서 두각을 나타내고 있습니다. 그러나 기존의 벡터화 알고리즘은 주로 고정 해상도를 처리하거나 픽셀 기반으로 작동하며, 다소 제한적인 범용성을 갖고 있었습니다. 이러한 한계를 극복하기 위해 다양한 해상도의 입력 이미지를 처리하고 벡터화를 수행할 수 있는 범용..
1. 서론벡터 그래픽스는 우리가 사용하는 폰트, 로고, 그림 등에서 자주 사용됩니다. 픽셀로 이루어진 이미지와 달리 무한히 확대해도 깨지지 않고 파일 크기도 작아 다루기 쉽습니다. 하지만 이런 벡터 그래픽스를 만들려면 전문적인 기술이 필요하거나, 벡터 데이터를 학습하는 복잡한 인공지능 모델이 필요합니다. 게다가 벡터 데이터셋은 구하기도 쉽지 않죠. 이를 해결하기 위해 논문에서는 벡터 데이터 없이도 이미지 데이터를 사용해 벡터 그래픽스를 만드는 새로운 방법인 Im2Vec을 제안했는데 이 방법은 일반 이미지(레스터) 데이터를 학습하고, 이를 통해 벡터 형태의 그림을 생성할 수 있는 기술입니다. 2. 본론2.1 기존 방식의 문제점기존에는 벡터 그래픽스를 만들기 위해 벡터 데이터를 학습시켜야 했습니다. 예를 ..
1. 서론 자동화된 필기체 이미지 생성은 글씨체가 제각각인 텍스트를 효과적으로 생성하는 기술로, 개인의 글씨체를 모방하거나, 특정 스타일로 메모를 작성하는 데 유용하며 필기체 인식 기술을 개선하거나, 텍스트 데이터를 추가적으로 수집할 수 있는 도구로 활용될 수 있습니다. 수년 전부터 스타일과 내용을 모두 고려하는 생성적 적대 신경망(GAN)이 많이 사용되고 있지만, 기존 접근법은 스타일과 내용의 긴밀한 연결을 확보하지 못하거나, 로컬 글씨체 패턴을 제대로 표현하지 못하는 문제가 있었습니다. 이에 대응하기 위해 트랜스포머 기반의 새로운 필기체 생성 기술인 HWT(Handwriting Transformers)이 제안되었습니다. HWT는 스타일-내용 얽힘(style-content entanglement)을 글..
1.손글씨 서명 (Signature) 개인의 사인(서명: Signature)은 단순히 이름을 적는 행위 이상의 의미를 지닙니다. 개인의 정체성과 신뢰를 상징하며, 중요한 문서나 계약서에 남기는 마지막 터치로 기능합니다. 서명이 간결하고 아름다워야 하는 이유는 여기서 시작됩니다.첫인상을 결정짓는 요소사인은 시각적인 메시지입니다. 비즈니스 계약, 예술 작품, 또는 중요한 문서에서 사인은 일종의 첫인상 역할을 합니다. 깔끔하고 조화로운 사인은 상대방에게 신뢰감을 주고, 반대로 복잡하고 무질서한 사인은 불필요한 의구심을 유발할 수 있습니다.개성을 드러내는 중요한 방법사인은 사람마다 고유하며, 디자인을 통해 자신의 개성과 감각을 표현할 수 있습니다. 유명 인사들의 서명이 종종 독특한 이유도 여기에 있습니다. 예를..
1. 서론수어는 청각 장애인과 비장애인 간의 소통을 가능하게 하는 중요한 시각적 언어입니다. 수어 데이터를 연구하려면 영상에서 사람의 손, 팔, 얼굴 같은 움직임을 정확히 분석해야 하지만 이 과정은 복잡하고 시간이 많이 걸립니다. 게다가, 연구에 사용할 수 있는 수어 데이터의 양도 적어서 새로운 기술을 개발하거나 테스트하는 데 한계가 있죠. 그리고 대부분의 연구가, 독일 수어(GSL)나 미국 수어(ASL) 같은 특정 언어에 제한된 데이터셋을 주로 사용하며, 데이터의 비표준성과 수작업 주석의 비효율성으로 인해 확장이 어려웠습니다. Prompt2Sign은 기존의 수어 데이터셋 문제를 해결하기 위해 영상 데이터를 표준화하고 자동화된 주석 생성 도구를 통해 8개 언어의 수어 데이터를 제공하는 첫 다국어 데이터..
1. 서론디지털 애니메이션 기술은 예술가와 개발자 모두에게 더 많은 창의적 자유를 제공하면서 발전을 거듭해왔습니다. 그 중에서도, 간단한 손그림이나 스케치를 활용한 애니메이션은 그 직관성과 유연성 덕분에 주목받고 있습니다. 달리 말해 심플한 이미지 때문에 전달하는 메시지가 간결하고 보기도 편하다는 말이죠. 잘 아시다시피 기존 애니메이션 제작 과정은 여전히 많은 시간과 전문성을 요구합니다. 전통적인 기법에서는 애니메이션의 주요 장면을 그린 후, 중간 프레임을 일일이 제작해야 하며, 이를 자동화하는 기존 솔루션들 또한 복잡한 제약 조건이 따랐습니다. 예전에 지브리 스튜디오에서 제작하는 과정을 다큐 영상으로 본 적이 있었는데, 이탈리아 명품 장인과는 결이 좀 다르겠지만 '한땀한땀' 이라는 말이 딱 어울리는 장..
1.OuteTTS란?OuteTTS는 다국어를 지원하는 텍스트-음성변환(TTS) 모델입니다. 현재 v0.2 버전이 출시되었는데 v0.1이 소개된 지 채 2주 정도 밖에 지나지 않은 것 같은데 발전 속도가 상당히 빠른 편입니다. 제일 주목되는 부분은 음성복제, 다국어지원, 엣지 지원 정도가 될 것 같네요. 2.OuteTTS v0.2 - 500M이번에 새롭게 공개된 QuteTTS 버전으로 세부 특징은 다음과 같습니다. 다국어 지원 : 영어, 중국어, 한국어 및 일본어llama.cpp를 사용한 크로스 플랫폼 추론제로샷 음성 복제향상된 정확도 : 광범위한 데이터셋 학습을 통해 자연스러운 음성 합성개선된 음성 복제 기능확장된 어휘 : 50억 개의 오디오 토큰으로 훈련됨Qwen 2.5 0.5B LLM 백본적은 리소..