일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- AI
- 트랜스포머
- 오픈AI
- 메타
- 일론 머스크
- 생성형 AI
- OpenAI
- 아두이노
- OpenCV
- ubuntu
- ChatGPT
- TRANSFORMER
- 실시간 렌더링
- 우분투
- 티스토리챌린지
- 휴머노이드 로봇
- 오블완
- 오픈소스
- 시간적 일관성
- LLM
- 딥러닝
- 인공지능
- 다국어 지원
- 강화 학습
- 확산 모델
- 이미지 생성
- tts
- AI 기술
- PYTHON
- LORA
- Today
- Total
목록이미지 생성 (6)
AI 탐구노트

요즘 SNS에서 '셀카를 디즈니 공주처럼 바꿔주는 필터'나 '내 얼굴로 영화 속 장면을 재현해주는 앱'들이 인기를 끌고 있습니다. 이처럼 사용자의 얼굴을 유지하면서도 다양한 스타일이나 배경으로 이미지를 바꾸는 기술을 '정체성 보존 이미지 생성(Identity-preserved Image Generation)'이라고 합니다. 하지만, 이 기술은 생각보다 쉽지 않습니다. 얼굴은 그대로인데 옷, 배경, 포즈 등은 자유롭게 바꾸려면 AI에게 꽤나 어려운 주문이기 때문이죠. 최근에는 이미지 생성 기술 중에서도 특히 '디퓨전 트랜스포머(Diffusion Transformers, DiTs)'라는 강력한 모델들이 떠오르고 있습니다. 이 모델들은 매우 정밀하고 아름다운 이미지를 만들어낼 수 있어서 예술, 디자인, 광고 ..

Replicate는 오픈 소스 머신러닝 모델을 클라우드 API를 통해 실행하고 배포할 수 있는 플랫폼입니다. 복잡한 인프라 관리나 머신러닝에 대한 깊은 이해 없이도 다양한 AI 모델을 활용할 수 있어, 개발자와 연구자들에게 큰 도움이 되죠. 이번 글에서는 Replicate에 대해 간략하게만 알아보도록 하겠습니다. Replicate? Replicate.com?홈페이지의 About에 보면 자신들을 '회사'라고 지칭하지 않고 'a bunch of hackers, engineers, researchers, and artists' 라고 표현하고 있습니다. 일종의 전문가 집단이 운영하는 플랫폼인 셈인데, 이들 구성원 전부가 코딩을 하고 운영진이 엔지니어이며 멤버들은 다 NVIDIA, Docker, Dropbox, ..

패션 산업은 AI 및 컴퓨터 비전 기술을 활용하여 소비자 경험을 혁신하고 있습니다. 특히, 온라인 쇼핑몰에서는 개인화된 상품 추천과 가상 착용 시스템을 제공하며, 고객의 구매 결정을 돕는 데 중점을 둡니다. 그러나 현재 많은 플랫폼에서 모델이 착용한 의류 사진만 제공되며, 평면(또는 타일) 형태로 전시된 의류 이미지는 거의 찾아볼 수 없습니다. 이는 사용자 경험을 개선할 수 있는 핵심 데이터의 부족을 의미합니다. 기존의 평면 의류 이미지를 얻는 방법은 시간과 비용이 많이 드는 반면, 이미지 생성 기술은 이를 자동화하여 효율성을 높일 수 있는 가능성을 제시합니다. 특히, 딥러닝 기반 모델인 GAN(생성적 적대 신경망)과 LDM(잠재 확산 모델)이 주목받고 있습니다. 이 논문에서 소개된 TryOffAnyon..

1. 가성비 있는 영상 제작도구의 필요성 이미지나 영상을 만들어 주는 생성형 AI 기술의 발전은 최근 영상 제작의 판도를 바꾸고 있습니다. 이런 생성형 AI 모델들 가운데 가장 최근에 공개되고 있는 영상 생성 모델들 일부는 텍스트 프롬프트 입력 하나로 멋진 영상을 자동으로 제작해주기도 합니다. 하지만 이런 접근에는 한계가 있습니다. 모든 요소를 인공지능이 완벽하게 처리하려면 높은 계산 비용과 많은 처리 시간이 필요하기 때문입니다. 유튜브, 틱톡, 인스타그램의 숏폼 콘텐츠는 전 세계에서 폭발적으로 성장 중입니다. 이런 흐름 속에서 영상 제작은 더 이상 전문가들만의 전유물이 아니게 되었죠. 물론 특별한 도구를 사용하지 않고 스마트폰 앱만 가지고도 훌륭한 성과를 내는 분들이 많이 있긴 합니다. 이 목적으로 ..

사전 훈련된 확산 모델의 해상도와 속도를 높이는 훈련 없는 방법 HiDiffusion은 이미지 생성 프레임워크로 확산 기반의 이미지 생성 모델을 이용해 고해상도 이미지를 생성할 때 객체가 불필요하게 중복해서 나타나거나 생성 시간이 많이 걸리는 문제를 해결하기 위해 제안되었습니다. 기능 맵 크기를 동적으로 조절해 객체 중복 문제를 해결하기 위해 RAU-Net (Resolution-Aware U-Net)을, 고해상도 블록의 self-attention에서 발생하는 높은 연산량을 줄이기 위해 MSW-MSA (Modified Shifted Window Multi-head Self-Attention) 메커니즘을 사용했다고 합니다. Text to Image, Image to Image, Image Inpaintin..

StyleShot은 다양한 스타일이 자유롭게 적용된 고품질의 이미지를 생성하는 모델입니다. 스타일을 참조할 텍스트나 이미지에서 특징을 추출하고 사용자가 입력한 텍스트 프롬프트나 이미지에 스타일을 적용해 결과 이미지를 생성하는 방식을 취하고 있습니다. Stable Diffusion을 기반으로 하고 있고 StyleGallery라는 다양한 스타일을 포함한 훈련 데이터셋으로 학습되었으며 모델 성능의 종합적 평가를 위한 StyleBench를 제공합니다. StyleShot은 테스트 시 별도의 튜닝 없이 스타일 전이가 바로 가능하다는 장점을 제공합니다. 적용된 기술 요소는 다음과 같습니다.다중 레벨 패치 임베딩 : 이미지의 다양한 크기의 패치로부터 스타일 정보를 추출하여 더욱 풍부한 스타일 표현을 학습합니다.디컬러라..