일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 생성형AI
- 오픈AI
- 티스토리챌린지
- 이미지 생성
- 오블완
- 트랜스포머
- PYTHON
- 휴머노이드 로봇
- 감정 표현
- LLM
- 우분투
- OpenAI
- 오픈소스
- Stable Diffusion
- tts
- 딥러닝
- 인공지능
- AI
- AI 기술
- ChatGPT
- 강화 학습
- 메타
- 강화학습
- XAI
- 자연어 처리
- 실시간 렌더링
- 일론 머스크
- 다국어 지원
- 멀티모달
- 확산 모델
- Today
- Total
목록이미지 생성 (9)
AI 탐구노트

최근 인공지능 기술의 발전은 이미지 생성 분야에 새로운 가능성을 열어주고 있습니다. 특히 사용자의 입력에 따라 사람 이미지를 생성하거나 옷을 갈아입히는 '가상 피팅(Virtual Try-on)' 기술은 온라인 쇼핑, 메타버스, 게임 산업 등 다양한 분야에서 큰 주목을 받고 있습니다. 이 기술은 기존에는 불가능했던 맞춤형 콘텐츠 제작을 가능하게 하며, 사용자 경험을 혁신적으로 변화시키고 있습니다. 그러나 이런 기술에도 한계가 있게 마련이죠. 기존 방식으로 생성된 이미지는 전체적으로는 훌륭해 보이지만, 가까이서 보면 옷의 무늬나 로고와 같은 디테일이 왜곡되는 문제가 있습니다. 이러한 문제를 해결하기 위해 'Leffa(Learning Flow Fields in Attention)'라는 새로운 기술이 제안되었습..

영상 컨텐츠에 텍스트 이모티콘을 대신해서 넣을 간단한 이미지를 생성하고 있습니다. 퀴즈를 푸는 동안 혹은 그 답을 확인하는 동안 힘내라며 응원하는 동물의 일러스트 이미지를 말이죠. 아무래도 그림 솜씨는 꽝이라 AI에게 시켜서 생성해 봤습니다. 오늘 글은 이런 작업을 하나가 접한 한가지 문제에 대한 시행 착오에 대한 것입니다. 1️⃣ 증상 SORA나 ChatGPT를 이용해 간단한 단색 실선으로 된 그림을 생성할 일이 있었습니다. 지시 프롬프트에는 '흰색 실선'으로 명시했지만 생성된 결과물들은 전부 선이 검정색으로 나오는 겁니다. 프롬프트를 어떻게 해야 제대로 나올지 몇 번 시도를 해 보다가, 에이... 어차피 1회성으로 한번 생성하는 것인데 하는 귀차니즘이 발동해서 프로그램으로 직접 색을 변형하기로 ..

최근 인공지능 분야에서는 텍스트 생성 모델인 GPT 시리즈처럼, 이미지를 순차적으로 생성하는 '오토레그레시브(Autoregressive)' 방식의 이미지 생성 모델이 많은 주목을 받고 있습니다. 이러한 모델들은 이미지 전체를 한 번에 생성하는 것이 아니라, 마치 그림을 한 줄 한 줄 그리듯, 이미지의 조각(패치)을 하나씩 생성해나갑니다. 이 방식은 자연스러운 결과물을 생성할 수 있다는 장점이 있지만, 생성 속도가 느리다는 단점도 함께 가지고 있습니다. 특히 대용량 이미지를 생성할 때는 수백 개의 패치를 순차적으로 예측해야 하므로 메모리 사용량이 많고, 그에 따라 생성 지연(latency)도 증가합니다. 기존에는 이를 해결하기 위해 '여러 패치를 동시에 생성하는 방식'이 제안되었지만, 이 역시 병렬화(pa..

예전 글에 FLUX.1 Kontext [dev]에 대해서 소개한 바가 있었습니다. 하지만 API로만 사용 가능했고 이를 서비스하는 플랫폼을 활용해야만 사용해 볼 수 있었습니다. 그래서, 당시 소개글은, 지금은 내용을 약간 업데이트 해 두긴 했지만 '로컬에서 사용하지 못해서...' 라는 찐한 아쉬움이 남아 있었습니다. FLUX.1 Kontext - 멀티모달, 맥락 기반 부분 편집, 캐릭터 일관성을 지원하는 만능 이미지 생성/편집🔍 FLUX.1 Kontext란? FLUX.1 Kontext는 독일의 AI 연구소인 Black Forest Labs에서 개발한 첨단 멀티모달 이미지 생성 및 편집 모델입니다. 이 모델은 텍스트와 이미지를 동시에 입력받아 문맥에 맞는 시각적42morrow.tistory.com 그랬..

우리는 일상 속에서 다양한 감각을 이용해 세상을 이해합니다. 시각, 청각, 언어 등 서로 다른 정보를 조합해 더 깊이 있는 판단을 내리죠. 인공지능도 이러한 능력을 갖추기 위해 ‘멀티모달 학습’을 연구하고 있습니다. 이는 텍스트, 이미지, 영상 등 여러 종류의 데이터를 통합해 이해하고 생성하는 기술을 말합니다. 최근에는 이러한 능력을 하나의 모델 안에서 통합하려는 시도가 활발해지고 있습니다. 하지만 대부분의 연구는 이미지-텍스트 쌍(pair) 중심으로 구성된 제한된 데이터에만 의존해왔습니다. 이에 따라 학계에서 공개된 모델들은 구글의 Gemini나 OpenAI의 GPT-4o 같은 상용 시스템과는 성능 차이를 보였습니다. 이 간극을 좁히기 위해 텍스트, 이미지, 영상, 웹 정보가 혼합된 ‘인터리브드(int..

요즘 SNS에서 '셀카를 디즈니 공주처럼 바꿔주는 필터'나 '내 얼굴로 영화 속 장면을 재현해주는 앱'들이 인기를 끌고 있습니다. 이처럼 사용자의 얼굴을 유지하면서도 다양한 스타일이나 배경으로 이미지를 바꾸는 기술을 '정체성 보존 이미지 생성(Identity-preserved Image Generation)'이라고 합니다. 하지만, 이 기술은 생각보다 쉽지 않습니다. 얼굴은 그대로인데 옷, 배경, 포즈 등은 자유롭게 바꾸려면 AI에게 꽤나 어려운 주문이기 때문이죠. 최근에는 이미지 생성 기술 중에서도 특히 '디퓨전 트랜스포머(Diffusion Transformers, DiTs)'라는 강력한 모델들이 떠오르고 있습니다. 이 모델들은 매우 정밀하고 아름다운 이미지를 만들어낼 수 있어서 예술, 디자인, 광고 ..

Replicate는 오픈 소스 머신러닝 모델을 클라우드 API를 통해 실행하고 배포할 수 있는 플랫폼입니다. 복잡한 인프라 관리나 머신러닝에 대한 깊은 이해 없이도 다양한 AI 모델을 활용할 수 있어, 개발자와 연구자들에게 큰 도움이 되죠. 이번 글에서는 Replicate에 대해 간략하게만 알아보도록 하겠습니다. Replicate? Replicate.com?홈페이지의 About에 보면 자신들을 '회사'라고 지칭하지 않고 'a bunch of hackers, engineers, researchers, and artists' 라고 표현하고 있습니다. 일종의 전문가 집단이 운영하는 플랫폼인 셈인데, 이들 구성원 전부가 코딩을 하고 운영진이 엔지니어이며 멤버들은 다 NVIDIA, Docker, Dropbox, ..

패션 산업은 AI 및 컴퓨터 비전 기술을 활용하여 소비자 경험을 혁신하고 있습니다. 특히, 온라인 쇼핑몰에서는 개인화된 상품 추천과 가상 착용 시스템을 제공하며, 고객의 구매 결정을 돕는 데 중점을 둡니다. 그러나 현재 많은 플랫폼에서 모델이 착용한 의류 사진만 제공되며, 평면(또는 타일) 형태로 전시된 의류 이미지는 거의 찾아볼 수 없습니다. 이는 사용자 경험을 개선할 수 있는 핵심 데이터의 부족을 의미합니다. 기존의 평면 의류 이미지를 얻는 방법은 시간과 비용이 많이 드는 반면, 이미지 생성 기술은 이를 자동화하여 효율성을 높일 수 있는 가능성을 제시합니다. 특히, 딥러닝 기반 모델인 GAN(생성적 적대 신경망)과 LDM(잠재 확산 모델)이 주목받고 있습니다. 이 논문에서 소개된 TryOffAnyon..

1. 가성비 있는 영상 제작도구의 필요성 이미지나 영상을 만들어 주는 생성형 AI 기술의 발전은 최근 영상 제작의 판도를 바꾸고 있습니다. 이런 생성형 AI 모델들 가운데 가장 최근에 공개되고 있는 영상 생성 모델들 일부는 텍스트 프롬프트 입력 하나로 멋진 영상을 자동으로 제작해주기도 합니다. 하지만 이런 접근에는 한계가 있습니다. 모든 요소를 인공지능이 완벽하게 처리하려면 높은 계산 비용과 많은 처리 시간이 필요하기 때문입니다. 유튜브, 틱톡, 인스타그램의 숏폼 콘텐츠는 전 세계에서 폭발적으로 성장 중입니다. 이런 흐름 속에서 영상 제작은 더 이상 전문가들만의 전유물이 아니게 되었죠. 물론 특별한 도구를 사용하지 않고 스마트폰 앱만 가지고도 훌륭한 성과를 내는 분들이 많이 있긴 합니다. 이 목적으로 ..