일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 아두이노
- OpenAI
- PYTHON
- TRANSFORMER
- 이미지 생성
- 확산 모델
- 일론 머스크
- 생성형 AI
- 멀티모달
- 강화 학습
- LORA
- 티스토리챌린지
- 트랜스포머
- 다국어 지원
- 우분투
- 휴머노이드 로봇
- OpenCV
- LLM
- 인공지능
- 오픈소스
- tts
- 오픈AI
- ChatGPT
- AI 기술
- 실시간 렌더링
- 메타
- 오블완
- 딥러닝
- AI
- 시간적 일관성
- Today
- Total
목록Stable Diffusion (5)
AI 탐구노트

1. 서론조명은 인물 사진에서 분위기와 느낌을 만드는 데 핵심적인 역할을 합니다. 하지만 사진을 찍고 나서 조명을 바꾸는 건 여전히 어렵습니다. 최근에는 인공지능 기술을 활용해 사진 속 조명을 조절하려는 시도가 많아졌지만, 대부분 고가의 장비나 특별히 라벨링된 데이터를 필요로 한다는 제약이 있습니다. 이에 비해, 3D 모델링 기술은 영화나 게임처럼 가상 환경에서 조명을 바꾸는 데 오래전부터 사용되어 왔습니다. 이 3D 기술에서 영감을 받아, SynthLight라는 새로운 기술이 개발되었는데, 이 기술은 3D 데이터를 학습해 사진 속 조명을 실감 나게 변경할 수 있습니다. 특히, 이 방법은 단순히 만들어진 3D 데이터를 학습했을 뿐인데도 실제 사진에서도 뛰어난 결과를 보여주고 있습니다. 2. 본론2..

AI 이미지 생성 기술이 빠르게 발전하면서, 다양한 모델이 등장하고 있습니다. 처음 Stable Diffusion 모델이 공개되어 로컬에서 사용해 볼 수 있었던 때가 언제인지 기억나시나요? 1.0 버전이 2022년 8월이었으니 2년하고 5개월 정도가 지났다면 믿어지시나요? 그 사이에 정말 많은 변화가 있었는데 말이죠. 이제는 선택지가 너무 많아 고민이 될 정도죠. 현재까지 나와 있는 AI 이미지 생성 모델들을 비교 테스트한 Youtube 영상을 보다가 이에 대한 소개를 해야겠다는 생각이 들었습니다. 워낙 새롭고 더 좋은 것들이 계속해서 나오니 큰 의미가 있겠냐 싶지만, 현 시점에서 내가 필요로 하는 작업을 하려면 어떤 모델이 적합한지를 알아 두면 도움이 될 것 같았기 때문입니다. 게다가 이런 모델들은..

우리 주변에서 AI 기술은 빠르게 발전하며 일상에 큰 변화를 주고 있습니다. 립싱크 기술은 그 가운데 하나죠. 이 기술은 음성에 맞춰 사람의 입모양을 자연스럽게 만들어주는 것을 목표로 하며, 영화 더빙, 가상 캐릭터 제작, 화상회의 같은 여러 분야에서 유용하게 사용되고 있습니다. 최근에는 방문객들을 맞이하는 키오스크의 인간형 아바타에 이 기술이 접목되고 있습니다. 아무래도 말과 영상 속의 입모양이 다르면 사용자들은 '불편한 골짜기'를 경험할 수 밖에 없기 때문이죠. 지금까지의 립싱크 기술에는 몇 가지 한계가 있었습니다. 예를 들어, 기존에 주로 사용되던 AI 기술(GAN 기반 기술)은 훈련이 불안정하거나, 새로운 환경에서 잘 작동하지 않는 경우가 많았습니다. 또한, 최신 기술 중 일부는 입모양은 잘 맞췄..

패션 산업은 AI 및 컴퓨터 비전 기술을 활용하여 소비자 경험을 혁신하고 있습니다. 특히, 온라인 쇼핑몰에서는 개인화된 상품 추천과 가상 착용 시스템을 제공하며, 고객의 구매 결정을 돕는 데 중점을 둡니다. 그러나 현재 많은 플랫폼에서 모델이 착용한 의류 사진만 제공되며, 평면(또는 타일) 형태로 전시된 의류 이미지는 거의 찾아볼 수 없습니다. 이는 사용자 경험을 개선할 수 있는 핵심 데이터의 부족을 의미합니다. 기존의 평면 의류 이미지를 얻는 방법은 시간과 비용이 많이 드는 반면, 이미지 생성 기술은 이를 자동화하여 효율성을 높일 수 있는 가능성을 제시합니다. 특히, 딥러닝 기반 모델인 GAN(생성적 적대 신경망)과 LDM(잠재 확산 모델)이 주목받고 있습니다. 이 논문에서 소개된 TryOffAnyon..

실시간 상호작용하며 시뮬레이션 가능한 신경망 기반의 게임 엔진 GameNGen은 구글에서 공개한 신경망 기반의 게임 엔진으로, 복잡한 환경을 실시간으로 상호작용하며 시뮬레이션할 수 있는 최초의 모델입니다. 기존의 게임 엔진은 수작업으로 작성된 규칙과 로직에 따라 상태를 업데이트하고 렌더링하기 때문에 확장성과 자동화가 제한적입니다. 또한, 기존의 신경망 기반 시뮬레이션은 시뮬레이션 속도나 안정성, 또는 시각적 품질이 낮다는 한계가 있었습니다. GameNGen은 강화 학습 에이전트를 통해 수집된 데이터를 바탕으로 확장된 Stable Diffusion 모델을 학습하여 실시간 상호작용이 가능한 게임 시뮬레이션을 구현했습니다. 이 모델은 행동과 이전 프레임들을 조건으로 다음 프레임을 예측하며, 노이즈 증강을 통..