일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 인공지능
- LORA
- 아두이노
- LLM
- 다국어 지원
- AI 기술
- TRANSFORMER
- OpenCV
- 멀티모달
- Stable Diffusion
- 딥러닝
- 일론 머스크
- 트랜스포머
- AI
- 강화 학습
- tts
- 오픈AI
- OpenAI
- 생성형 AI
- 메타
- 오픈소스
- 오블완
- 우분투
- 확산 모델
- 티스토리챌린지
- ChatGPT
- 휴머노이드 로봇
- PYTHON
- ubuntu
- 시간적 일관성
- Today
- Total
목록AI 기술 (220)
AI 탐구노트

1. 서론오늘날의 디지털 환경에서 얼굴 합성 기술은 교육, 영화 제작, 가상 캐릭터, 게임 등 여러 분야에서 중요한 역할을 하고 있습니다. 특히, 자연스러운 얼굴 움직임과 감정을 결합한 토킹 헤드(talking head) 생성 기술은 사람과 상호작용하는 디지털 아바타의 생동감을 크게 향상시킬 수 있습니다. 하지만 기존의 방법들은 얼굴의 여러 움직임(입 모양, 머리 자세, 감정 표현)을 분리하여 제어하기 어려워, 결과물의 품질이 떨어지고 이를 원하는대로 조작하기 어려웠습니다. 이를 해결하기 위해, EDTalk 프레임워크가 제안되었습니다. 이 기술은 얼굴 움직임을 세 가지 주요 요소(입 모양, 머리 자세, 감정 표현)로 분리하여 독립적으로 제어할 수 있도록 설계되었습니다. 이를 통해 사용자는 입력된 오디오..

1. 서론디지털 3D 에셋은 게임, 영화, 물리 시뮬레이션, AI 연구 등 다양한 분야에서 중요한 역할을 합니다. 그러나 이 에셋을 제작하는 과정은 많은 시간과 비용이 소요되는 복잡한 작업으로, 스케치, 모델링, 텍스처 매핑 등 각 단계에서 높은 전문성이 요구됩니다. 이를 해결하기 위해 자동화된 3D 에셋 생성 기술이 주목받고 있으며, 특히 확산 모델 기반의 이미지와 비디오 생성 기술에서 발전을 이루면서 3D 생성 기술도 주목받고 있습니다. 이번에 Tencent가 공개한 Hunyuan3D 2.0은 이와 같은 배경에서 개발된 시스템으로, 텍스처 매핑과 3D 형태 생성의 어려움을 해결하기 위해 독창적인 접근 방식을 채택했습니다. 특히, 확장형 확산 모델을 기반으로 한 두 가지 주요 구성 요소인 Hunyuan..

1. 서론조명은 인물 사진에서 분위기와 느낌을 만드는 데 핵심적인 역할을 합니다. 하지만 사진을 찍고 나서 조명을 바꾸는 건 여전히 어렵습니다. 최근에는 인공지능 기술을 활용해 사진 속 조명을 조절하려는 시도가 많아졌지만, 대부분 고가의 장비나 특별히 라벨링된 데이터를 필요로 한다는 제약이 있습니다. 이에 비해, 3D 모델링 기술은 영화나 게임처럼 가상 환경에서 조명을 바꾸는 데 오래전부터 사용되어 왔습니다. 이 3D 기술에서 영감을 받아, SynthLight라는 새로운 기술이 개발되었는데, 이 기술은 3D 데이터를 학습해 사진 속 조명을 실감 나게 변경할 수 있습니다. 특히, 이 방법은 단순히 만들어진 3D 데이터를 학습했을 뿐인데도 실제 사진에서도 뛰어난 결과를 보여주고 있습니다. 2. 본론2..

최근 Google이 발표한 Gemini 2.0의 Stream Realtime 기능은 AI와의 상호작용 방식을 혁신적으로 변화시키고 있습니다. 이 기능을 통해 사용자는 텍스트 입력을 넘어 음성 대화, 화면 공유, 웹캠 공유 등 다양한 방법으로 AI와 실시간 소통이 가능합니다. 이번 글에서는 Stream Realtime 기능을 실생활에서 어떻게 활용할 수 있는지 구체적인 사례를 통해 살펴보겠습니다.지원되는 기능실시간 화면 공유 : 사용자는 자신의 화면을 AI와 실시간으로 공유할 수 있어, 마치 옆자리 동료와 소통하는 것처럼 즉각적인 도움을 받을 수 있습니다음성 대화 : 사용자는 음성으로 AI와 직접 대화할 수 있습니다.웹캠 공유 : 실시간 웹캠 영상을 AI에게 보여주며 질문하고 답변을 받을 수 있습니다.멀티..

1. 서론 우리가 사용하는 많은 기술은 더 나은 재료를 발견하고 설계하는 능력에 달려 있습니다. 예를 들어, 에너지 저장 장치, 촉매, 이산화탄소 포집 같은 분야에서 새로운 재료가 필요하죠. 지금까지는 실험이나 인간의 경험에 의존해 재료를 개발했지만, 이 방법은 시간이 오래 걸리고 많은 자원을 소모하게 된다는 문제가 있었습니다. 최근 데이터와 기계 학습 기술이 발전하면서 재료 설계가 빨라지고 있지만, 여전히 완전히 새로운 물질을 생성하거나 원하는 특성을 가진 물질을 효율적으로 설계하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 Microsoft Research는 MatterGen이라는 모델을 개발했습니다. MatterGen은 AI 기술을 활용해 무작위로 섞인 원자 구조에서 시작해 안정적이고 새로..

요즘 우리가 쓰는 챗봇이나 번역기 같은 AI는 대규모 언어 모델(LLM)이라는 기술을 활용해 작동합니다. 하지만 이 모델들은 이미 학습된 고정된 학습 결과물을 바탕으로 작동하기 때문에 새로운 주제나 문제가 주어질 때 쉽게 적응하지 못합니다. 만약 새로운 태스크나 데이터 도메인에 적응하도록 만들려면 높은 비용의 재학습 과정이 필요하죠. 이러한 한계를 극복하기 위해, 연구자들은 더욱 효율적이고 유연한 적응 가능성을 탐구하고 있습니다. Transformer2라는 기술은 이러한 문제를 해결하기 위해 고안되었습니다. 이 기술은 기존 모델을 다시 학습시키지 않고도 새로운 문제에 적응할 수 있는 '자가조정(Self-adaptive)' 기능을 가지고 있어 실시간으로 새로운 태스크에 적응할 수 있는 프레임워크를 제공합니..

Replicate는 오픈 소스 머신러닝 모델을 클라우드 API를 통해 실행하고 배포할 수 있는 플랫폼입니다. 복잡한 인프라 관리나 머신러닝에 대한 깊은 이해 없이도 다양한 AI 모델을 활용할 수 있어, 개발자와 연구자들에게 큰 도움이 되죠. 이번 글에서는 Replicate에 대해 간략하게만 알아보도록 하겠습니다. Replicate? Replicate.com?홈페이지의 About에 보면 자신들을 '회사'라고 지칭하지 않고 'a bunch of hackers, engineers, researchers, and artists' 라고 표현하고 있습니다. 일종의 전문가 집단이 운영하는 플랫폼인 셈인데, 이들 구성원 전부가 코딩을 하고 운영진이 엔지니어이며 멤버들은 다 NVIDIA, Docker, Dropbox, ..

AI 이미지 생성 기술이 빠르게 발전하면서, 다양한 모델이 등장하고 있습니다. 처음 Stable Diffusion 모델이 공개되어 로컬에서 사용해 볼 수 있었던 때가 언제인지 기억나시나요? 1.0 버전이 2022년 8월이었으니 2년하고 5개월 정도가 지났다면 믿어지시나요? 그 사이에 정말 많은 변화가 있었는데 말이죠. 이제는 선택지가 너무 많아 고민이 될 정도죠. 현재까지 나와 있는 AI 이미지 생성 모델들을 비교 테스트한 Youtube 영상을 보다가 이에 대한 소개를 해야겠다는 생각이 들었습니다. 워낙 새롭고 더 좋은 것들이 계속해서 나오니 큰 의미가 있겠냐 싶지만, 현 시점에서 내가 필요로 하는 작업을 하려면 어떤 모델이 적합한지를 알아 두면 도움이 될 것 같았기 때문입니다. 게다가 이런 모델들은..

최근 인공지능 분야에서 추론 능력이 중요한 화두로 떠오르고 있습니다. 수학 문제 해결, 코드 생성, 퍼즐 풀이 등 다양한 작업에서 높은 성능을 발휘하는 모델들은 복잡한 사고 과정을 내재화하며 인상적인 결과를 도출하고 있습니다. 하지만 이러한 모델들은 일반적으로 높은 개발 비용과 제한된 접근성으로 인해 연구자 및 오픈소스 커뮤니티의 참여를 어렵게 만들었습니다. 잘 알려진 상용 추론 모델들은 뛰어난 성능을 보이지만, 모델의 가중치와 세부 기술이 비공개로 유지되어 오픈소스 커뮤니티가 이를 재현하거나 개선하기 어렵습니다. 또한, 이를 이용하기 위해서는 엄청난 비용이 들죠. 그러다보니 오픈소스 모델을 중심으로 이를 파인튜닝하는 쪽으로 접근하는 연구가 많이 진행되고 있습니다. 소규모 연구팀이 접근하기에는 현실적인 ..

지난 몇 년간 인공지능 분야에서 텍스트-이미지 변환 모델은 획기적인 발전을 이루었습니다. 초기의 U-Net 기반 구조에서 Transformer 기반으로의 전환은 모델의 효율성과 확장 가능성을 크게 개선하며 새로운 표준을 제시했습니다. 동시에, 모델의 크기가 커지고 계산 자원이 증가하면서 텍스트-이미지 변환 모델의 고해상도 이미지 생성 능력이 대폭 향상되었습니다. 이러한 발전은 이미지 생성의 품질과 해상도에서 큰 진전을 이루었지만, 대규모 모델의 높은 비용과 느린 속도는 여전히 산업계와 일반 사용자들에게 큰 장벽으로 남아 있습니다. 엔비디아(NVIDIA)는 최근 텍스트 기반으로 최대 4096×4096 해상도의 고품질 이미지를 빠르고 효율적으로 생성할 수 있는 혁신적인 텍스트-이미지 생성 프레임워크인 'Sa..