일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- tts
- 메타
- 일론 머스크
- 아두이노
- 딥러닝
- LLM
- 트랜스포머
- ChatGPT
- OpenAI
- 생성형 AI
- AI
- 우분투
- 멀티모달
- LORA
- ControlNet
- 오블완
- OpenCV
- 텍스트-이미지 생성
- 가상환경
- ubuntu
- PYTHON
- 오픈AI
- AI 기술
- 휴머노이드 로봇
- 서보모터
- 티스토리챌린지
- 인공지능
- 시간적 일관성
- TRANSFORMER
- 확산 모델
- Today
- Total
목록생성형 AI (8)
AI 탐구노트
요즘 IT 업계 이야기를 보면 "쩐의 전쟁"이라는 표현이 정말 실감납니다. 2022년 챗GPT의 등장 이후 AI 기술에 대한 관심은 하늘을 찌르고, 이에 발맞춰 글로벌 빅테크들은 막대한 자금을 투자하며 치열한 경쟁을 벌이고 있습니다. 한국도 이에 뒤처지지 않으려 노력 중이지만, 여전히 갈 길이 멀다는 평가가 많습니다. 오늘은 이에 관한 내용을 함께 살펴보고, 국내 기업들이 AI 시장에서 경쟁력을 갖기 위해 어떤 방향으로 나아가야 할지 이야기해 보려고 합니다.글로벌 빅테크의 AI 투자 현황아래 기사에 따르면, MS, 구글, 아마존, 메타, 애플, 엔비디아 등 글로벌 빅테크 6곳의 AI R&D(연구개발) 투자 규모는 매년 엄청난 속도로 증가하고 있습니다. 2023년 기준으로 이들 기업의 R&D 투자 총액은 ..
1. 서론 광고 산업은 오래전부터 사람들의 관심을 끌고 유지하는 데 초점을 맞춰왔습니다. 과거에는 광고의 효과를 단순히 도달 범위나 판매 수치로만 평가했지만, 오늘날의 마케팅 환경은 더욱 정밀한 분석을 요구합니다. 광고 주시자의 관심도를 실시간으로 파악하고, 이를 통해 효과적인 피드백을 제공하는 AI 기술은 이러한 변화의 중심에 서 있습니다. 디지털 사이니지(Digital Signage)는 AI와 결합하여 새로운 광고 기법을 만들어내고 있습니다. 광고판에 설치된 카메라는 지나가는 사람들의 시선, 연령, 성별 등을 분석하고, 주목시간 및 주목횟수 등을 실시간으로 측정합니다. 이 데이터를 통해 광고주는 단순 노출을 넘어 광고 메시지가 얼마나 효과적으로 전달되었는지 정밀하게 분석할 수 있습니다. 더 나아가 실..
비즈니스 트렌드 전망 보고 - AI전환 확대 최근 발표된 ‘2025년 디지털 비즈니스 트렌드 전망 보고서’는 글로벌 기업 환경이 빠르게 AI 중심으로 재편되고 있음을 보여줍니다. "AI전환 확대 압도적 1위"···내년 디지털 비즈니스 트렌드산학이 뽑은 내년 디지털 비즈니스 트렌드 1위는?한국정보산업연합회(회장 정진섭)와 한국경영정보학회(회장 김희웅)가 공동 작업한'2025년 디지털 비즈니스 트렌드 전망 보고서'가 발표됐다. zdnet.co.kr 특히 생성형 AI는 기업 AI 전환의 중심축으로 자리 잡으며 1위를 차지했습니다. 상위 10개 트렌드 중 8개가 AI와 관련되어 있으며, 이 중 4개는 생성형 AI와 직결됩니다. 이는 기업 경영 전략의 핵심 요소로 AI를 수용하지 않으면 도태될 수 있음을 시사..
스케치 등의 이미지를 기반으로 주어지는 프롬프트를 이용해 사용자가 컨트롤할 수 있는 2D 대화형 게임을 만드는 생성형 AI Genie는 구글이 게임 메커니즘에 대한 사전 교육이 없이 사진이나 AI 생성 이미지, 개인이 직접 그린 스케치 등의 이미지를 기반으로 주어지는 프롬프트를 이용해 사용자가 컨트롤할 수 있는 2D 대화형 게임을 만드는 생성형 AI입니다. 기초 세계모델(foundation world model)로 시공간 비디오 토크나이저, 자동회귀 역학 모델, 그리고 확장 가능한 잠재 동작 모델로 구성됩니다. 20,000 시간 이상의 2D 인터넷 게임 비디오 영상 데이터셋으로 훈련해 게임 플레이를 자율적으로 이해하게 되었다고 합니다. 캐릭터의 동작에 대한 훈련을 별도로 하지 않았음에도 학습된 잠재 행..
마이크로소프트의 Phi-3 기반 비전 모델 마이크로소프트에서 Phi-3 Vision 모델을 공개했습니다. Phi-2가 공개된 것이 작년 12월, Phi-3가 올 4월이었으니 확실히 생성형 AI와 LLM 분야는 비즈니스 기회가 확실하고 투자규모가 커서 그런지 발전 속도도 무지 빠른 것 같습니다. 예전 소식에서 말씀드린 바와 같이 Phi 모델들은 데이터 전체가 아닌 핵심적인 것만 집중적으로 학습하는 하는 방식으로 적은 데이터셋으로 높은 성능을 내도록 되어 있는데 그 컨셉은 그대로 이어진다고 합니다. Phi-3-vision-128K-Instruct의 경우, 4.2B개의 매개변수가 있으며 내부적으로 이미지 인코더, 커넥터, 프로젝터 및 Phi-3 Mini 모델이 포함되어 있다고 합니다. 500B 크기..
텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet(*1)을 사용하는 경우가 많습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠. CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는..
올 2월 OpenAI는 SORA라는 비디오 생성 모델을 공개했습니다. 기존의 다른 모델 대비 월등히 뛰어난 생성 결과 때문에 기존 영상 제작 업계분들까지 위기감을 느끼기도 했습니다. OpenAI가 일부 크리에이터들에게만 서비스를 공개하고 일반인에게는 공개를 하지 않은 덕분에, 엄청난 기술적 점프였지만 그 뒤로는 살짝 수면 아래로 내려가 있었죠. 그런데 이번에 Kuaishou라는 곳에서 중국판 SORA라 불리는 KLING 이라는 비디오 생성 모델을 공개하면서 이전의 충격이 다시 한번 떠 올랐습니다. KLING은 SORA와 비슷하게 물리 법칙을 이해하고 있고 1080p 30fps의 일관성있는 실제같은 영상물을 만들어냅니다. 일부 크리에이터들에게만 접근을 허용했던 SORA와는 달리 등록한 대기자들에 대해 일..
Unique3D는 단일 뷰 이미지에서 고품질의 3D Mesh를 생성해 내는 이미지 to 3D 프레임워크입니다. 이를 이용하면 한장의 이미지만 가지고 별도의 3D 스캔 작업 없이도 3D 메쉬를 자동으로 생성해 낼 수 있죠. 처리 순서를 보면 입력된 단일 뷰 이미지로부터 다중 뷰 확산 모델을 사용해 여러 시점의 이미지를 생성하고, 점진적으로 높은 해상도로 업스케일링합니다. 업스케일된 컬러 이미지와 노멀 맵에서 복잡한 기하학적 세부사항과 질감으로 3D 메쉬를 재구성하기 위해 메쉬 재구성 알고리즘인 ISOMER를 이용합니다. 기존 다른 방식을 이용하는 경우보다 높은 충실도와 일관성있는 3D 메쉬 결과물, 빠른 생성 속도라는 잇점을 동시에 얻을 수 있다는 장점이 있습니다. 참고) 프로젝트, 논문, 코드, 데모