일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 아두이노
- AI
- PYTHON
- ChatGPT
- 우분투
- LLM
- 가상환경
- 메타
- 멀티모달
- 트랜스포머
- ubuntu
- OpenAI
- AI 기술
- 휴머노이드 로봇
- tts
- 생성형 AI
- ControlNet
- 일론 머스크
- LORA
- 시간적 일관성
- 인공지능
- 서보모터
- TRANSFORMER
- 확산 모델
- 오픈AI
- 오블완
- 딥마인드
- 뉴럴링크
- 딥러닝
- 티스토리챌린지
- Today
- Total
목록2024/08 (123)
AI 탐구노트
월마트, 전사적 AI 도입으로 생산성 및 실적 모두에서 큰 성과를 거두며 최고 주가 기록 월마트는 인공지능(AI)을 적극적으로 도입해 생산성을 대폭 향상시키고, 이로 인해 2분기 영업이익이 10조 원을 돌파하며 사상 최고 실적을 기록했습니다. 특히 AI를 활용한 마케팅 데이터 분석과 검색 기능이 소비자 경험을 개선하며 실적 상승에 큰 역할을 했습니다. 더불어 월마트는 생성형 AI를 통해 재고 관리와 주문 효율성을 극대화하는 등 전방위적인 AI 투자를 지속하며, 미국 월가의 AI 회의론을 잠재우는 대표 사례로 주목받고 있습니다. (한국경제 2024.8.16) 해외에서 이렇게 AI 도입을 통해 생산성을 향상시킨 사례는 지속적으로 나오고 있습니다. 그리고 국내에 돈나무언니로 불리는 캐시우드의 경우, AI로 ..
이미지 + 얼굴 표정/ 안면 동작 = '원하는대로 초상화' 애니메이션 생성 기술 Follow-Your-Emoji는 입력된 정적 이미지를 기반으로, 목표로 하는 표정과 동작을 적용하여 초상화의 정체성과 시간적 일관성이 유지되는 애니메이션을 생성하는 기술입니다. 모델 학습을 위해 비디오 클립과 랜덤 참조 프레임(무작위 선택 프레임), 그리고 표정 인식 랜드마크(mediapipe 이용 3D 키포인트 추출한 것을 2D 랜드마크로 투영)를 사용하고, 얼굴 표정의 미세한 변화를 인식하고 반영하도록 돕는 세밀한 표정 손실 함수를 도입했습니다. 또한 길이가 긴 애니메이션 생성 시 시간적인 일관성 유지를 위해 키 프레임을 먼저 생성하고 이를 기반으로 중간 프레임을 생성하는 점진적 생성 전략을 사용합니다. 이외에 초상화..
고화질의 3D 장면 렌더링 재구성 기술 LE3D(Lighting Every Darkness with 3DGS)는 여러 각도에서 찍은 노이즈가 많은 원시 이미지를 빠르게 학습해서 실시간으로 3D 장면으로 렌더링해서 재구성하는 기술입니다. 이를 위해 3DGS (3D Gaussian Splatting)이라는 새로운 방법을 사용하게 되는데 이는 장면들을 많은 작은 3D Gaussian 점들로 표현해 실시간을 렌더링하는 방식입니다. 기존 방식들과의 차별화되는 특징으로는 상대적으로 아주 적은 훈련 시간이 필요하다는 것과 노이즈가 많은 이미지에서도 고화질의 HDR 이미지를 생성할 수 있다는 것, 그리고 2K 해상도의 고화질 이미지를 실시간 렌더링해 낼 수 있다는 것 등이 있습니다. 이미지 리포커스 효과도 줄 수..
3D 영상을 생성하는 기술 DreamGaussian4D는 시간에 따라 변화하는 동적 3D 장면(4D 콘텐츠)을 생성하는 최신 기술입니다. 이 기술은 콘텐츠 생성에 소요되는 시간은 줄이면서도 고품질의 사실적인 움직임을 만들어 낼 수 있고 생성된 모델은 일반적으로 많이 사용되는 Blender나 언리얼 엔진 같은 곳에서 쉽게 사용될 수 있어 애니메이션, 게임, 가상현실 등의 분야에 사용될 수 있습니다. DreamGaussian4D는 이미지에서 4D Gaussian Splatting을 생성하는 단계와, 비디오에서 비디오로 텍스처를 정제하는 단계를 거쳐 장면을 만들어 냅니다. 즉, 이미지에서 고품질의 정적 3D 모델을 만들고, 그 다음에 모델의 위치, 회전, 크기 변화를 예측해 시간에 따른 움직임을 추가합니다. ..
비디오 업샘플링 모델을 이용해 저해상도의 3D 모델을 고해상도로 변환하는 방법 SuperGaussian은 기존의 비디오 업샘플링 모델을 활용하여 저해상도의 3D 모델을 고해상도로 변환하는 방법입니다. 우선 NeRF, Gaussian Splats, 저해상도 Mesh 데이터 등의 다양한 형태의 저해상도의 3D 모델을 입력으로 받습니다. 이 모델을 이용해 여러 각도에서 촬영한 비디오로 변환한 뒤, 미리 학습된 비디오 업샘플링 모델을 사용해 고해상도 비디오로 변환합니다. 그리고나서 Gaussian Splatting 기법을 사용해 업샘플링된 비디오로 고해상도의 3D 모델을 재구성하게 됩니다. 해당 기술은 단계 별로 모듈화되어 있어 부분적으로 다른 최신 기술로 대체할 수 있으며, 다양한 종류의 3D 입력 데이터 ..
2D 벡터 이미지를 만들어 보신 적이 있으실까요? 프로그래밍이 들어가는 기법 외에는 Adobe 사의 Illustrator나 Figma 등 다양한 그래픽 도구를 이용해서 만드는 것이 대부분일 거라 생각됩니다. 예전 기억을 돌이켜 보면 바탕에 참조 이미지를 두고, 그 위에 레이어들을 생성한 후 개별적으로 아웃라인을 따서 객체를 만들고 그것들에 색을 넣어 음영을 표현하는 방식으로 진행했었던 것 같습니다. 아마도 지금도 대부분 그래픽 작업에서는 그런 식으로 진행되지 않을까 싶네요. Layered Image Vectorization은 이미지를 벡터 그래픽으로 변환하는 새로운 기술입니다. 원본 이미지를 점점 단순화해아 여러 단계로 나누고 각 단계를 벡터화하여 세부사항을 점차 추가해 나가는 방식인데 목적은 위에 언급..
제로 샷 스타일이 적용된 초상화 생성 OmniZero는 제로 샷의 스타일 적용된 초상화 제작을 위한 확산 기반 파이프라인입니다. 구성(Composition), 스타일(Style), 정체성(Identity)과 관련된 이미지를 입력으로 주면 이것들이 반영된 인물 사진을 생성해 줍니다. 데모 사이트에 소개된 StyleOf의 공동 설립자인 Omer Karisman이 만든 것이라고 합니다. 소개 영상 공개 후 한동안 코드 공개가 되지 않아 아쉬웠었는데 한참 뒤에 다시 들어가보니 되어 있더군요. 테스트 해 볼 수 있는 데모 사이트는 열려 있는 상태입니다. 데모 상에서 서비스가 작동하는 방식은 아주 직관적이라 일반 사람들도 손쉽게 사용할 수 있을 것 같고 결과물 사진의 품질도 괜찮아 보여 개인적인 관심에 한번 ..
자연어 처리 및 코드 작업을 위한 생성형 모델 IBM에서 Granite Code Models라는 자연어 처리 및 코드 작업을 위한 생성 인공지능(AI) 모델을 발표했습니다. 그러고보니 IBM의 AI 모델을 소개하는 것은 처음인 것 같네요. IBM하면 한때는 IT계의 공룡이었고, AI 초기에는 딥블루(1997년 체스 챔피언에 승리)나 2004년 Watson이 퀴즈 챔피언을 이긴 사례 등 가장 주목을 받는 기업이기도 했었습니다. 하지만, 어느새 구글, 메타, OpenAI 등등 다양한 빅테크 기업들의 그늘에 가려져 버렸죠. 이번에 IBM이 발표한 Granite Code Models는 디코더 전용 코드 모델로 매개변수 30억~340억으로 다양한 크기로 제공됩니다. IBM의 비즈니스 영역답게 엔터프라이즈 소프트..
소프트뱅크, AI 칩 생산 위한 인텔과의 협상 결렬…TSMC로 눈 돌려소프트뱅크가 엔비디아에 대항할 AI 칩을 생산하기 위해 인텔과 협상했으나 결렬되었고, 현재는 대만의 TSMC와 협상을 진행 중이나 TSMC의 생산 용량 문제로 합의에 이르지 못한 상태라고 합니다. 소프트뱅크는 ARM의 90% 지분을 가지고 있으며 최근 그래프코어를 인수한 바 있어 이번 시도가 계획 단계를 넘어 뭔가 액션으로 넘어가고자 하는 의도가 느껴집니다. AI 칩 생산 능력을 갖춘 업체가 몇 없다보니 생산 외의 반도체 설계 관련 지원도 있어야 하는터라 추가적인 업체 물색은 계속되지 않을까 싶습니다. 기사링크: 아시아경제키워드: 소프트뱅크, 인텔, TSMC, AI 칩, 협상 결렬 미국 노년층, AI 공부에 집중…'생존을 위한 선택'..
인간의 동작을 모방하여 다양한 작업을 수행할 수 있는 휴머노이드 로봇 시스템 HumanPlus (Humanoid Shadowing and Imitation from Humans)는 인간의 동작을 모방하여 다양한 작업을 수행할 수 있는 휴머노이드 로봇 시스템으로 인간의 데이터를 이용하여 로봇이 자율적으로 동작을 학습하도록 설계되어 있습니다. 이 시스템은 인간의 움직임을 실시간으로 따라하는 저수준의 제어시스템과 동작을 학습하여 자율적으로 수행하는 고수준의 제어시스템으로 구성되어 있습니다. 이때 Humanoid Shadowing Transformer와 Humanoid Imitation Transformer가 사용되는데 각각 인간 동작을 따라하는 역할과 수집된 데이터를 이용해 로봇이 새로운 작업을 자율적으로 학..