일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 우분투
- javascript
- 서보모터
- 멀티모달
- 생성형 AI
- 티스토리챌린지
- AI 기술
- tts
- 메타
- ControlNet
- ChatGPT
- AI
- 트랜스포머
- PYTHON
- 가상환경
- ubuntu
- OpenAI
- 일론 머스크
- 오블완
- LORA
- 이미지 편집
- LLM
- 딥마인드
- 확산 모델
- 시간적 일관성
- 인공지능
- 아두이노
- TRANSFORMER
- 뉴럴링크
- 오픈AI
- Today
- Total
목록2024/08/23 (8)
AI 탐구노트
LITA : 시간-위치 파악에 강점을 가진 멀티모달 언어모델 최근 이미지나 비디오 영상까지 다루는 MLLM(Multimodal Large Language Model)들이 많이 나오고 있고 그 가운데는 영상의 내용을 이해하고 이를 요약하거나 내용에 대한 답변을 해주는 경우도 있죠. LITA는 이런 모델 가운데 'When'에 대한 질문 답변에 강점을 가진 모델이라고 할 수 있겠습니다. LITA는 상대적 타임프레임을 표현하기 위한 시간 토큰과 정확한 시간 위치 파악을 하기 위해 미세한 시간 해상도 캡처를 위한 SlowFast 토큰(빠른 토큰과 느린 토큰이라는 2가지 유형 고려)을 도입했습니다. 학습 데이터로는 사람들이 주석을 달아 정확한 시간을 나타내는 타임스탬프를 추가하고 이 작업을 훈련하고 평가하기 위한 ..
애니메이션 채색을 자동으로 해 주는 기술 BasicPBC는 애니메이션 채색을 자동으로 해 주는 기술입니다. 저는 개인적으로 만화, 애니메이션 등을 좋아하는 편이라 지브리나 디즈니, 픽사 등에서 나온 2D, 3D 애니메이션을 가끔씩 보는 편입니다. 그런데 그 작품들의 뒷편에는 수많은 작업자의 땀과 노력이 숨어 있다는 것을 잊고 보는 경우가 많습니다. 예전 지브리 스튜디오의 작품 제작 과정이 담긴 영상을 본 적이 있었는데, 워낙 오래된 영상이어서인지 원화 한장한장을 직접 손으로 그려가고 있었습니다. 영화로 상연하려면 최소 1초에 30~60장(요샌 더 높겠죠?) 정도가 필요할텐데 몇 시간 분량을 그렇게 만들어내려면 무지막지한 노가다(?!)가 필요하게 될 겁니다. '센과 치히로의 행방불명'이라는 작품을 만들 때..
사실적인 3D 아바타를 생성하는 모델 Gaussian Head Avatar는 사실적인 3D 아바타를 생성하는 모델입니다. Gaussian Splatting을 이용해 적은 데이터만으로도 2K 해상도의 제어 가능한 표정으로 현실적인 얼굴 아바타를 만들 수 있다고 하죠. 아무래도 몸 전체 대비 얼굴 부분은 움직임의 폭이 작기 때문에 유리한 측면이 있겠지만 한편으론 개별 사람의 특징이 한곳에 모여있는 곳이기도 하다보니 어중간한 품질로 했다가는 티가 나기 십상입니다. Gaussian Head Avatar는 이런 문제를 해결한 아주 사실적이고 세밀한 표현까지 지원하는 얼굴 아바타를 생성할 수 있도록 해 줍니다. 제어 가능한 3D 가우스 스플래팅을 이용해 아바타 얼굴 모양을 만들고, 동적인 표현을 모델링하기 위해 ..
딥마인드의 로봇 제어를 위한 인공지능 모델 구글 딥마인드가 발표한 로봇 제어를 위한 인공지능 모델입니다. 공식페이지에는 웹 스케일 데이터로 사전 훈련된 VLM(시각적 언어모델)을 로봇 데이터를 학습하도록 해서 로봇을 제어할 수 있는 새로운 VLA(vision-language-action) 모델인 RT-2를 만든 것으로 소개하고 있습니다. 예전에 구글 내에서 음료수캔 등을 수거하는 로봇이 돌아다니는 영상을 본 적이 있었는데 벌써 몇번의 기술적인 점핑을 한 것 같습니다. 참고) RT-1 (Rototic Transformer 1) : 로봇데이터의 작업과 개체의 조합을 학습할 수 있는 다중 작업 시연에 대해 훈련된 모델입니다.
LLM과의 상호 작용을 간단하게 만들어주는 Python 라이브러리 Simpleaichat은 ChatGPT, GPT-4 등의 LLM과의 상호 작용을 간단하게 만들어주는 Python 라이브러리입니다. 비슷한 역할을 하는 것으로 유명한 LangChain이 있고 대부분은 이를 사용했는데 불필요한 오버헤드와 복잡성으로 인해 다른 대안을 찾는 이들이 늘게 되었고 그러다 Simpleaichat이 등장하게 되었습니다. 기능은 강력하지만 최소한의 코드로 복잡도를 확 낮췄다고 평가되고 있습니다. 깃헙에 올라와 있는 사용법을 보면 누구나 손쉽게 코드 상에서 ChatGPT 서비스를 이용할 수 있습니다. 물론 이를 사용하기 위한 OpenAI의 API Key는 있어야 합니다. 참고) 깃헙, 소개 , LangChain소개
한번에 여러가지 종류의 일을 처리할 수 있는 Multi-Agent Framework MetaGPT라는 좀 색다른 기술이 소개되었습니다. MetaGPT는 Multi-Agent framework 인데 그 말은 한번에 여러가지 종류의 일을 처리할 수 있다는 뜻입니다. MetaGPT는 Product Manager, Project Manger, Architect, engineer와 같이 소프트웨어 개발 회사에 있는 기술인력의 역할을 각각의 agent에게 부여해서 업무를 처리하도록 합니다. 내부 방식을 보면, OpenAI의 GPT-4 API를 이용해서, 서로 다른 역할을 수행하는 agent들을 생성하고, 그것들을 협업하게 해서 최종 결과물을 만들게 됩니다. 한줄의 요구사항(미션)만 주면 역할 별 작업들이 자동으로 ..
2단계 증류 기법이 적용된 전신 자세 예측 모델 DWPose는 2단계 증류(distillation)을 사용하여 효과적인 전신 자세 예측을 하는 모델입니다. 일반적인 자세 예측은 신체의 일부 영역을 대상으로 하는 경우가 많습니다. 이유로는 인체의 계층구조, 신체 부위에 따라 서로 달리 적용되는 다른 스케일과 낮은 해상도, 그리고 장애물이나 어려운 자세(예:손), 머리 포즈 등에 대한 충분치 않은 데이터 등이 언급됩니다. DWPose는 KD(Knowledge Distillation, 지식증류) 기술을 사용해서 이 문제를 해결하고 있습니다. 첫번째는 교사(teachre) 모델의 중간 레이어와 최종 Logit을 활용하여 학생(student) 모델을 학습하고, 두번째로는 머리의 정확한 위치 파악을 위해 자체 K..
AudioCraft는 메타에서 발표한 오디오, 음악 생성 도구입니다. 입력된 텍스트를 바탕으로 음악이나 효과음 등을 생성할 수 있죠. 얼마전에도 비슷한 게 발표되지 않았었냐구요? 맞습니다. 메타가 MusicGen이라는 음악 생성 모델을 발표했었죠. 사실 AudioCraft는 이 MusicGen 외에 AudioGen(효과음, 사운드 등의 오디오 생성), Encodec (신경망 기반의 실시간 오디오 압축 코덱) 모델을 함께 포함하고 있습니다. 인공지능이 음악을 만든다는 것에 사람들이 열광하고 음악 페스티벌에서는 사람이 작곡한 것과 비교하는 블라인드 테스트를 했던 것이 엇그제 같은데 발전하는 속도가 빨라도 너~무 빠른 것 같습니다. 하지만, 한편으론 인간 음악가와 인공지능 음악가의 콜라보레이션이 어떤 식으..