일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 휴머노이드 로봇
- 오픈AI
- 서보모터
- 시간적 일관성
- ubuntu
- PYTHON
- 티스토리챌린지
- 딥러닝
- 딥마인드
- 멀티모달
- tts
- ChatGPT
- ControlNet
- 뉴럴링크
- 일론 머스크
- 확산 모델
- 생성형 AI
- 메타
- LORA
- 우분투
- 오블완
- 인공지능
- 아두이노
- 가상환경
- OpenAI
- LLM
- AI 기술
- 트랜스포머
- TRANSFORMER
- AI
- Today
- Total
목록2024/08 (123)
AI 탐구노트
뉴럴링크, 두 번째 두뇌 칩 이식 수술 성공일론 머스크의 뉴럴링크가 두 번째 두뇌 칩 이식 수술에 성공했고 환자는 생각만으로 '카운터 스트라이크' 게임을 즐기는 모습을 보였다고 합니다. (AI타임스) '라마 3.1' 다운로드 저조, 수익 창출이 과제메타의 최신 AI 모델 '라마 3.1'이 출시 후 한 달 동안 다운로드 수가 이전 버전의 62%에 불과했으며. 이는 주요 경쟁사들이 가격 인하와 기능 개선으로 공격적인 마케팅을 펼친 결과라고 합니다. (AI타임스) 제대로 검증되지 않은 의료 AI, 안전 문제 대두수백 건의 의료 AI 시스템이 성능 검증이 부족한 상태로 미국에서 승인되었으며, 이로 인해 의료 현장에서의 안전성과 신뢰성에 대한 우려가 커지고 있으며 AI 시스템이 다양한 인종과 상황에서 정확하게 ..
NVIDIA가 발표한 Text to 3D 생성 모델 LATTE3D( Large-scale Amortized Text-To-Enhanced 3D Synthesis )는 NVIDIA에서 발표한 Text-3D 생성 모델입니다.복잡한 3D 개체를 단일 GPU 상에서 단 몇 초만에 뚝딱 만들어낼 수 있습니다. LATTE3D는 GPT를 사용하여 프롬프트를 규격화하고, 사전 학습된 네트워크로 한번 생성된 결과물의 잠재 벡터를 다시 사용하는 방식을 택했고, 3D개체의 volume과 texture를 분할생성하는 방식으로 생성속도와 정밀함이라는 두 마리 토끼를 다 잡았다고 합니다. 생성된 결과물은 오픈 USD(Universal Scene Description, OpenUSD) 기반 3D 워크플로우와 애플리케이션에서 사..
패션 가상 착장/피팅 기술 (Virtual Try-On) Wear-Any-Way는 알리바바 그룹 연구진이 공개한 패션 가상 착장을 위한 기술입니다. AI 관련 전시회에 가보면 유사한 서비스를 제공하는 AI기업들이 많이 있습니다. 인물의 사진과 입혀보고 싶은 옷 이미지를 선택하면 기존 사진에 자연스레 옷이 입혀진 결과 이미지가 나오는 방식이죠. 일부는 인물의 자세를 키포인트를 움직이는 방식으로 바꿀 수 있도록 하는 변화를 주기도 했었습니다. 그렇지만 대부분은 여기까지가 끝이었죠. 이와는 달리 Wear-Any-Way 모델은 사용자가 착장 스타일을, 포인트 기반 제어와 이를 이용한 사용자 상호 작용을 통해 조작할 수 있도록 해 줍니다. 마우스 클릭이나 드래그와 같은 단순한 상호 작용을 이용해 소매를 말아올리거..
효율적인 비디오 이해를 위한 상태 공간 모델(SSM: State Space Model) VideoMamba는 효율적인 비디오 이해를 위한 상태 공간 모델(SSM: State Space Model)입니다. 비디오 영상을 보면서 어떤 상황인지를 파악하고 싶은 경우에 사용할 수 있는 기술로 보시면 될 것 같습니다. 이 모델은 이름 그대로 Mamba 기술을 비디오 영역에 적용한 것인데 Mamba 자체에 대해서는 이곳을 참고하세요. VideoMamba는 아래의 네 가지 핵심 기능을 제공합니다.새로운 자체 증류 기술 : 광범위한 데이터 세트 교육 없이 시각적 영역의 확장 (입력 크기의 증가 가능)단기 동작 인식에 대한 민감도 : 미세한 움직임, 세밀한 차이가 있는 단기 동작을 구별하는 능력 탁월장기 비디오 영상 이..
LITA : 시간-위치 파악에 강점을 가진 멀티모달 언어모델 최근 이미지나 비디오 영상까지 다루는 MLLM(Multimodal Large Language Model)들이 많이 나오고 있고 그 가운데는 영상의 내용을 이해하고 이를 요약하거나 내용에 대한 답변을 해주는 경우도 있죠. LITA는 이런 모델 가운데 'When'에 대한 질문 답변에 강점을 가진 모델이라고 할 수 있겠습니다. LITA는 상대적 타임프레임을 표현하기 위한 시간 토큰과 정확한 시간 위치 파악을 하기 위해 미세한 시간 해상도 캡처를 위한 SlowFast 토큰(빠른 토큰과 느린 토큰이라는 2가지 유형 고려)을 도입했습니다. 학습 데이터로는 사람들이 주석을 달아 정확한 시간을 나타내는 타임스탬프를 추가하고 이 작업을 훈련하고 평가하기 위한 ..
애니메이션 채색을 자동으로 해 주는 기술 BasicPBC는 애니메이션 채색을 자동으로 해 주는 기술입니다. 저는 개인적으로 만화, 애니메이션 등을 좋아하는 편이라 지브리나 디즈니, 픽사 등에서 나온 2D, 3D 애니메이션을 가끔씩 보는 편입니다. 그런데 그 작품들의 뒷편에는 수많은 작업자의 땀과 노력이 숨어 있다는 것을 잊고 보는 경우가 많습니다. 예전 지브리 스튜디오의 작품 제작 과정이 담긴 영상을 본 적이 있었는데, 워낙 오래된 영상이어서인지 원화 한장한장을 직접 손으로 그려가고 있었습니다. 영화로 상연하려면 최소 1초에 30~60장(요샌 더 높겠죠?) 정도가 필요할텐데 몇 시간 분량을 그렇게 만들어내려면 무지막지한 노가다(?!)가 필요하게 될 겁니다. '센과 치히로의 행방불명'이라는 작품을 만들 때..
사실적인 3D 아바타를 생성하는 모델 Gaussian Head Avatar는 사실적인 3D 아바타를 생성하는 모델입니다. Gaussian Splatting을 이용해 적은 데이터만으로도 2K 해상도의 제어 가능한 표정으로 현실적인 얼굴 아바타를 만들 수 있다고 하죠. 아무래도 몸 전체 대비 얼굴 부분은 움직임의 폭이 작기 때문에 유리한 측면이 있겠지만 한편으론 개별 사람의 특징이 한곳에 모여있는 곳이기도 하다보니 어중간한 품질로 했다가는 티가 나기 십상입니다. Gaussian Head Avatar는 이런 문제를 해결한 아주 사실적이고 세밀한 표현까지 지원하는 얼굴 아바타를 생성할 수 있도록 해 줍니다. 제어 가능한 3D 가우스 스플래팅을 이용해 아바타 얼굴 모양을 만들고, 동적인 표현을 모델링하기 위해 ..
딥마인드의 로봇 제어를 위한 인공지능 모델 구글 딥마인드가 발표한 로봇 제어를 위한 인공지능 모델입니다. 공식페이지에는 웹 스케일 데이터로 사전 훈련된 VLM(시각적 언어모델)을 로봇 데이터를 학습하도록 해서 로봇을 제어할 수 있는 새로운 VLA(vision-language-action) 모델인 RT-2를 만든 것으로 소개하고 있습니다. 예전에 구글 내에서 음료수캔 등을 수거하는 로봇이 돌아다니는 영상을 본 적이 있었는데 벌써 몇번의 기술적인 점핑을 한 것 같습니다. 참고) RT-1 (Rototic Transformer 1) : 로봇데이터의 작업과 개체의 조합을 학습할 수 있는 다중 작업 시연에 대해 훈련된 모델입니다.
LLM과의 상호 작용을 간단하게 만들어주는 Python 라이브러리 Simpleaichat은 ChatGPT, GPT-4 등의 LLM과의 상호 작용을 간단하게 만들어주는 Python 라이브러리입니다. 비슷한 역할을 하는 것으로 유명한 LangChain이 있고 대부분은 이를 사용했는데 불필요한 오버헤드와 복잡성으로 인해 다른 대안을 찾는 이들이 늘게 되었고 그러다 Simpleaichat이 등장하게 되었습니다. 기능은 강력하지만 최소한의 코드로 복잡도를 확 낮췄다고 평가되고 있습니다. 깃헙에 올라와 있는 사용법을 보면 누구나 손쉽게 코드 상에서 ChatGPT 서비스를 이용할 수 있습니다. 물론 이를 사용하기 위한 OpenAI의 API Key는 있어야 합니다. 참고) 깃헙, 소개 , LangChain소개
한번에 여러가지 종류의 일을 처리할 수 있는 Multi-Agent Framework MetaGPT라는 좀 색다른 기술이 소개되었습니다. MetaGPT는 Multi-Agent framework 인데 그 말은 한번에 여러가지 종류의 일을 처리할 수 있다는 뜻입니다. MetaGPT는 Product Manager, Project Manger, Architect, engineer와 같이 소프트웨어 개발 회사에 있는 기술인력의 역할을 각각의 agent에게 부여해서 업무를 처리하도록 합니다. 내부 방식을 보면, OpenAI의 GPT-4 API를 이용해서, 서로 다른 역할을 수행하는 agent들을 생성하고, 그것들을 협업하게 해서 최종 결과물을 만들게 됩니다. 한줄의 요구사항(미션)만 주면 역할 별 작업들이 자동으로 ..