일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- TRANSFORMER
- 트랜스포머
- 확산 모델
- 아두이노
- LLM
- 딥러닝
- 서보모터
- 우분투
- 휴머노이드 로봇
- 딥마인드
- 메타
- 생성형 AI
- 티스토리챌린지
- 인공지능
- AI
- LORA
- 멀티모달
- ControlNet
- ChatGPT
- PYTHON
- 오블완
- AI 기술
- 오픈AI
- 일론 머스크
- tts
- 시간적 일관성
- ubuntu
- OpenAI
- 뉴럴링크
- 가상환경
- Today
- Total
목록2024/08/15 (17)
AI 탐구노트
4M은 토큰화와 마스킹을 사용하여 다양한 양식으로 확장할 수 있는 기초 모델을 훈련하기 위한 프레임워크입니다. 기존의 비전 모델들이 단일 모달리티만 지원하는 것과 달리, 4M은 텍스트, 이미지, 깊이, 표면 법선, 의미적 분할 맵, 경계 상자 등 다양한 모달리티를 지원합니다. 4M은 각각의 모달리티를 작은 정보 단위인 토큰으로 변환하여 학습합니다. 이 과정에서 일부 토큰을 입력으로 사용하고 나머지 토큰을 예측하는 방식으로 진행되어 다양한 입력과 출력을 처리할 수 있게 됩니다. 4M의 아키텍처는 토큰화를 통한 모달리티 통합, 단일 트랜스포머 네트워크를 통한 모든 모달리티 학습, 그리고 랜덤화된 토큰 서브셋을 이용한 멀티모달 마스킹 모델링으로 구성되어 있습니다. 참고) 프로젝트, 논문, 코드, 데모
단백질, DNA, RNA, ligand 등 생체분자의 구조와 상호작용 예측 모델 구글 딥마인드팀에서 AlphaFold 3을 공개했습니다. 전작인 AlphaFold v1, v2는 각각 2018년과 2020년에 발표된 바 있는데 이번에 거의 3년 5개월만에 새 버전이 출시된 것입니다. 이전 모델들이 단백질 구조 예측에 특화된 것이었던 것에 반해 v3는 단백질 뿐만 아니라 DNA, RNA, ligand 등과 같은 다양한 생체분자의 구조와 상호작용까지 예측할 수 있도록 개선되었는데, v2에서 소개된 Evoformer 모듈의 개선된 버전과 Diffusion 네트워크를 사용했다고 합니다. 딥마인드에서는 AlphaFold Server라는 웹 기반 무료 도구를 제공하고 있어 AlphaFold 3가 제공하는 대부분의 기..
개, 고양이 등 다양한 동물의 시점에서 촬영된 자기 중심 영상 데이터 EgoPet은 개, 고양이 등 다양한 동물의 시점에서 촬영된 자기 중심 영상 콜렉션으로 동물의 행동과 주변 환경과의 상호 작용을 연구하는 데 사용할 수 있는 데이터셋입니다. 이제까지 주로 봐온 것이 사람이나 차량의 자기중심적 데이터이다 보니 동물 시점에서의 영상은 다소 생소했습니다. 데이터셋과 함께 시각적 상호작용 예측 (VIP), 이동예측 (LP), 비전에서의 고유한 지각 예측 (VPP) 등에 대한 벤치마크도 함께 제시되었는데, VIP, LP는 동물의 인식과 행동을 예측하고, VPP는 야생에서 로봇 이동의 다운스트림 작업에 대한 데이터셋의 유용성 연구에 유용할 것이라고 합니다. 결과적으로 동물의 행동, 인지, 시각 연구와 동물 로봇의..
테슬라의 옵티머스나 Figure AI의 Figure 1 등 휴머노이드 로봇과 관련된 공개 영상들을 보면, 사람의 행동을, 모방학습을 통해 엔드 투 엔드로 학습하는 방식이 주가 되고 있는 것 같습니다. 하지만, 이 분야는 정교하게 만들어진 기계적 장치가 필요하기 때문에 진입 장벽이 무척이나 높아, 사람들이 대부분 시작조차 해 보기 어려운 것도 사실입니다. HuggingFace 로봇 프로젝트 팀에서 공개한 오픈소스 기반 로봇 개발 도구 'LeRobot'은 그런 의미에서 의미가 있다고 할 수 있습니다. LeRobot은 로봇 공학을 위한 사전 훈련된 모델 세트, 사람이 수집한 시연이 포함된 데이터 세트, 시뮬레이션 환경, 비전언어모델(VLM) 및 대형언어모델(LLM)을 위한 라이브러리 등을 포함하고 있어, 사..
오마하의 현인으로 불리는 세계적인 투자가 버크셔해서웨이 회장인 워렌 버핏이 AI를 원자폭탄의 발명에 비유하는 언급을 해서 화제가 되고 있습니다. 연례 주총에서 AI 관련 질문에 대한 답변에서 나왔다고 합니다. “우리가 핵무기를 개발할 때 램프에서 지니(Genie)를 꺼냈다. 그 지니가 요즘 끔찍한 짓을 하고 있고 나는 그 지니의 힘이 두렵다. 지니를 다시 램프 속에 넣는 방법을 모르는데, AI도 지니와 어느정도 비슷하다.", "인류는 핵무기를 개발했을 때부터 통제력을 잃었다. AI도 이와 비슷하다고 생각한다. 우리가 AI를 만들지 않았더라면 좋았을지도 모른다" 아무래도 기술 전문가가 아닌 기업과 산업 분야 투자 전문가인 그조차도 AI가 가지는 잠재력을 꿰뚫어보고 그것이 사회에 끼칠 예상할 수 없는 파급효..
인공지능이 군사적으로 사용된다면... 늘 이 대목에선 영화 '터미네이터'에서의 한 장면이 떠오릅니다. 그저 스크린 상에 펼쳐진 사람들의 상상일 뿐이라고 치부할 수도 있겠지만 이런 상상은 이미 현실화되고 있습니다. 어쩌면 상당수준 이미 되었을지도 모르죠. 얼마 전에서는 인간 조종사와 AI조종사 간의 근접 공중전을 벌이는 영상이 소개된 바 있습니다. 시뮬레이션이 아닌 실제 하늘에서 말이죠. 그 전의 가상대결에서는 AI가 승리했다고 전해지는데 실제 공중전의 결과는 알려지지 않았습니다. 여튼... 이런 AI의 군사적 사용에 대한 경각심으로 시작되어 전 세계 143개국의 민간, 군사, 기술 관계자들이 모여 이를 통제하기 위한 논의를 했다고 합니다. 하지만, 각 나라의 이해관계가 다르기 때문에 합의안 도출이 사실상..
구글이 연례 개발자 회의(I/O)에서 AI 관련한 다양한 기술과 서비스를 소개했습니다. (링크) 구글이 제공하는 검색 서비스에 AI를 이용해 이용자 중심의 사용자 경험을 최적화하는데 중점을 두겠다고 천명한 거죠. 전날 OpenAI의 발표와는 기술적으로는 비슷한 부분이 많지만 초점을 둔 분야는 약간은 다른 셈입니다. 이날 소개된 기술들 가운데는 소프트웨어, 하드웨어 측면이 다 포함되는데 다음과 같은 것이 있습니다. 시간적으로는 개발 진행 중이라 향후 공식 릴리즈될 것들도 포함되어 있어 모두 다 직접 경험해 보려면 아직은 시간이 필요할 수도 있습니다.AI Overview : AI 검색 기능Ask Photos : 구글 포토에서의 AI 검색Project Astra : 멀티 모달을 지원하는 AI비서Gemini1...
OpenAI에서 새로운 멀티모달 모델 기반 서비스인 GPT-4o (GPT-4 Omni)를 이용한 데모를 시연했습니다. Omni라는 이름에서 알 수 있듯이 기존 텍스트 외에 음성, 영상까지 추가로 지원합니다. 음성→텍스트 변환, LLM 답변 생성, 텍스트→음성 변환 등등 동일한 서비스를 위해 여러 모델이 함께 동작했던 방식에서 통합 모델을 이용하는 방식으로 바뀌었다고 합니다. 자율주행을 개발하고 있는 테슬라에서 사용하던 기존 방식을 End to End로 AI모델이 처리하도록 하는 방식으로 바꾼 것과 같은 접근방식인 셈입니다. 데이터만 충분히 많다면 이런 것들이 가능하게 되는군요. 주인공이 늘상 대화를 나누던 인공지능과 사랑에 빠지게 되는 얘기를 담은 영화 'HER'에서 나온 인공지능 '사만다'를 떠올리..
자연스럽게 말하는 대화 영상을 생성하는 프레임워크 AniTalker는 입력 오디오와 참조할 얼굴사진을 이용해 자연스럽게 말하는 대화 영상을 생성하는 프레임워크입니다. 입술 동기화 등에 언어적인 부분에 초점을 맞춘 다른 모델과는 달리 AniTalker는 범용 모션 표현을 사용해 목소리의 속도, 높낮이, 감정에 따른 입술, 얼굴표정, 눈짓 등 미묘한 표정과 머리 움직임, 얼굴의 각도 및 방향 등을 생성하고 조작하는데 탁월한 성능을 보여줍니다. 확산 모델과 분산 어댑터를 통합해 상세하고 사실적인, 그러면서도 다양하고 제어 가능한 얼굴 움직임을 만듧니다. AniTalker가 움직임 표현을 향상시키는 두 가지 전략은, 동일 ID 내의 소스프레임에서 대상 비디오 프레임을 재구성해서 세밀한 동작 표현을 학습하는 것..
다양한 유형의 라인 아트 입력을 처리할 수 있는 SDXL-ControlNet 모델 MistoLine은 손으로 그린 스케치, 건축 도면, 드레스 디자인 등 다양한 유형의 라인 아트 입력을 처리할 수 있는 SDXL-ControlNet 모델입니다. (ControlNet은 조건을 추가하여 확산모델을 제어하는 신경망 구조) 이를 이용해 선명하고 생생한 고품질의 이미지(짧은 면 기준 1024px 이상)를 생성할 수 있습니다. MistoLine은 새로운 전처리 알고리즘으로 AnyLine을 사용하고, SDXL ControlNet 모델에 초점을 맞춰 재훈련되었습니다. 특징으로는 아주 디테일한 부분까지 잘 처리한다는 것입니다. 즉, 요소의 디테일이나 이미지 상의 텍스트 라벨을 정확히 추적할 수 있고, 라인 아트와 깊이 ..