일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 멀티모달
- 가상환경
- 확산 모델
- 딥마인드
- LLM
- OpenAI
- ChatGPT
- AI 기술
- TRANSFORMER
- LORA
- 아두이노
- 생성형 AI
- 오픈AI
- 메타
- 일론 머스크
- tts
- 이미지 편집
- 뉴럴링크
- 서보모터
- 우분투
- ControlNet
- 트랜스포머
- PYTHON
- ubuntu
- 티스토리챌린지
- 오블완
- 인공지능
- 시간적 일관성
- AI
- javascript
- Today
- Total
목록2024/09 (80)
AI 탐구노트
3D 데이터로부터 3D 세그멘테이션을 수행하는 모델 SAM2Point는 3D 데이터를 비디오로 변환하여 SAM 2에서 3D 세그멘테이션을 수행하는 모델입니다. SAM2Point는 3D 데이터를 다양한 방향의 비디오로 해석하여, Segment Anything Model 2 (SAM 2)를 통해 3D 공간에서 훈련 없이도 효과적인 세그멘테이션을 수행하는 모델입니다. 기존 방식에서는 다음과 같은 문제점들이 있었습니다. 비효율적인 2D-3D 투영기존 3D 세그멘테이션 방법들은 3D 데이터를 2D로 변환하여 SAM에 입력한 후, 다시 3D 공간으로 역투영하는 방식이 사용되었으며, 이는 처리 복잡성을 증가시킴3D 공간 정보 손실2D 투영 과정에서 3D 객체의 내부 구조와 같은 세부 공간 정보가 손실되어 정확한 ..
ChatGPT의 코딩 능력을 빌어와 아이와 함께 할 수 있는 프로그램 만들기 유튜브에는 재미난 퀴즈를 소개하는 채널들이 있습니다. 아이와 가끔씩 들여다 보는 편인데 생각보다 재미있어서 보다보면 어느새 몇 개는 훌쩍 지나가 버리고 말죠. 아무래도 제시되는 문제들이 일반적인 것들이어서 나름 나만의 퀴즈를 만들어서 아이와 함께 해 보는 것은 어떨까 생각하게 됐고 그렇게 해 봤습니다. 코딩은 ChatGPT한테 시키고 저는 그걸 옮겨서 실행만 시키는 걸로... ^^; 일단 다음과 같은 프롬프트를 이용했습니다. 퀴즈를 내는 웹 프로그램을 만들텐데 구현하려는 기능은 다음과 같아.단, python 만으로 가능하면 그렇게 해 주고 그렇지 않으면 javascript나 html을 사용해도 좋아. 1.화면은 첨부한 이미지..
일관되고 역동적인 긴 영상을 생성하는 기법 StreamingT2V는 텍스트로부터 일관되고 역동적인 장시간 영상을 생성하는 새로운 기법입니다. 기존 텍스트-영상 변환 모델은 주로 짧은 길이의 고품질 비디오(보통 16~24 프레임) 생성에 집중되어 있으며, 이를 단순하게 확장하여 긴 비디오를 생성하면 장면 전환의 불일치와 영상 품질 저하가 발생합니다.StreamingT2V는 자동회귀(autoregressive) 방식을 사용하여 텍스트 기반으로 긴 영상을 생성하며, 일관된 장면 전환과 높은 움직임의 역동성을 유지합니다. 이를 위해 다음과 같은 두 가지 주요 모듈을 도입했습니다:조건부 주의 모듈(Conditional Attention Module, CAM)이전 비디오 청크에서 추출한 특징을 기반으로 현재 프레..
웹 데이터로 훈련된 비전-언어 모델을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시킨 비전-언어-액션(VLA) 모델 RT-2는 구글 딥마인드가 다양한 일상 환경에서의 로봇 제어를 위해 만든 인공지능 모델입니다. 기존 로봇 제어 모델은 주로 고정된 시나리오에서 훈련되어 일상의 다양한 환경에 적용되기에는 어려움이 있었습니다. RT-2는 이런 문제를 해결하기 위해 웹 데이터로 훈련된 비전-언어 모델(VLM)을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시켰습니다. 로봇의 행동을 텍스트 토큰으로 표현하고, 비전-언어 모델을 로봇 제어 데이터와 웹 스케일의 비전-언어 태스크로 공동 미세 조정(co-fine-tuning)하여 일반화 성능을 향상시켰죠. 예전에 구글 내에서 음료..
입력 프롬프트를 이용해 코믹스 만화 컷을 만들어주는 모델 Comic Factory는 HuggingFace의 Trend 부분을 보다가 발견한 것입니다. 공개 Space 자체에는 설명이 없어서 뭘하는 것인지 몰랐는데, 이래저래 하다보니 주어진 텍스트 프롬프트 내용에 맞춰 코믹스 만화 컷을 만들어주는 모델이라는 것을 알게 됐습니다. Preset (나라 별 만화의 스타일?)은 일본, 미국 등 4개가 제공됩니다. 세부 설명이 없어서 결과물은 다소 엉뚱하지만 장면 자체는 그럴 듯하게 나옵니다. 아래 예시는 단군신화 내용과 신데렐라, 그리고 아이언맨, 헐크 이야기를 짧막하게 텍스트 문장 1줄로 만들어 테스트 한 결과입니다. 참고) 데모, 코드찾아보니 유사한 기능을 제공하는 사이트로 이곳과 이곳 등 여러 곳이 ..
애플과 엔비디아, 오픈AI에 수십억 달러 투자 논의 중애플과 엔비디아가 인공지능(AI) 스타트업 오픈AI에 수십억 달러를 투자하는 방안을 논의 중이며 마이크로소프트도 추가 투자에 나설 것으로 에상됩니다., 오픈AI는 000억 달러 이상의 기업 가치로 자금 조달 라운드를 진행하고 있습니다. (테크M) 빅테크 기업들 조차도 살아남을 최소의 AI 기업 몇몇에 보험 성격으로 줄을 서는 듯한 모습으로 보이는 것은 왜일까요?딥핑소스와 BGF리테일, AI 기반 스마트 편의점 구현 위한 MOU 체결딥핑소스와 BGF리테일이 AI 기술을 활용한 'CU 스마트 편의점'을 구축하기 위해 MOU를 체결했습니다. 이 협약을 통해 딥핑소스는 BGF리테일의 편의점 운영에 맞춘 실시간 점포 관리 시스템을 제공하며, 무인 결제 시스템,..
3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷 Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다. Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에..
소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델 RobustL2S' 모델은 소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델입니다. 소리를 듣지 못하는 청각장애인들이 상대방의 입모양을 봐가며 의사소통을 해야하는 경우가 있는데, 바로 그런 상황에서 활용할 수 있는 모델이라고 보시면 됩니다.예전에 기사에서 COVID 19 때문에 마스크 착용이 의무화되었을 때 사람들간의 의사소통에 어려움이 있었다는 기사를 본 적이 있는 것 같습니다. 아무래도 귀에 들리는 소리만으로 하는 의사소통보다는 상대의 입술 모양을 봐가며 하는 의사소통이 더 많은 정보를 전달할 수 있기 때문에 그런 것..
재생가능한 에너지 저장에 사용할 새로운 촉매를 모델링하고 발견하기 위한 프로젝트 Open Catalyst 프로젝트는 Meta와 카네기 멜론대학 간의 공동 연구 결과로 발표되었는데 목표는 재생가능한 에너지 저장에 사용할 새로운 촉매를 모델링하고 발견하는 것으로, 이를 위한 데이터셋과 머신러닝 라이브러리를 제공합니다. 기존에는 이를 위해 물리적 실험 또는 DFT(Density Functional Theory)를 이용한 계산 시뮬레이션 방법을 이용했는데 너무 느리고 어렵다는 단점이 있었다고 하며 이를 머신러닝을 이용하는 방식으로 바꿔 기존 대비 1000배 이상 빠르게 물질의 반응성을 시뮬레이션 할 수 있도록 했다고 합니다. (이런 화학 분야는 문외한에 가까워 기술적으로는 언급하지 않겠습니다. ^^;) 여튼 ..
마이크로소프트가 공개한 다국어 TTS 모델 VALL-E X는 Microsoft가 개발한 Cross-lingual 음성 합성 모델로, 하나의 언어로 된 음성을 다른 언어로 변환합니다. 이 모델은 음성의 감정과 음색을 유지하면서, 학습된 데이터 없이 새로운 언어로 음성을 생성할 수 있는 기능을 갖추고 있습니다. 이를 통해 제로샷 텍스트-음성 합성 및 음성-음성 번역을 지원합니다. VALL-E X는 외국 억양을 효과적으로 제어할 수 있으며, 감정 유지 및 코드 스위칭 기능도 제공합니다. 사용상의 윤리적 문제를 예방하기 위한 조치도 고려되었다고 하죠. 텍스트 프롬프트, 오디오 파일 등을 입력으로 해서 다국어 TTS와 제로샷 음성 복제 기능을 제공하는데, 6GB VRAM의 GPU 혹은 CPU에서도 동작된다고 합니..