일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 가상환경
- javascript
- 오블완
- 이미지 편집
- OpenAI
- 뉴럴링크
- 일론 머스크
- AI
- 티스토리챌린지
- LORA
- 메타
- 우분투
- 인공지능
- 트랜스포머
- LLM
- 서보모터
- tts
- 오픈AI
- 아두이노
- PYTHON
- ubuntu
- 확산 모델
- 시간적 일관성
- ControlNet
- 딥마인드
- ChatGPT
- AI 기술
- 멀티모달
- 생성형 AI
- TRANSFORMER
- Today
- Total
목록2024/09/02 (5)
AI 탐구노트
일관되고 역동적인 긴 영상을 생성하는 기법 StreamingT2V는 텍스트로부터 일관되고 역동적인 장시간 영상을 생성하는 새로운 기법입니다. 기존 텍스트-영상 변환 모델은 주로 짧은 길이의 고품질 비디오(보통 16~24 프레임) 생성에 집중되어 있으며, 이를 단순하게 확장하여 긴 비디오를 생성하면 장면 전환의 불일치와 영상 품질 저하가 발생합니다.StreamingT2V는 자동회귀(autoregressive) 방식을 사용하여 텍스트 기반으로 긴 영상을 생성하며, 일관된 장면 전환과 높은 움직임의 역동성을 유지합니다. 이를 위해 다음과 같은 두 가지 주요 모듈을 도입했습니다:조건부 주의 모듈(Conditional Attention Module, CAM)이전 비디오 청크에서 추출한 특징을 기반으로 현재 프레..
웹 데이터로 훈련된 비전-언어 모델을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시킨 비전-언어-액션(VLA) 모델 RT-2는 구글 딥마인드가 다양한 일상 환경에서의 로봇 제어를 위해 만든 인공지능 모델입니다. 기존 로봇 제어 모델은 주로 고정된 시나리오에서 훈련되어 일상의 다양한 환경에 적용되기에는 어려움이 있었습니다. RT-2는 이런 문제를 해결하기 위해 웹 데이터로 훈련된 비전-언어 모델(VLM)을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시켰습니다. 로봇의 행동을 텍스트 토큰으로 표현하고, 비전-언어 모델을 로봇 제어 데이터와 웹 스케일의 비전-언어 태스크로 공동 미세 조정(co-fine-tuning)하여 일반화 성능을 향상시켰죠. 예전에 구글 내에서 음료..
입력 프롬프트를 이용해 코믹스 만화 컷을 만들어주는 모델 Comic Factory는 HuggingFace의 Trend 부분을 보다가 발견한 것입니다. 공개 Space 자체에는 설명이 없어서 뭘하는 것인지 몰랐는데, 이래저래 하다보니 주어진 텍스트 프롬프트 내용에 맞춰 코믹스 만화 컷을 만들어주는 모델이라는 것을 알게 됐습니다. Preset (나라 별 만화의 스타일?)은 일본, 미국 등 4개가 제공됩니다. 세부 설명이 없어서 결과물은 다소 엉뚱하지만 장면 자체는 그럴 듯하게 나옵니다. 아래 예시는 단군신화 내용과 신데렐라, 그리고 아이언맨, 헐크 이야기를 짧막하게 텍스트 문장 1줄로 만들어 테스트 한 결과입니다. 참고) 데모, 코드찾아보니 유사한 기능을 제공하는 사이트로 이곳과 이곳 등 여러 곳이 ..
애플과 엔비디아, 오픈AI에 수십억 달러 투자 논의 중애플과 엔비디아가 인공지능(AI) 스타트업 오픈AI에 수십억 달러를 투자하는 방안을 논의 중이며 마이크로소프트도 추가 투자에 나설 것으로 에상됩니다., 오픈AI는 000억 달러 이상의 기업 가치로 자금 조달 라운드를 진행하고 있습니다. (테크M) 빅테크 기업들 조차도 살아남을 최소의 AI 기업 몇몇에 보험 성격으로 줄을 서는 듯한 모습으로 보이는 것은 왜일까요?딥핑소스와 BGF리테일, AI 기반 스마트 편의점 구현 위한 MOU 체결딥핑소스와 BGF리테일이 AI 기술을 활용한 'CU 스마트 편의점'을 구축하기 위해 MOU를 체결했습니다. 이 협약을 통해 딥핑소스는 BGF리테일의 편의점 운영에 맞춘 실시간 점포 관리 시스템을 제공하며, 무인 결제 시스템,..
3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷 Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다. Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에..