일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- TRANSFORMER
- 아두이노
- 메타
- tts
- 티스토리챌린지
- LLM
- 오픈AI
- 오블완
- 생성형 AI
- ubuntu
- 일론 머스크
- 인공지능
- 오픈소스
- 우분투
- AI
- 트랜스포머
- 휴머노이드 로봇
- PYTHON
- 딥러닝
- ChatGPT
- 강화 학습
- OpenAI
- 멀티모달
- 시간적 일관성
- 확산 모델
- LORA
- OpenCV
- Stable Diffusion
- AI 기술
- 다국어 지원
- Today
- Total
목록전체 글 (511)
AI 탐구노트

일관되고 역동적인 긴 영상을 생성하는 기법 StreamingT2V는 텍스트로부터 일관되고 역동적인 장시간 영상을 생성하는 새로운 기법입니다. 기존 텍스트-영상 변환 모델은 주로 짧은 길이의 고품질 비디오(보통 16~24 프레임) 생성에 집중되어 있으며, 이를 단순하게 확장하여 긴 비디오를 생성하면 장면 전환의 불일치와 영상 품질 저하가 발생합니다.StreamingT2V는 자동회귀(autoregressive) 방식을 사용하여 텍스트 기반으로 긴 영상을 생성하며, 일관된 장면 전환과 높은 움직임의 역동성을 유지합니다. 이를 위해 다음과 같은 두 가지 주요 모듈을 도입했습니다:조건부 주의 모듈(Conditional Attention Module, CAM)이전 비디오 청크에서 추출한 특징을 기반으로 현재 프레..

웹 데이터로 훈련된 비전-언어 모델을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시킨 비전-언어-액션(VLA) 모델 RT-2는 구글 딥마인드가 다양한 일상 환경에서의 로봇 제어를 위해 만든 인공지능 모델입니다. 기존 로봇 제어 모델은 주로 고정된 시나리오에서 훈련되어 일상의 다양한 환경에 적용되기에는 어려움이 있었습니다. RT-2는 이런 문제를 해결하기 위해 웹 데이터로 훈련된 비전-언어 모델(VLM)을 로봇 제어에 통합하여, 일반화와 의미적 추론 능력을 크게 향상시켰습니다. 로봇의 행동을 텍스트 토큰으로 표현하고, 비전-언어 모델을 로봇 제어 데이터와 웹 스케일의 비전-언어 태스크로 공동 미세 조정(co-fine-tuning)하여 일반화 성능을 향상시켰죠. 예전에 구글 내에서 음료..

입력 프롬프트를 이용해 코믹스 만화 컷을 만들어주는 모델 Comic Factory는 HuggingFace의 Trend 부분을 보다가 발견한 것입니다. 공개 Space 자체에는 설명이 없어서 뭘하는 것인지 몰랐는데, 이래저래 하다보니 주어진 텍스트 프롬프트 내용에 맞춰 코믹스 만화 컷을 만들어주는 모델이라는 것을 알게 됐습니다. Preset (나라 별 만화의 스타일?)은 일본, 미국 등 4개가 제공됩니다. 세부 설명이 없어서 결과물은 다소 엉뚱하지만 장면 자체는 그럴 듯하게 나옵니다. 아래 예시는 단군신화 내용과 신데렐라, 그리고 아이언맨, 헐크 이야기를 짧막하게 텍스트 문장 1줄로 만들어 테스트 한 결과입니다. 참고) 데모, 코드찾아보니 유사한 기능을 제공하는 사이트로 이곳과 이곳 등 여러 곳이 ..

애플과 엔비디아, 오픈AI에 수십억 달러 투자 논의 중애플과 엔비디아가 인공지능(AI) 스타트업 오픈AI에 수십억 달러를 투자하는 방안을 논의 중이며 마이크로소프트도 추가 투자에 나설 것으로 에상됩니다., 오픈AI는 000억 달러 이상의 기업 가치로 자금 조달 라운드를 진행하고 있습니다. (테크M) 빅테크 기업들 조차도 살아남을 최소의 AI 기업 몇몇에 보험 성격으로 줄을 서는 듯한 모습으로 보이는 것은 왜일까요?딥핑소스와 BGF리테일, AI 기반 스마트 편의점 구현 위한 MOU 체결딥핑소스와 BGF리테일이 AI 기술을 활용한 'CU 스마트 편의점'을 구축하기 위해 MOU를 체결했습니다. 이 협약을 통해 딥핑소스는 BGF리테일의 편의점 운영에 맞춘 실시간 점포 관리 시스템을 제공하며, 무인 결제 시스템,..

3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷 Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다. Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에..

소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델 RobustL2S' 모델은 소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델입니다. 소리를 듣지 못하는 청각장애인들이 상대방의 입모양을 봐가며 의사소통을 해야하는 경우가 있는데, 바로 그런 상황에서 활용할 수 있는 모델이라고 보시면 됩니다.예전에 기사에서 COVID 19 때문에 마스크 착용이 의무화되었을 때 사람들간의 의사소통에 어려움이 있었다는 기사를 본 적이 있는 것 같습니다. 아무래도 귀에 들리는 소리만으로 하는 의사소통보다는 상대의 입술 모양을 봐가며 하는 의사소통이 더 많은 정보를 전달할 수 있기 때문에 그런 것..

재생가능한 에너지 저장에 사용할 새로운 촉매를 모델링하고 발견하기 위한 프로젝트 Open Catalyst 프로젝트는 Meta와 카네기 멜론대학 간의 공동 연구 결과로 발표되었는데 목표는 재생가능한 에너지 저장에 사용할 새로운 촉매를 모델링하고 발견하는 것으로, 이를 위한 데이터셋과 머신러닝 라이브러리를 제공합니다. 기존에는 이를 위해 물리적 실험 또는 DFT(Density Functional Theory)를 이용한 계산 시뮬레이션 방법을 이용했는데 너무 느리고 어렵다는 단점이 있었다고 하며 이를 머신러닝을 이용하는 방식으로 바꿔 기존 대비 1000배 이상 빠르게 물질의 반응성을 시뮬레이션 할 수 있도록 했다고 합니다. (이런 화학 분야는 문외한에 가까워 기술적으로는 언급하지 않겠습니다. ^^;) 여튼 ..

마이크로소프트가 공개한 다국어 TTS 모델 VALL-E X는 Microsoft가 개발한 Cross-lingual 음성 합성 모델로, 하나의 언어로 된 음성을 다른 언어로 변환합니다. 이 모델은 음성의 감정과 음색을 유지하면서, 학습된 데이터 없이 새로운 언어로 음성을 생성할 수 있는 기능을 갖추고 있습니다. 이를 통해 제로샷 텍스트-음성 합성 및 음성-음성 번역을 지원합니다. VALL-E X는 외국 억양을 효과적으로 제어할 수 있으며, 감정 유지 및 코드 스위칭 기능도 제공합니다. 사용상의 윤리적 문제를 예방하기 위한 조치도 고려되었다고 하죠. 텍스트 프롬프트, 오디오 파일 등을 입력으로 해서 다국어 TTS와 제로샷 음성 복제 기능을 제공하는데, 6GB VRAM의 GPU 혹은 CPU에서도 동작된다고 합니..

최소한의 인물 사진으로 나만의 디지털 트윈을 만들고 원하는 설정을 적용한 개인 사진을 생성할 수 있는 툴 체인 FaceChain은 최소 1장 (최대 3장)의 인물사진으로 나만의 디지털 트윈을 만들고 다양한 설정을 적용한 개인 인물사진을 생성할 수 있도록 해 주는 툴 체인입니다. 네이버나 카카오에서 프로필 사진을 생성하는 유료 서비스를 제공하고 있는데 이와 유사한 역할을 한다고 생각하면 될 것 같습니다. 이 툴 체인의 아키텍처를 보면 아시겠지만, 사용되는 모델들이 상당히 많으며 복잡한 처리 과정을 거칩니다. 모델로는 DamoFD (얼굴인식), 이미지 회전모델, M2FP (인간구문 분석모델), ABPN (피부 리터칭 모델), FairFace (얼굴 속성 인식모델), DeepDanbooru 모델, FQA(얼..

단일 뷰 얼굴 이미지에서 머리 전체의 3D 텍스처 모델을 생성하는 기술 PanoHead는 360° 모든 각도에서 일관된 고품질 3D 머리 이미지를 생성하는 최초의 3D GAN 모델입니다. 중국 바이트댄스와 위스콘신대 연구진이 공동으로 발표했죠. 기존의 GAN 방식은 높은 품질의 이미지 합성이 가능했지만 2D에 국한되어 서로 다른 방향에서 보는 장면을 합성하는데는 일관성이 제대로 보장되기 어려운 문제가 있었습니다. 그리고, 3D 모델을 만들기 위해서는 3D 스캔이나 별도의 렌더링 기술 적용 등의 추가적인 작업들이 필요했고 새로 등장한 모델들 또한 주로 정면에 가까운 시점만 제대로 지원이 되는 제약이 있었습니다. PanoHead는 이런 문제점들을 아래와 같은 기법을 이용해서 해결하고 있습니다. 트라이-그..