일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 뉴럴링크
- AI
- 오블완
- 멀티모달
- 메타
- 티스토리챌린지
- LLM
- 딥마인드
- 확산 모델
- 생성형 AI
- 아두이노
- LORA
- 시간적 일관성
- OpenAI
- 오픈AI
- AI 기술
- 인공지능
- tts
- 우분투
- ControlNet
- 일론 머스크
- javascript
- 트랜스포머
- PYTHON
- ubuntu
- TRANSFORMER
- 이미지 편집
- 가상환경
- ChatGPT
- 서보모터
- Today
- Total
목록2024/09/08 (5)
AI 탐구노트
AI가 주도하는 디자인 혁신의 시대AI는 디자인 산업에서 반복적인 작업을 자동화하며, 디자이너들이 창의적인 부분에 더 집중할 수 있게 도우므로써 디자인의 미래를 재정의하고 디자이너와 협력하는 파트너로 자리잡고 있습니다. (디자인 정글) 특허청, 바이오·로봇·AI 분야 특허 심사관 60명 채용특허청은 바이오(35명), 첨단로봇(16명), 인공지능(9명) 분야에서 전문임기제 특허심사관을 채용하여 우리 기업이 특허를 더 빨리 확보할 수 있도록 돕고, 기술력 강화를 목표로 합니다. (머니투데이)특허청, AI 발명 인정 기준 마련 추진특허청은 인공지능(AI)을 이용한 발명에서 AI의 기여도를 기준으로 발명 인정 여부를 판단할 지침을 마련하려는 계획을 발표했고 이는 특허 심사 기준에 반영되고, 국제적으로 조화된 ..
오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 오디오 기반 영상 합성 모델 Loopy는 오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 새로운 오디오 기반 영상 합성 모델입니다. 기존 오디오 기반 초상화 영상 합성 방법들은 자연스럽지 않은 움직임을 보이거나, 머리 움직임과 표정을 제한하는 공간적 조건(예: 얼굴 위치나 속도 등)을 추가하여 제한된 움직임을 만들어내는데 이는 움직임의 자유로움과 다양성이 떨어지는 결과를 만듭니다. Loopy는 오디오 신호만으로 영상을 생성하며, 공간적 템플릿 없이도 자연스러운 움직임을 학습합니다. 이를 위해 긴 시간의 모션 의존성을 학습할 수 있는 inter-clip 및 intra-clip 시간적 모듈을 도입하고, 오디오 정보를 잠재공간(latent..
복잡한 이미지, 비디오와 다국어 텍스트 인식을 지원하는 비전 언어 모델 Qwen2-VL은 이미지와 비디오의 복잡한 이해 및 다국어 텍스트 인식이 가능한 최신 비전-언어 모델입니다. 기존 비전-언어 모델은 이미지 해상도에 대한 제한, 다국어 인식 부족, 긴 비디오 처리의 어려움, 실시간 상호작용 및 복잡한 작업 처리의 한계가 있었습니다. Qwen2-VL은 Naive Dynamic Resolution과 Multimodal Rotary Position Embedding (M-ROPE) 기술을 도입해 다양한 해상도의 이미지와 긴 비디오를 처리하며, 향상된 객체 인식과 다국어 지원, 실시간 에이전트 기능으로 문제를 해결할 수 있습니다. 다양한 해상도와 비율을 처리하며 모바일 및 로봇 제어까지 수행할 수 있습니다..
텍스트 프롬프트로 3D 파노라마 장면을 생성하는 프레임워크LayerPano3D는 텍스트 프롬프트를 통해 몰입감 높은 3D 파노라마 장면을 생성하는 새로운 프레임워크입니다. 기존 3D 장면 생성 방법은 연속적인 장면 확장 시 의미적 일관성이 떨어지거나, 복잡한 계층 구조를 제대로 처리하지 못하고 시야각의 제한을 받는 문제가 있었습니다. LAYERPANO3D는 2D 파노라마를 여러 깊이 계층으로 분해하고, 각 계층에서 숨겨진 공간을 생성하여 복잡한 장면 구조를 처리합니다. 이 방식은 텍스트 지시 기반의 앵커 뷰 생성과 다층 3D 파노라마를 결합해 360도 전방위적 시야와 자유로운 탐색을 제공합니다. LayerPano3 프레임워크의 특징은 다음과 같습니다. 텍스트 지시 앵커 뷰 생성텍스트 프롬프트를 기반으로 ..
다양한 동적 객체를 포함한 고해상도 도시 장면 재구성을 위한 통합 3DGS 프레임워크 OmniRe는 다양한 동적 객체를 포함한 고해상도 도시 장면을 효율적으로 재구성하는 통합적인 3DGS(3D Gaussian Splatting) 프레임워크입니다. 기존의 도로 주행 장면 재구성 방법들은 주로 차량에만 초점을 맞추고, 보행자 및 자전거 이용자와 같은 비차량 동적 객체를 간과하여 장면 재구성의 완성도를 떨어뜨렸습니다. 이는 특히 복잡한 도시 환경에서 다양한 객체와 동작을 정확히 모델링하는 데 어려움을 야기했습니다.OmniRe는 Gaussian 표현에 기반한 동적 신경 장면 그래프를 사용하여, 차량뿐만 아니라 보행자, 자전거 이용자 등 다양한 동적 객체를 포괄적으로 재구성합니다. 이를 위해 각 객체의 동적 움직..