일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 가상환경
- ChatGPT
- 멀티모달
- 메타
- 딥러닝
- AI
- 아두이노
- 뉴럴링크
- PYTHON
- tts
- OpenAI
- LLM
- 오블완
- AI 기술
- 시간적 일관성
- 휴머노이드 로봇
- 오픈AI
- 일론 머스크
- 생성형 AI
- ubuntu
- 트랜스포머
- 티스토리챌린지
- 서보모터
- 딥마인드
- TRANSFORMER
- 확산 모델
- 우분투
- 인공지능
- LORA
- ControlNet
- Today
- Total
목록2024/09 (80)
AI 탐구노트
AI가 주도하는 디자인 혁신의 시대AI는 디자인 산업에서 반복적인 작업을 자동화하며, 디자이너들이 창의적인 부분에 더 집중할 수 있게 도우므로써 디자인의 미래를 재정의하고 디자이너와 협력하는 파트너로 자리잡고 있습니다. (디자인 정글) 특허청, 바이오·로봇·AI 분야 특허 심사관 60명 채용특허청은 바이오(35명), 첨단로봇(16명), 인공지능(9명) 분야에서 전문임기제 특허심사관을 채용하여 우리 기업이 특허를 더 빨리 확보할 수 있도록 돕고, 기술력 강화를 목표로 합니다. (머니투데이)특허청, AI 발명 인정 기준 마련 추진특허청은 인공지능(AI)을 이용한 발명에서 AI의 기여도를 기준으로 발명 인정 여부를 판단할 지침을 마련하려는 계획을 발표했고 이는 특허 심사 기준에 반영되고, 국제적으로 조화된 ..
오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 오디오 기반 영상 합성 모델 Loopy는 오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 새로운 오디오 기반 영상 합성 모델입니다. 기존 오디오 기반 초상화 영상 합성 방법들은 자연스럽지 않은 움직임을 보이거나, 머리 움직임과 표정을 제한하는 공간적 조건(예: 얼굴 위치나 속도 등)을 추가하여 제한된 움직임을 만들어내는데 이는 움직임의 자유로움과 다양성이 떨어지는 결과를 만듭니다. Loopy는 오디오 신호만으로 영상을 생성하며, 공간적 템플릿 없이도 자연스러운 움직임을 학습합니다. 이를 위해 긴 시간의 모션 의존성을 학습할 수 있는 inter-clip 및 intra-clip 시간적 모듈을 도입하고, 오디오 정보를 잠재공간(latent..
복잡한 이미지, 비디오와 다국어 텍스트 인식을 지원하는 비전 언어 모델 Qwen2-VL은 이미지와 비디오의 복잡한 이해 및 다국어 텍스트 인식이 가능한 최신 비전-언어 모델입니다. 기존 비전-언어 모델은 이미지 해상도에 대한 제한, 다국어 인식 부족, 긴 비디오 처리의 어려움, 실시간 상호작용 및 복잡한 작업 처리의 한계가 있었습니다. Qwen2-VL은 Naive Dynamic Resolution과 Multimodal Rotary Position Embedding (M-ROPE) 기술을 도입해 다양한 해상도의 이미지와 긴 비디오를 처리하며, 향상된 객체 인식과 다국어 지원, 실시간 에이전트 기능으로 문제를 해결할 수 있습니다. 다양한 해상도와 비율을 처리하며 모바일 및 로봇 제어까지 수행할 수 있습니다..
텍스트 프롬프트로 3D 파노라마 장면을 생성하는 프레임워크LayerPano3D는 텍스트 프롬프트를 통해 몰입감 높은 3D 파노라마 장면을 생성하는 새로운 프레임워크입니다. 기존 3D 장면 생성 방법은 연속적인 장면 확장 시 의미적 일관성이 떨어지거나, 복잡한 계층 구조를 제대로 처리하지 못하고 시야각의 제한을 받는 문제가 있었습니다. LAYERPANO3D는 2D 파노라마를 여러 깊이 계층으로 분해하고, 각 계층에서 숨겨진 공간을 생성하여 복잡한 장면 구조를 처리합니다. 이 방식은 텍스트 지시 기반의 앵커 뷰 생성과 다층 3D 파노라마를 결합해 360도 전방위적 시야와 자유로운 탐색을 제공합니다. LayerPano3 프레임워크의 특징은 다음과 같습니다. 텍스트 지시 앵커 뷰 생성텍스트 프롬프트를 기반으로 ..
다양한 동적 객체를 포함한 고해상도 도시 장면 재구성을 위한 통합 3DGS 프레임워크 OmniRe는 다양한 동적 객체를 포함한 고해상도 도시 장면을 효율적으로 재구성하는 통합적인 3DGS(3D Gaussian Splatting) 프레임워크입니다. 기존의 도로 주행 장면 재구성 방법들은 주로 차량에만 초점을 맞추고, 보행자 및 자전거 이용자와 같은 비차량 동적 객체를 간과하여 장면 재구성의 완성도를 떨어뜨렸습니다. 이는 특히 복잡한 도시 환경에서 다양한 객체와 동작을 정확히 모델링하는 데 어려움을 야기했습니다.OmniRe는 Gaussian 표현에 기반한 동적 신경 장면 그래프를 사용하여, 차량뿐만 아니라 보행자, 자전거 이용자 등 다양한 동적 객체를 포괄적으로 재구성합니다. 이를 위해 각 객체의 동적 움직..
3D 객체의 포괄적인 인간-객체 상호작용 능력을 학습하는 새로운 방법 ComA (Comprehensive Affordance)는 사전 학습된 2D 확산 모델을 활용해 3D 객체의 포괄적인 인간-객체 상호작용 능력을 학습하는 새로운 방법입니다. 기존의 인간-객체 상호작용(HOI) 연구는 주로 물리적 접촉에만 집중하여 비접촉 패턴이나 공간적 관계를 충분히 다루지 못했습니다. 이를 해결하기 위해 사전 학습된 2D 확산 모델을 사용하여 다양한 3D HOI 샘플을 생성하고, 이를 기반으로 물체 표면과 인간 표면 사이의 상대적인 위치와 방향을 모델링하는 파이프라인으로 ComA를 제안하고 있습니다. 이 기법에서 사용되는 특징적 기술로는 다음과 같은 것들이 있습니다. Comprehensive Affordance(C..
카카오가 공개한 초거대 언어모델을 기반으로 한 이미지 생성모델 칼로(Karlo) 2.0은 카카오가 공개한 초거대 언어모델을 기반으로 한 이미지 생성모델입니다. Stable Diffusion이나 DALE-E와 같은 모델이라고 보시면 됩니다. 카카오에서 카카오 디벨로퍼스 (Kakao Developers)를 통해 공개하고 있으며 개발자 등록을 하면 누구나 자유롭게 이미지를 생성해 볼 수 있습니다. MidJourney 등이 정해진 몇십장의 수량을 넘어서면 유료로 전환되었던 것에 비해 칼로 2.0은 월 60만장까지 무료로 생성할 수 있습니다. 월 60만장이면... 개인일 경우에는 거의 무제한인 셈입니다. 아쉬운 것은 API 형태로 제공되기 때문에 이걸 사용하려면 약간이라도 IT 기술을 이해하고 있어야 한다는 것입..
수십억 곡을 AI로 만든 음악가, 사기 혐의로 체포미국의 음악가 마이크 스미스는 AI를 이용해 스포티파이에서 수십억 곡을 생성해 부당한 스트리밍 수익 160억 원을 올려 사기 혐의로 체포됐다고 합니다. (AI타임스) 기사 내용을 보면 마이크라는 사람이 생성형 AI가 만든 음원을 스트리밍하면서 음악가와 작곡가들이 청구할 수 있는 스트리밍 수익을 받아간 것을 사기라 판단한 것으로 보입니다. 솔트룩스, 맞춤형 AI 검색 솔루션 'GOOVER Enterprise' 출시솔트룩스가 기업용 AI 검색 솔루션 'GOOVER Enterprise'를 출시했는데 이 솔루션은 AI 검색, 분석 및 결과 리포팅을 할 수 있는 기능을 제공합니다. (데일리경제)AI 검색이라고 하니 Perflexity 등이 생각나는데, 제가 생..
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
3D 포인트 클라우드와 그 특징을 입력으로 받아 영상에 대한 다양한 3D 관련 작업을 수행하는 모델 3D-LLM은 3D 포인트 클라우드와 그 특징을 입력으로 받아 영상에 대한 다양한 3D 관련 작업을 수행할 수 있도록 해 줍니다. 소개 영상에서는, 마치 메타포트사(Matterport)의 스캔 카메라로 촬영된 듯한 3차원 방 객체(인형의집(dollhouse)라 불리기도 함)에서 특정한 물체를 찾도록 시키거나, 영상 속 공간 의 특정한 위치로 가상으로 이동시킨 다음 거기서 주어지는 임무를 수행하게 하는 예시를 볼 수 있습니다. 즉, 3차원 공간 정보를 주고 그 속에서 LLM을 이용해서 대화 형태로 임무를 지시해서 수행시키는 것이죠. 지원되는 세부 기능은 다음과 같습니다.3D Grounding, 3D C..