일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- AI
- 인공지능
- ubuntu
- 확산 모델
- 트랜스포머
- LORA
- 우분투
- TRANSFORMER
- 멀티모달
- 가상환경
- 시간적 일관성
- PYTHON
- 아두이노
- ControlNet
- tts
- AI 기술
- 서보모터
- 뉴럴링크
- OpenAI
- 딥마인드
- 메타
- 생성형 AI
- 오블완
- 오픈AI
- 이미지 편집
- javascript
- LLM
- ChatGPT
- 일론 머스크
- 티스토리챌린지
- Today
- Total
목록2024/09/06 (4)
AI 탐구노트
수십억 곡을 AI로 만든 음악가, 사기 혐의로 체포미국의 음악가 마이크 스미스는 AI를 이용해 스포티파이에서 수십억 곡을 생성해 부당한 스트리밍 수익 160억 원을 올려 사기 혐의로 체포됐다고 합니다. (AI타임스) 기사 내용을 보면 마이크라는 사람이 생성형 AI가 만든 음원을 스트리밍하면서 음악가와 작곡가들이 청구할 수 있는 스트리밍 수익을 받아간 것을 사기라 판단한 것으로 보입니다. 솔트룩스, 맞춤형 AI 검색 솔루션 'GOOVER Enterprise' 출시솔트룩스가 기업용 AI 검색 솔루션 'GOOVER Enterprise'를 출시했는데 이 솔루션은 AI 검색, 분석 및 결과 리포팅을 할 수 있는 기능을 제공합니다. (데일리경제)AI 검색이라고 하니 Perflexity 등이 생각나는데, 제가 생..
긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템 WhisperX는 음성 활동 감지(VAD) 및 음소 강제 정렬을 사용하여 긴 오디오 파일의 정확한 단어 수준 타임스탬프를 제공하는 음성 인식 시스템입니다. Whisper와 같은 기존 음성 인식 모델은 긴 오디오의 타임스탬프 예측에서 부정확하며, 단어별 타임스탬프를 제공하지 못했습니다. 또한, 긴 오디오 파일을 처리할 때 처리 속도가 느리고 메모리 제약으로 인해 병렬 처리가 되지 않았습니다. WhisperX는 VAD를 이용해 긴 오디오를 30초 이하의 짧은 청크로 분할하고, Whisper를 사용해 병렬로 오디오를 변환한 후, 음소 인식 모델을 통해 단어 수준의 타임스탬프를 정밀하게 맞춥니다. 위의 그림은 WhisperX의 전..
3D 포인트 클라우드와 그 특징을 입력으로 받아 영상에 대한 다양한 3D 관련 작업을 수행하는 모델 3D-LLM은 3D 포인트 클라우드와 그 특징을 입력으로 받아 영상에 대한 다양한 3D 관련 작업을 수행할 수 있도록 해 줍니다. 소개 영상에서는, 마치 메타포트사(Matterport)의 스캔 카메라로 촬영된 듯한 3차원 방 객체(인형의집(dollhouse)라 불리기도 함)에서 특정한 물체를 찾도록 시키거나, 영상 속 공간 의 특정한 위치로 가상으로 이동시킨 다음 거기서 주어지는 임무를 수행하게 하는 예시를 볼 수 있습니다. 즉, 3차원 공간 정보를 주고 그 속에서 LLM을 이용해서 대화 형태로 임무를 지시해서 수행시키는 것이죠. 지원되는 세부 기능은 다음과 같습니다.3D Grounding, 3D C..
증명사진을 손쉽게 생성할 수 있도록 도와주는 도구 HivisionIDPhotos는 AI 기반으로 ID 사진을 생성하는 도구입니다. 이 도구는 다양한 크기와 규격의 ID 사진을 만들 수 있으며, AI 알고리즘을 사용해 사진에서 인물만을 정확하게 추출하고 깨끗한 배경을 제거하고 사용자의 요구에 맞게 배경 색상 등을 변경할 수 있도록 해 줍니다. HivisionIDPhotos가 제공하는 주요 기능은 다음과 같습니다:자동 인물 추출: AI 알고리즘을 통해 인물을 배경에서 분리다양한 규격 지원: 여권, 비자 등의 규격에 맞는 ID 사진 생성배경 변경: 사용자 요구에 맞춰 배경 색상 등을 변경여러 장의 사진 레이아웃 생성: 6인치 레이아웃으로 여러 장의 ID 사진을 한 번에 배치함. 이렇게 출력하면 비용을 절약할..