일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 오픈소스
- 메타
- TRANSFORMER
- 확산 모델
- OpenCV
- OpenAI
- 오블완
- 트랜스포머
- 오픈AI
- LLM
- 강화 학습
- 일론 머스크
- LORA
- AI 기술
- 인공지능
- 시간적 일관성
- ubuntu
- 다국어 지원
- ChatGPT
- AI
- Stable Diffusion
- tts
- 휴머노이드 로봇
- 우분투
- 아두이노
- PYTHON
- 생성형 AI
- 멀티모달
- 딥러닝
- 티스토리챌린지
- Today
- Total
목록AI 기술 (220)
AI 탐구노트

Marker란?Marker는 PDF와 이미지 파일을 Markdown, JSON, HTML 등 다양한 형식으로 변환하여 문서의 텍스트, 테이블, 수식, 코드 블록, 이미지 등을 추출하고 포맷팅하는 도구입니다. 이 프로젝트는 VikParuchuri가 주도하여 개발되었으며, 오픈 소스 라이선스(GPL-3.0)를 기반으로 제공됩니다. 그리고, 자체 API를 서비스하고 있죠. 또한, Marker 관련 논의와 향후 개발 방향은 Discord 등 커뮤니티 채널에서 활발하게 이루어지고 있습니다. Marker를 어떤 곳에 사용할까?문서 디지털화 및 텍스트 추출복잡한 레이아웃(테이블, 폼, 수식 등)을 원본과 유사하게 재구성개발자나 연구자가 문서 데이터를 후처리하거나 분석할 때 활용CLI, Python API, 인터랙..

최근 인공지능 기술의 발전으로 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech) 기술이 주목받고 있습니다. 특히, 개인화된 음성 생성과 감정 표현이 가능한 모델에 대한 수요가 증가하고 있습니다. 이러한 흐름 속에서, 오픈 소스 기반의 ZONOS TTS 모델이 등장하여 큰 관심을 받고 있습니다. ZONOS는 20만 시간 이상의 다국어 음성 데이터를 학습하여 다양한 언어와 감정을 표현할 수 있는 TTS 모델입니다. 사용자는 자신의 음성을 복제하거나, 텍스트에 감정을 부여하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 이러한 기능은 개인화된 음성 비서, 오디오북 제작, 게임 캐릭터 음성 등 다양한 분야에서 활용될 수 있습니다. ZONOS TTS의 특징1.오픈 소스 기반 텍스트 음성 ..

인공지능(AI) 언어 모델이 발전하면서, 자연어 처리(NLP)에서의 활용 범위가 확장되고 있습니다. 일반적으로 생성형 언어 모델(Generative Language Model, GLM)은 Autoregressive 방식으로 토큰을 하나씩 생성하며 출력을 구성합니다. 하지만 일부 과제에서는 모델이 여러 개의 후보 중에서 적절한 정답을 선택하는 능력이 요구됩니다. 예를 들어, 선택형 질문 답변(MCQA), 극한 라벨 분류(extreme label classification), 의료 진단 등의 작업에서는 사전 정의된 후보군에서 최적의 답변을 골라야 합니다. 전통적인 방식은 전체 문장을 생성한 후, 후보군과 비교하여 가장 적합한 정답을 선택하는 것입니다. 하지만 이 방식은 시간이 오래 걸리고, 모델이 점진적으로..

얼굴 복원(Face Restoration, FR) 기술의 등장디지털 이미지 및 비디오 처리 기술은 현대 사회에서 중요한 역할을 하고 있으며, 특히 얼굴 복원(Face Restoration, FR)은 저해상도 혹은 손상된 얼굴 영상을 고품질로 복원하는 기술로 주목받고 있습니다. 기존 얼굴 복원 기술의 제약사항기존의 얼굴 복원 기술은 정지 이미지에 초점을 맞춰왔지만, 비디오 얼굴 복원(Video Face Restoration, VFR) 분야는 아직 많은 도전 과제를 안고 있습니다. 특히, 시간적 일관성 유지, 움직임에 따른 왜곡, 고품질 학습 데이터 부족 등의 문제가 해결되지 않았습니다.시간적 일관성 부족기존의 비디오 얼굴 복원 모델은 개별 프레임을 독립적으로 처리하는 경우가 많아, 영상에서 얼굴이 흔들리거..

최근 몇 년 동안 인공지능(AI) 기반의 인간 애니메이션 기술이 급속도로 발전하고 있습니다. 특히 음성 기반의 얼굴 애니메이션 생성 기술은 가상 캐릭터, 디지털 아바타, 게임, 영화 산업 등 다양한 분야에서 활용되고 있습니다. 그러나 기존의 애니메이션 생성 기술은 대부분 제한적인 데이터셋을 활용하고 있어 현실적인 움직임을 생성하는 데 한계가 있었습니다. 세부적으로는 기존의 오디오 기반 애니메이션 생성 모델들은 다음과 같은 한계를 가지고 있었습니다.데이터 필터링 문제 : 오디오 기반 모델의 경우, 학습 데이터에서 배경 움직임, 조명 변화 등의 불필요한 요소를 제거해야 하는데, 이 과정에서 유용한 동작 데이터까지 손실되는 문제가 발생했습니다. 포즈 기반 모델의 경우, 특정한 촬영 환경에서 정적인 배경을 가진..

1. 서론음악은 인간의 감정을 표현하고 문화적 가치를 전달하는 중요한 매체로, 오랜 시간 동안 다양한 형태로 발전해 왔습니다. 특히 디지털 기술의 발전과 함께 음악 제작 방식도 혁신을 거듭하고 있죠. 최근에는 인공지능(AI)을 활용하여 음악을 생성하거나 보완하는 연구가 활발히 진행되고 있는데, 이러한 기술은 창작자들에게도 새로운 도구가 되기도 하고 다른 한편으로는 음악 산업 전반에 위기 의식을 불러 오기도 합니다. AI를 활용한 음악 생성 분야에서 가장 큰 도전 중 하나는 주어진 가사로부터 완전한 노래를 생성하는 것입니다. 이는 단순한 멜로디 생성뿐만 아니라, 가사에 맞는 보컬 트랙과 반주를 포함한 전체 곡을 만드는 것을 의미합니다. 이러한 작업은 음악의 복잡한 구조와 다양한 요소들을 고려해야 하므로,..

1. 서론우리는 사진을 볼 때 특정한 사물(예: 강아지, 자동차, 나무)을 구분해서 볼 수 있는 반면. 컴퓨터는 이를 쉽게 이해하지 못하죠. 그래서 컴퓨터가 사진 속에서 원하는 사물만 찾아내도록 하는 기술이 필요한데 이를 이미지 분할(Image Segmentation) 이라고 합니다. 기존의 이미지 분할 기술은 크게 두 가지 방법이 있습니다.사전에 학습된 모델 사용 : 컴퓨터가 미리 학습한 사물(예: 고양이, 자동차)만 인식할 수 있어 새로운 사물에는 적용하기 어렵습니다.사람이 직접 선택 : 사용자가 사진 위에 선을 그리거나 특정 영역을 클릭해서 원하는 부분을 골라야 하지만, 시간이 많이 걸리고 불편합니다.이 논문에서는 스케치를 이용한 새로운 이미지 분할 방법을 제안합니다. 사용자가 직접 원하는 사물의..

1. 서론 단일 이미지를 보고 그 안에 있는 물체와 환경의 3D 깊이를 알아내는 기술은 요즘 다양한 분야에서 중요한 역할을 하고 있습니다. 이 기술은 가상현실, 영화 제작, 게임 디자인뿐 아니라 자율 주행 차량, 로봇 공학 등에서도 활용됩니다. 하지만 이 기술을 제대로 구현하려면 기존에는 특정 데이터나 카메라 정보가 꼭 필요했기 때문에 일반적으로 사용하기 어려운 경우가 많았습니다. 이런 한계를 극복하기 위해 나온 모델이 Depth Pro입니다. Depth Pro는 이미지를 찍은 카메라의 정보 없이도 단일 이미지에서 정확하고 세밀한 깊이 정보를 빠르게 추출할 수 있습니다. 특히, 카메라 초점 거리 등의 메타데이터 없이도 2.25메가픽셀(약 200만 화소)의 고화질 깊이 맵을 단 0.3초 만에 생성할 수 있..

1. 서론인공지능(AI) 분야는 최근 몇 년 동안 급격한 발전을 거듭하며 인공지능 일반화(AGI, Artificial General Intelligence)의 목표에 한 발 더 다가가고 있습니다. 특히, 대규모 언어 모델(LLM, Large Language Models)은 복잡한 수학 문제 풀이, 코드 작성, 과학적 추론과 같은 영역에서 이전보다 훨씬 정교한 성능을 보여주고 있습니다. 그동안 대부분의 LLM 개선은 지도 학습(supervised fine-tuning, SFT)에 의존하여 이루어졌습니다. 그러나 이러한 방식은 대규모의 고품질 데이터가 필수적이므로 데이터 준비에 막대한 시간과 비용이 소요됩니다. 최근 연구는 강화 학습(Reinforcement Learning, RL)을 통해 LLM이 스스로 ..

1. 서론포인트 트래킹(point tracking)은 영상 분석 분야에서 중요한 역할을 담당하며, 특히 3D 재구성 및 비디오 편집 같은 작업에서 정확한 포인트 간의 대응 관계를 복구하는 데 사용됩니다. 최근에는 트랜스포머 기반 설계가 도입되어 포인트 트래킹 모델의 정확도가 크게 향상되었습니다. 하지만 대부분의 최신 모델은 합성 데이터를 주로 학습에 사용하며, 이는 실제 비디오 데이터와의 통계적 차이로 인해 성능 저하를 초래할 수 있습니다. 이 논문에서 소개된 CoTracker3 모델은 간단한 아키텍처와 반지도 학습(semi-supervised learning)을 활용하여 기존 모델보다 더 적은 데이터로도 높은 성능을 달성할 수 있음을 보여줍니다. 특히, CoTracker3는 기존 모델에서 필요하다고 여..