일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 휴머노이드 로봇
- 오블완
- TRANSFORMER
- 인공지능
- 오픈소스
- PYTHON
- 오픈AI
- 일론 머스크
- OpenAI
- 메타
- ubuntu
- 강화 학습
- tts
- AI 기술
- 확산 모델
- 아두이노
- 티스토리챌린지
- LORA
- 다국어 지원
- 우분투
- ChatGPT
- OpenCV
- AI
- 딥러닝
- Stable Diffusion
- 시간적 일관성
- 트랜스포머
- LLM
- 생성형 AI
- 멀티모달
- Today
- Total
목록2025/03/04 (3)
AI 탐구노트

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다..

Alibaba 그룹의 Tongyi Lab에서 Wan 2.1이라는 텍스트와 이미지 등의 입력을 기반으로 비디오를 생성할 수 있는 고급 영상 생성 모델을 오픈소스로 공개했습니다. 이번 글에서는 이 모델에 대해 간략하게 알아보도록 하겠습니다. Wan 2.1Wan2.1은 다양한 영상 생성 작업을 지원하는 오픈소스 비디오 생성 모델들의 모음입니다.Text-to-Video, Image-to-Video, Video 편집, Text-to-Image, Video-to-Audio 등 여러 작업을 하나의 모델 패밀리로 수행할 수 있습니다.중국어, 영어 텍스트를 영상 속에 직접 생성해낼 수 있어 실용성이 높습니다.Wan-VAE라는 뛰어난 영상 전용 VAE(Variational Autoencoder)를 사용하여, 1080P 해..
다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다. 1️⃣ 테슬라와 비트코인: 성장 가능성과 리스크테슬라의 로보택시 및 주가 전망테슬라의 자율주행 로보택시: 2025년부터 본격적인 시장 확대 예상. 웨이모보다 데이터 확장성과 비용 절감에서 유리.일론 머스크의 낙관론: 5년 내 주가 10배 상승 가능성 언급. 전문가들도 800달러까지 상승 전망.장기 투자 전략 제안: 경제독립을 위해 테슬라 주식을 장기 보유하는 전략이 추천됨.비트코인 시장과 트럼프의 영향트럼프 발언 이후 비트코인 급등: 비트코인을 미국의 전략 자산으로 활용 가능성 시사.가격 변동성이 크지만 장기적 상승 가능성: 단기적 급등락보다는 장기적 시각에서 접근 필요.📌 시사점:테슬라는 AI, 자율주행, 로보택시 등..