일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 3d 재구성
- AI
- PYTHON
- 트랜스포머
- 시간적 일관성
- tts
- 오픈AI
- 강화 학습
- 메타
- 코딩
- AI 기술
- 우분투
- 딥러닝
- 오픈소스
- 생성형AI
- 휴머노이드 로봇
- 생성형 AI
- 인공지능
- LORA
- 티스토리챌린지
- 다국어 지원
- ubuntu
- 일론 머스크
- LLM
- 확산 모델
- 실시간 렌더링
- OpenCV
- OpenAI
- Stable Diffusion
- 오블완
- Today
- Total
목록2025/03 (80)
AI 탐구노트
다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다. 1️⃣ 미국 경제 및 증시 전망경기 침체 신호 확대: 1분기 미국 GDP 성장률이 -2.8%로 예상되며, 소비 위축 및 정부 지출 감소가 주요 원인.트럼프의 관세 정책 충격: 보호무역주의 강화로 글로벌 경기 둔화 및 증시 변동성 확대.증시 변동성 증가: AI, 반도체, 빅테크 주식이 급락했으며, 방어주(필수 소비재, 금, 채권) 선호 증가.반등 가능성: 크립토 서밋(비트코인 규제 완화 가능성), 물가 안정, 기업 밸류에이션 회복이 반등 요인.2️⃣ 한국 경제 및 부동산부동산 시장 양극화: 서울 신축 아파트 미분양 증가, 지방 부동산 침체 심화.건설업 위기: 건설사 줄도산 가능성 증가, PF 대출 부실로 대형 건설사 자산 ..

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다..

Alibaba 그룹의 Tongyi Lab에서 Wan 2.1이라는 텍스트와 이미지 등의 입력을 기반으로 비디오를 생성할 수 있는 고급 영상 생성 모델을 오픈소스로 공개했습니다. 이번 글에서는 이 모델에 대해 간략하게 알아보도록 하겠습니다. Wan 2.1Wan2.1은 다양한 영상 생성 작업을 지원하는 오픈소스 비디오 생성 모델들의 모음입니다.Text-to-Video, Image-to-Video, Video 편집, Text-to-Image, Video-to-Audio 등 여러 작업을 하나의 모델 패밀리로 수행할 수 있습니다.중국어, 영어 텍스트를 영상 속에 직접 생성해낼 수 있어 실용성이 높습니다.Wan-VAE라는 뛰어난 영상 전용 VAE(Variational Autoencoder)를 사용하여, 1080P 해..
다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다. 1️⃣ 테슬라와 비트코인: 성장 가능성과 리스크테슬라의 로보택시 및 주가 전망테슬라의 자율주행 로보택시: 2025년부터 본격적인 시장 확대 예상. 웨이모보다 데이터 확장성과 비용 절감에서 유리.일론 머스크의 낙관론: 5년 내 주가 10배 상승 가능성 언급. 전문가들도 800달러까지 상승 전망.장기 투자 전략 제안: 경제독립을 위해 테슬라 주식을 장기 보유하는 전략이 추천됨.비트코인 시장과 트럼프의 영향트럼프 발언 이후 비트코인 급등: 비트코인을 미국의 전략 자산으로 활용 가능성 시사.가격 변동성이 크지만 장기적 상승 가능성: 단기적 급등락보다는 장기적 시각에서 접근 필요.📌 시사점:테슬라는 AI, 자율주행, 로보택시 등..

현대 사회에서 정보의 흐름은 그 어느 때보다 빠르게 변화하고 있습니다. 이러한 변화 속에서 사람들의 관심사를 정확하게 파악하는 것은 개인이나 기업 모두에게 중요한 과제가 되었습니다. 특히, 디지털 마케팅, 콘텐츠 제작, 제품 개발 등 다양한 분야에서는 최신 트렌드와 대중의 관심사를 반영하는 것이 성공의 열쇠가 됩니다. 이러한 맥락에서 구글이나 네이버와 같은 검색 플랫폼에서 제공하는 인기 검색어 데이터를 활용하는 방법은 매우 유용한 도구로 자리 잡고 있습니다. 인공지능 기술의 발전과 함께 데이터 분석 능력도 비약적으로 향상되었습니다. 방대한 양의 데이터를 수집하고 분석하여 유의미한 정보를 도출하는 것이 가능해졌으며, 이는 개인화된 콘텐츠 추천, 시장 동향 분석, 사용자 경험 개선 등 다양한 분야에서 활용되..
다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다.1️⃣ 암호화폐 시장과 글로벌 경제 변수트럼프의 암호화폐 정책: 미국을 암호화폐 중심국으로 만들겠다는 발언 이후, 비트코인 및 알트코인이 급등. 3월 7일 백악관 암호화폐 서밋이 중요한 변곡점이 될 전망.미국 경제 및 연준 금리 정책: 3월 7일 발표될 고용지표가 금리 인하 여부에 큰 영향을 줄 것. 금리가 조기에 인하되면 증시 및 암호화폐 시장에 긍정적 요인으로 작용 가능.미국의 보호무역 및 관세 정책: 미국 GDP 성장 둔화 및 관세 이슈로 인해 글로벌 시장 변동성 증가.2️⃣ 미·중 기술 경쟁 및 산업 분석미국 M7 vs 중국 M7 비교: 미국 빅테크 기업들은 글로벌 시장에서 압도적 점유율을 가지고 있지만, 중국 기업..

인공지능(AI) 기술은 최근 몇 년간 비약적인 발전을 이루며, 다양한 산업 분야에서 혁신을 주도하고 있습니다. 특히, 대형 언어 모델(LLM)은 자연어 처리 분야에서 중요한 역할을 맡고 있으며, 텍스트 생성, 번역, 요약 등 여러 작업에서 인간과 유사한 수준의 성능을 보여주고 있습니다. 그러나 이러한 모델들은 방대한 연산 자원을 필요로 하며, 응답 시간과 비용 측면에서 한계가 존재합니다. 이러한 문제를 해결하기 위해, Inception Labs는 새로운 패러다임의 확산 기반 대형 언어 모델(dLLM)인 Mercury를 발표했습니다. Mercury는 기존의 자동회귀 방식과 달리, 텍스트를 한 번에 생성하는 'coarse-to-fine' 접근 방식을 채택하여 속도와 효율성을 크게 향상시켰습니다. 이를 통해 ..

인공지능(AI) 기반의 이미지 생성 기술은 최근 몇 년간 급격한 발전을 이루어왔다. 특히, 텍스트 기반 이미지 생성 모델은 단일 이미지를 생성하는 능력이 뛰어나지만, 개별 요소를 독립적으로 조작하거나 수정하는 것은 여전히 어려운 문제로 남아 있습니다. 전통적인 이미지 생성 모델은 하나의 통합된 이미지를 생성하는 데 초점을 맞추고 있으며, 사용자가 특정 부분을 변경하거나 제거하는 것이 쉽지 않죠. 이러한 문제를 해결하기 위해 다층(multi-layer) 이미지 생성 기법이 연구되고 있지만, 기존 방식은 각 레이어(layer)를 개별적으로 정의해야 하며, 이는 작업량이 많고 비효율적인 과정이 될 수 있습니다. Anonymous Region Transformer(ART) 라는 새로운 접근 방식은, 사용자 ..

최근 이미지에서 비디오를 생성하는 기술이 빠르게 발전하면서, 사용자가 원하는 대로 카메라 움직임을 조정할 수 있는 기능이 중요한 연구 주제가 되었습니다. 일반적으로 텍스트 기반의 비디오 생성 방식은 사용이 간편하지만, 카메라의 움직임을 정밀하게 제어하기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해 카메라 궤적(trajectory)을 기반으로 한 영상 생성 기법이 등장했지만, 실제 환경에서 적용하기 어려운 경우가 많았습니다. 카메라 궤적 기반의 기존 기술은 상대적인 스케일(relative scale)에서 작동하여 현실적인 3D 깊이(depth) 정보를 반영하기 어려웠습니다. 이로 인해 사용자는 특정 장면에서 정확한 카메라 움직임을 설계하는 데 어려움을 겪었습니다. 예를 들어, 깊이 정보가 없는 ..

LiteRT (Lite Runtime) 란?LiteRT는 예전에 Tensorflow Lite라고 불리던 것으로 2017년 구글에서 공개한 Edge(온디바이스) 용 AI 런타임입니다. 당시 다양한 ML/DL 작업을 Edge 장비에서 실행할 수 있도록 모델을 경량 최적화 변환을 한 후 동작시킬 수 있도록 해 주어 영상 분야 등에 활용하는 사례가 많았었습니다. 'Tensorflow Lite' 라는 이름 때문에 구글 자사가 만든 Tensorflow만 지원하는거 아니냔 오해가 있었는데 이후 PyTorch, JAX, Keras 등에서 만든 모델들을 고루 지원하는 형태로 바뀌면서 멀티 플랫폼을 지원한다는 느낌을 주기 위해 이름도 바꾼게 아닐까... 하는 추측을 해 봅니다. 왜냐면 이름 외에는 크게 바뀐 것이 없기 ..