일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 강화 학습
- 멀티모달
- tts
- 오픈AI
- OpenAI
- 우분투
- OpenCV
- TRANSFORMER
- 딥러닝
- 아두이노
- ubuntu
- 일론 머스크
- Stable Diffusion
- 오픈소스
- 생성형 AI
- 시간적 일관성
- 확산 모델
- 오블완
- 다국어 지원
- PYTHON
- 트랜스포머
- 티스토리챌린지
- LORA
- 휴머노이드 로봇
- AI 기술
- AI
- ChatGPT
- 인공지능
- LLM
- 메타
- Today
- Total
목록분류 전체보기 (498)
AI 탐구노트

다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다. 1. 미국의 보호무역 정책 및 증시 변동성관세 정책과 트럼프 행보트럼프 대통령의 관세 부과, 유예, 보호무역 정책이 반복적으로 발표되면서 글로벌 시장에서 불확실성을 증대시키고 있습니다.관세 대상 국가(멕시코, 캐나다, 한국 등)와의 무역 긴장이 심화되면서 단기적으로 투자자 신뢰가 약화되고, 자금이 미국 시장에서 유출되는 양상이 관측됩니다.증시의 단기 조정 현상미국 증시, 특히 기술주 중심의 나스닥 및 빅테크 주식이 급락하며 변동성이 확대되었습니다.엔캐리 트레이드 청산, 내부자 거래 의혹, 그리고 관세 정책의 반복적 변경이 시장 하락의 주요 요인으로 작용하고 있습니다.이러한 단기 조정 국면은 투자자들이 안전자산으로 이동하는..

음악 생성 기술은 최근 몇 년간 급격한 발전을 이루었으며, 인공지능(AI) 기반의 음악 생성 모델들은 새로운 창작 방식의 가능성을 열어가고 있습니다. 기존의 음악 생성 시스템은 보컬과 반주 트랙을 개별적으로 생성하거나, 다단계의 복잡한 아키텍처를 거쳐야만 고품질의 음악을 만들 수 있었으나 이러한 방식은 확장성이 부족하고, 짧은 음악 조각만을 생성하는 경우가 많아 실질적인 음악 창작 도구로 사용하기에는 한계가 존재했죠. 특히, 최근까지 대부분의 음악 생성 모델들은 자연어 처리에서 사용되는 언어 모델(Language Model) 기반의 접근 방식을 차용해 왔습니다. 하지만 이러한 모델들은 연산 비용이 높고, 추론 속도가 느려 실시간 응용에는 적합하지 않았고 이에 따라 빠르고 간결하면서도 고품질의 곡을 생성할..

인공지능(AI) 기술 패권을 두고 미국과 중국이 치열하게 경쟁하는 가운데, 한국을 포함한 나머지 국가들은 이를 따라잡기 위해 노력 중입니다. 하지만 AI는 이미 막대한 자본과 데이터가 필요한 기술로 자리 잡았고, 선두 주자와의 격차를 줄이는 것이 점점 더 어려워지고 있죠. 방향과 타이밍을 놓친 아쉬움이 큰 대목입니다. 어찌됐건 과거(오래지 않은)가 그렇더라도 다음 시대의 핵심 기술로 주목받는 양자컴퓨팅 분야에서라도 선제적으로 제대로 된 투자를 해야 하는 것 아닐까 하는 생각이 듭니다. 중국, 양자컴퓨터에서도 '게임 체인저'가 되나?최근 중국이 세계에서 가장 빠른 양자컴퓨터를 개발했다는 소식이 전해졌습니다. 중국과학기술대 판젠웨이 연구팀이 개발한 '쭈충즈(祖沖之) 3호'는 기존 슈퍼컴퓨터보다 1000조 배..

오디오 음원 업로드 티스토리에서 글을 쓸 때, 제가 생성한 영상이나 음원(mp3, wav)을 올려두고 소개하고 싶을 때가 있습니다. 그런데, 영상은 기본 제공되는 기능을 이용해서 업로드하면 바로 볼 수 있도록 되는데, 음원 파일은 업로드를 했을 때 그냥 파일로만 올라가기 때문에 웹페이지에서 들어볼 수 없다는 단점이 있었습니다. 그래서, 어떤 방식으로 할 수 있는지 찾아봤고 역시 답이 있었습니다. (humber님 블로그) 티스토리 음성파일 업로드 및 재생티스토리에서는 사진, 파일, 동영상, 슬라이드쇼 업로드 기능이 명확하게 제공되어 쉽게 활용할 수 있습니다. 하지만 음악, 음성등의 오디오 파일을 업로드하고 구독자들에게 효과적으로 전달humber.tistory.com 처리 절차음원 파일 업로드파일 속성..

AI 기술이 발전하는 속도가 정말 빠릅니다. 불과 2년 전까지만 해도 챗GPT 같은 생성형 AI가 화제였는데, 이제는 그다음 단계로 넘어가고 있죠. 바로 거대세계모델(Large World Model, LWM) 시대가 열리고 있습니다. 기존의 LLM(거대언어모델)이 언어를 중심으로 AI를 발전시켰다면, LWM은 현실 세계를 직접 이해하고 시뮬레이션하는 방향으로 진화하고 있습니다. 이 변화는 단순한 기술 발전이 아니라 AI가 실제 환경에서 인간과 상호작용하는 방식 자체를 바꾸는 혁신적인 전환점이 될 것입니다. 오늘은 LLM과 LWM의 차이점, 그리고 LWM이 메타버스뿐만 아니라 휴머노이드 로봇 기술에도 어떻게 영향을 미치는지 살펴보겠습니다.LLM vs. LWM, 무엇이 다를까?1) LLM: 언어를 이해하는 ..
다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다.1. 미국 경제와 트럼프의 정책정책 방향과 의도:트럼프의 연설과 경제 정책은 “America is Back”을 내세우며 자부심과 애국심을 고취하고, 세금 감면, 관세 인상, 에너지 및 반도체 정책 등 다양한 방안을 통해 미국 경제의 경쟁력을 강화하려는 의도를 보여줍니다. 그러나 동시에 이러한 정책들은 글로벌 무역 긴장과 미국 내부의 경기 침체, 심지어 스태그플레이션 우려를 낳고 있습니다.시장 및 채권 영향:관세 정책과 감세, 그리고 부채 만기 등의 문제로 인해 국채 금리 인하 유도와 소비 심리 위축 등 단기적 경제 혼란을 초래할 가능성이 제기되고 있습니다. 이는 소비 둔화와 투자 위축, 그리고 글로벌 공급망 충격 등으로 이..

음악 생성 기술이 발전하면서 인공지능이 작곡하는 음악의 질이 점점 향상되고 있습니다. 초기의 음악 생성 모델은 단순한 멜로디 패턴을 학습하고 생성하는 수준이었지만, 최근에는 대형 언어 모델(LLM)에서 영감을 받은 기법들이 적용되면서 더욱 정교한 음악을 만들어낼 수 있게 되었습니다. 이 글에서는 NotaGen이라는 심볼릭 음악 생성 모델을 소개합니다. NotaGen 논문에서는 대형 언어 모델의 훈련 패러다임(사전 훈련, 미세 조정, 강화 학습) 을 적용하여 음악의 질을 향상시키는 방법을 탐구하며 특히, CLaMP-DPO라는 강화 학습 기법을 통해 사람의 평가 없이도 자동으로 음악성을 개선하는 방식을 제안하고 있습니다. 심볼릭 음악(SM, Symbolic Music) : 음표, 리듬, 코드 등과 같은 음..
다음 내용은 경제 분야 유튜브 내용들을 가지고 AI를 이용해 요약 정리한 것입니다. 1️⃣ 미국 경제 및 증시 전망경기 침체 신호 확대: 1분기 미국 GDP 성장률이 -2.8%로 예상되며, 소비 위축 및 정부 지출 감소가 주요 원인.트럼프의 관세 정책 충격: 보호무역주의 강화로 글로벌 경기 둔화 및 증시 변동성 확대.증시 변동성 증가: AI, 반도체, 빅테크 주식이 급락했으며, 방어주(필수 소비재, 금, 채권) 선호 증가.반등 가능성: 크립토 서밋(비트코인 규제 완화 가능성), 물가 안정, 기업 밸류에이션 회복이 반등 요인.2️⃣ 한국 경제 및 부동산부동산 시장 양극화: 서울 신축 아파트 미분양 증가, 지방 부동산 침체 심화.건설업 위기: 건설사 줄도산 가능성 증가, PF 대출 부실로 대형 건설사 자산 ..

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다..

Alibaba 그룹의 Tongyi Lab에서 Wan 2.1이라는 텍스트와 이미지 등의 입력을 기반으로 비디오를 생성할 수 있는 고급 영상 생성 모델을 오픈소스로 공개했습니다. 이번 글에서는 이 모델에 대해 간략하게 알아보도록 하겠습니다. Wan 2.1Wan2.1은 다양한 영상 생성 작업을 지원하는 오픈소스 비디오 생성 모델들의 모음입니다.Text-to-Video, Image-to-Video, Video 편집, Text-to-Image, Video-to-Audio 등 여러 작업을 하나의 모델 패밀리로 수행할 수 있습니다.중국어, 영어 텍스트를 영상 속에 직접 생성해낼 수 있어 실용성이 높습니다.Wan-VAE라는 뛰어난 영상 전용 VAE(Variational Autoencoder)를 사용하여, 1080P 해..