일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 메타
- 티스토리챌린지
- OpenCV
- 딥러닝
- 인공지능
- 오픈소스
- 생성형AI
- LORA
- 우분투
- 생성형 AI
- LLM
- 다국어 지원
- 오픈AI
- AI 기술
- 확산 모델
- ubuntu
- 오블완
- 코딩
- PYTHON
- 강화 학습
- 실시간 렌더링
- Stable Diffusion
- tts
- OpenAI
- 시간적 일관성
- 일론 머스크
- AI
- 3d 재구성
- 트랜스포머
- 휴머노이드 로봇
- Today
- Total
목록강화 학습 (8)
AI 탐구노트

강화 학습(Reinforcement Learning, RL)은 최근 인공지능(AI) 모델의 성능을 극적으로 향상시키는 핵심 기술로 자리 잡고 있습니다. 기존의 지도 학습(supervised learning)과 비지도 학습(unsupervised learning) 방식은 모델을 사전에 훈련시키는 데 초점을 맞추지만, RL은 환경과의 상호작용을 통해 모델이 지속적으로 학습하고 개선될 수 있도록 합니다. 특히, 대규모 언어 모델(LLM)의 경우, RL을 활용하여 논리적 사고 능력과 문제 해결 능력을 강화할 수 있는 가능성이 높아지고 있습니다. 이러한 배경에서, QwQ-32B는 RL을 활용한 최신 연구 성과를 반영하여 개발된 모델로 주목받고 있습니다.기존 방식의 문제점기존의 대규모 언어 모델들은 주로 지도 학습..

음악 생성 기술이 발전하면서 인공지능이 작곡하는 음악의 질이 점점 향상되고 있습니다. 초기의 음악 생성 모델은 단순한 멜로디 패턴을 학습하고 생성하는 수준이었지만, 최근에는 대형 언어 모델(LLM)에서 영감을 받은 기법들이 적용되면서 더욱 정교한 음악을 만들어낼 수 있게 되었습니다. 이 글에서는 NotaGen이라는 심볼릭 음악 생성 모델을 소개합니다. NotaGen 논문에서는 대형 언어 모델의 훈련 패러다임(사전 훈련, 미세 조정, 강화 학습) 을 적용하여 음악의 질을 향상시키는 방법을 탐구하며 특히, CLaMP-DPO라는 강화 학습 기법을 통해 사람의 평가 없이도 자동으로 음악성을 개선하는 방식을 제안하고 있습니다. 심볼릭 음악(SM, Symbolic Music) : 음표, 리듬, 코드 등과 같은 음..

인공지능(AI)은 이제 단순한 도구를 넘어 인간의 지적 활동을 보조하고, 새로운 지식을 창출하며, 혁신적인 문제 해결 능력을 갖춘 존재로 발전하고 있습니다. 특히, xAI(X에 의해 설립된 AI 연구소)는 최첨단 AI 모델인 Grok 3를 공개하며 AI 업계에 또 한 번 혁신을 불러일으키고 있습니다. 일론 머스크와 3명의 엔지니어가 진행한 이번 발표에서, XAI는 Grok 3의 성능이 Grok 2보다 10~15배 향상되었으며, AI 모델의 학습 속도와 정확도가 비약적으로 발전했음을 강조했습니다. 또한, 대규모 데이터 센터를 신속하게 구축하고, AI의 합리적 사고 능력을 극대화하는 방식을 통해 AI가 더욱 똑똑하고 유용한 도구로 거듭나고 있음을 보여주었습니다. xAI의 목표는 단순한 AI 성능 개선을 넘..

1. 서론인공지능(AI) 분야는 최근 몇 년 동안 급격한 발전을 거듭하며 인공지능 일반화(AGI, Artificial General Intelligence)의 목표에 한 발 더 다가가고 있습니다. 특히, 대규모 언어 모델(LLM, Large Language Models)은 복잡한 수학 문제 풀이, 코드 작성, 과학적 추론과 같은 영역에서 이전보다 훨씬 정교한 성능을 보여주고 있습니다. 그동안 대부분의 LLM 개선은 지도 학습(supervised fine-tuning, SFT)에 의존하여 이루어졌습니다. 그러나 이러한 방식은 대규모의 고품질 데이터가 필수적이므로 데이터 준비에 막대한 시간과 비용이 소요됩니다. 최근 연구는 강화 학습(Reinforcement Learning, RL)을 통해 LLM이 스스로 ..

요즘 우리가 쓰는 챗봇이나 번역기 같은 AI는 대규모 언어 모델(LLM)이라는 기술을 활용해 작동합니다. 하지만 이 모델들은 이미 학습된 고정된 학습 결과물을 바탕으로 작동하기 때문에 새로운 주제나 문제가 주어질 때 쉽게 적응하지 못합니다. 만약 새로운 태스크나 데이터 도메인에 적응하도록 만들려면 높은 비용의 재학습 과정이 필요하죠. 이러한 한계를 극복하기 위해, 연구자들은 더욱 효율적이고 유연한 적응 가능성을 탐구하고 있습니다. Transformer2라는 기술은 이러한 문제를 해결하기 위해 고안되었습니다. 이 기술은 기존 모델을 다시 학습시키지 않고도 새로운 문제에 적응할 수 있는 '자가조정(Self-adaptive)' 기능을 가지고 있어 실시간으로 새로운 태스크에 적응할 수 있는 프레임워크를 제공합니..

요즘 인공지능(AI) 관련 이슈는 거의 매일 접할 수 있죠. 그중에서도 AI의 윤리성이나 안전성과 관련된 논의는 정말 중요한데요. 최근 한 연구에서 AI 모델이 사후 훈련을 통해 인간의 선호에 맞춘 척하지만, 사실은 기존 성향을 유지한다는 결과가 발표되었습니다. 앤트로픽 "AI, 본성 숨기고 가짜 대답 내놓는 '정렬 위장' 현상 보여" - AI타임스인공지능(AI) 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 연구 결과가 나왔다. 이 때문에 인간 선호에 맞춰www.aitimes.com 이를 '정렬 위장(alignment faking)'이라고 부르는데, 이번 글에서는 이 개념과 연구 내용을 좀 더 자세히 살펴보고자 합니다...

Microsoft가 개발한 최첨단 경량 멀티 모달 AI 모델 Phi-3.5-vision은 Microsoft가 개발한 멀티모달 AI 모델입니다. Phi-3.5-vision은 텍스트와 이미지를 동시에 처리할 수 있어 이미지 인식, 비디오 요약, OCR(광학 문자 인식), 시각적 질문 응답 등의 다양한 작업을 수행할 수 있고 문서 분석과 과학적 차트 해석에서도 강점을 보이며 자원을 효율적으로 사용하여 훨씬 더 큰 규모의 모델에 필적하는 성능을 보여줍니다. 이 모델은 GPU 환경에서 최적의 성능을 발휘하도록 설계되었으며, 특히 데이터 세트 기반 학습과 인간의 피드백을 통한 강화 학습 방식을 사용합니다. 확장성과 효율성 문제를 해결하기 위해 MoE(Mixture of Experts) 아키텍처를 도입했습니다. 기존..

실시간 상호작용하며 시뮬레이션 가능한 신경망 기반의 게임 엔진 GameNGen은 구글에서 공개한 신경망 기반의 게임 엔진으로, 복잡한 환경을 실시간으로 상호작용하며 시뮬레이션할 수 있는 최초의 모델입니다. 기존의 게임 엔진은 수작업으로 작성된 규칙과 로직에 따라 상태를 업데이트하고 렌더링하기 때문에 확장성과 자동화가 제한적입니다. 또한, 기존의 신경망 기반 시뮬레이션은 시뮬레이션 속도나 안정성, 또는 시각적 품질이 낮다는 한계가 있었습니다. GameNGen은 강화 학습 에이전트를 통해 수집된 데이터를 바탕으로 확장된 Stable Diffusion 모델을 학습하여 실시간 상호작용이 가능한 게임 시뮬레이션을 구현했습니다. 이 모델은 행동과 이전 프레임들을 조건으로 다음 프레임을 예측하며, 노이즈 증강을 통..