'reinforcement learning' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록reinforcement learning (2)

AI 탐구노트

TDM-R1 : Few-Step Diffusion을 강화학습으로 개선하는 방법

최근 인공지능 이미지 생성 기술은 빠르게 발전했습니다. 예전에는 이미지를 생성하는 데 많은 계산 단계가 필요했습니다. 하지만 최근에는 Few-Step Diffusion 모델이라는 방식이 등장하면서 훨씬 빠르게 이미지를 만들 수 있게 됐습니다. 몇 단계만으로도 사진처럼 자연스러운 이미지를 만들 수 있기 때문에 산업에서도 점점 많이 사용되고 있습니다. 하지만 속도가 빨라졌다고 해서 모든 문제가 해결된 것은 아닙니다. 예를 들어 텍스트 설명을 정확히 반영하지 못하거나, 이미지 속 객체의 위치가 틀리거나, 글자를 제대로 생성하지 못하는 문제가 여전히 존재합니다. 이러한 문제를 해결하기 위해 최근에는 강화학습(Reinforcement Learning)을 활용해 생성 모델의 품질을 개선하려는 연구가 진행되고 있습니..

AI 기술 2026. 3. 14. 13:35

SQLM (Self-Questioning Language Models) : 스스로 질문하며 성장하는 인공지능

인공지능의 발전은 방대한 데이터와 사람의 손길에 의존해 왔습니다. 특히 대규모 언어 모델(LLM)의 학습은 고품질의 질문과 정답이 포함된 데이터셋을 기반으로 합니다. 하지만 이런 데이터셋을 만드는 일은 많은 시간과 비용이 들며, 새로운 분야로 확장하려면 그만큼 추가적인 수작업이 필요합니다. 문제는 '질문' 자체를 만드는 것도 만만치 않다는 것입니다. 예를 들어 수학 문제나 코딩 문제를 만들려면 해당 분야 지식이 필요하고, 난이도와 품질을 맞추는 것도 어렵습니다. 연구자들은 이를 줄이기 위해, 모델이 스스로의 출력을 평가하거나 다수결 방식으로 정답을 추측하는 ‘비지도 보상 함수(unsupervised reward function)’를 개발했습니다. 하지만 이 방법조차도 질문은 사람이 만들어줘야 한다는 한계..

AI 기술 2025. 8. 12. 12:11

이전 Prev 1 Next 다음

목록reinforcement learning (2)

AI 탐구노트

티스토리툴바