| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 확산 모델
- LLM
- 음성 인식
- 음성합성
- PYTHON
- 자동화
- AI
- AI 기술
- 메타
- 바이브코딩
- OpenAI
- 일론 머스크
- 우분투
- 인공지능
- 오픈AI
- XAI
- tts
- 이미지 편집
- ChatGPT
- 생성형AI
- 감정 표현
- 딥러닝
- 티스토리챌린지
- 멀티모달
- 오블완
- 강화학습
- 트랜스포머
- 이미지 생성
- gaussian splatting
- 오픈소스
- Today
- Total
목록Self-Questioning (2)
AI 탐구노트
회사에서 반복되는 웹 업무를 자동화해 줄 에이전트를 한 번쯤 상상해 본 적 있을 겁니다. 이메일을 정리하고, 사내 시스템에 접속해 보고서를 제출하고, 여러 API를 조합해서 데이터를 모으는 일 같은 것들 말이죠. 요즘 대규모 언어 모델(LLM)이 이런 '디지털 업무 비서' 역할을 꽤 잘해 내면서, 에이전트(Agent)에 대한 연구가 인기를 끌고 있습니다. 문제는, 이런 에이전트를 진짜 실전에서 쓸 수 있게 훈련시키는 과정이 생각보다 엄청 비싸고, 느리고, 비효율적이라는 점입니다.기존 방식은 보통 사람이 일일이 과제를 만들고(예: '이 웹페이지에서 주문 정보를 이렇게 이렇게 정리해라'), 그 과제에 맞춰 강화학습(RL)을 돌리면서 수많은 시도를 시키는 구조입니다. 강화학습은 시도-실패-성공 경험을 많이 쌓..
인공지능의 발전은 방대한 데이터와 사람의 손길에 의존해 왔습니다. 특히 대규모 언어 모델(LLM)의 학습은 고품질의 질문과 정답이 포함된 데이터셋을 기반으로 합니다. 하지만 이런 데이터셋을 만드는 일은 많은 시간과 비용이 들며, 새로운 분야로 확장하려면 그만큼 추가적인 수작업이 필요합니다. 문제는 '질문' 자체를 만드는 것도 만만치 않다는 것입니다. 예를 들어 수학 문제나 코딩 문제를 만들려면 해당 분야 지식이 필요하고, 난이도와 품질을 맞추는 것도 어렵습니다. 연구자들은 이를 줄이기 위해, 모델이 스스로의 출력을 평가하거나 다수결 방식으로 정답을 추측하는 ‘비지도 보상 함수(unsupervised reward function)’를 개발했습니다. 하지만 이 방법조차도 질문은 사람이 만들어줘야 한다는 한계..
