| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- PYTHON
- 오픈AI
- OpenAI
- 자동화
- 딥러닝
- 음성 인식
- 바이브코딩
- gaussian splatting
- 인공지능
- 강화학습
- 음성합성
- 확산 모델
- 티스토리챌린지
- LLM
- XAI
- tts
- ChatGPT
- 우분투
- 이미지 편집
- 생성형AI
- 멀티모달
- 이미지 생성
- 오블완
- AI
- 감정 표현
- 일론 머스크
- 메타
- 오픈소스
- AI 기술
- 트랜스포머
- Today
- Total
목록grpo (3)
AI 탐구노트
스마트폰이나 디지털 카메라로 촬영한 사진을 확대해보면, 어느 순간부터 이미지가 뭉개지거나 흐릿해지는 경험을 한 적 있을 것입니다. 이는 대부분의 영상처리 기술이 정해진 범위 내에서만 해상도를 높일 수 있도록 설계되었기 때문입니다. 특히 '초해상도(Super-Resolution)' 기술은 저해상도 이미지를 고해상도로 복원하는 기술로 주목받고 있으며, 의료 영상, 위성 이미지 분석, 영상 보정 등 다양한 분야에서 활용되고 있습니다.하지만 현재 사용되고 있는 대부분의 초해상도 기술은 특정 확대 배율(예: 4배, 8배)까지만 효과적으로 동작하도록 학습되어 있기 때문에, 이를 넘는 극단적인 확대에는 심각한 성능 저하가 발생합니다. 이를 해결하기 위해 Chain-of-Zoom(CoZ)이라는 새로운 프레임워크이 등장..
인공지능이 우리 일상 곳곳에 스며들고 있는 지금, 텍스트 기반 인공지능이 주목받고 있습니다. 대표적인 예로는 대형 언어 모델(LLM)을 들 수 있는데, 이 모델들은 복잡한 문제를 텍스트로 표현하고 해석하는 데에 뛰어난 능력을 보여줍니다. 최근에는 이미지와 텍스트를 동시에 처리하는 다중모달 인공지능(MLLM)도 등장했지만, 여전히 텍스트를 중심으로 사고를 이어갑니다. 하지만 공간 정보나 시각 정보가 중심이 되는 문제에서는 과연 이런 방식이 최선일까요? 실제로 사람들은 복잡한 구조를 이해하거나 계획을 세울 때 종종 그림을 그려가며 생각합니다. 예를 들어, 미로를 탐색하거나 방 구조를 계획할 때 우리는 말보다 먼저 그림을 떠올립니다. 이처럼 '보면서 생각하기'가 훨씬 자연스러운 문제 영역에서는, 인공지능도 언..
1. 서론인공지능(AI) 분야는 최근 몇 년 동안 급격한 발전을 거듭하며 인공지능 일반화(AGI, Artificial General Intelligence)의 목표에 한 발 더 다가가고 있습니다. 특히, 대규모 언어 모델(LLM, Large Language Models)은 복잡한 수학 문제 풀이, 코드 작성, 과학적 추론과 같은 영역에서 이전보다 훨씬 정교한 성능을 보여주고 있습니다. 그동안 대부분의 LLM 개선은 지도 학습(supervised fine-tuning, SFT)에 의존하여 이루어졌습니다. 그러나 이러한 방식은 대규모의 고품질 데이터가 필수적이므로 데이터 준비에 막대한 시간과 비용이 소요됩니다. 최근 연구는 강화 학습(Reinforcement Learning, RL)을 통해 LLM이 스스로 ..
