Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- OpenAI
- 인공지능
- AI 기술
- 우분투
- 오픈AI
- ChatGPT
- XAI
- tts
- AI
- 강화학습
- 음성 인식
- 생성형AI
- PYTHON
- 확산 모델
- 이미지 편집
- LLM
- 이미지 생성
- 음성합성
- 바이브코딩
- 티스토리챌린지
- 딥러닝
- gaussian splatting
- 오블완
- 일론 머스크
- 오픈소스
- 메타
- 자동화
- 트랜스포머
- 감정 표현
- 멀티모달
Archives
- Today
- Total
목록Conditional Memory (1)
AI 탐구노트
요즘 대형 언어 모델(LLM)은 '크게 만들되, 계산은 아끼는' 방향으로 발전해 왔습니다. 대표적인 것이 MoE(Mixture-of-Experts)인데, 모든 파라미터를 매번 다 쓰지 않고 딱 맞는 분야의 전문가만 붙여 계산해서 비용을 줄입니다. 그런데 이 방식만으로는 한 가지 문제가 여전히 남습니다. 모델이 사실상 검색을 못 하니, 이미 정해진 지식이나 자주 나오는 표현까지도 매번 계산으로 재구성해야 한다는 점입니다. 이 과정이 특히 초반 레이어(층)에서 깊이를 많이 잡아먹습니다. 현실의 텍스트는 두 성격이 섞여 있습니다. 하나는 추론처럼 맥락에 따라 달라지는 동적인 계산이고, 다른 하나는 고유명사·관용구·정형 패턴처럼 로컬하고 정적인 패턴입니다. 논문에서는 이 둘을 한 가지 메커니즘으로 처리하는 게 ..
AI 기술
2026. 1. 18. 13:31
