일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 딥러닝
- ChatGPT
- 확산 모델
- TRANSFORMER
- 아두이노
- 시간적 일관성
- 다국어 지원
- 인공지능
- 메타
- 티스토리챌린지
- 멀티모달
- 이미지 생성
- 오픈소스
- 강화 학습
- LORA
- 오픈AI
- OpenAI
- 우분투
- 휴머노이드 로봇
- PYTHON
- AI
- 실시간 렌더링
- LLM
- 트랜스포머
- AI 기술
- OpenCV
- 일론 머스크
- 오블완
- tts
- 생성형 AI
- Today
- Total
목록SLM (2)
AI 탐구노트

마이크로소프트에서 발표한 경량 언어모델 마이크로소프트에서 Phi-3를 발표했습니다. (2024.4) phi-3는 SLM(Small Language Model)으로 이번에는 mini, small, medium 등 여러 버전으로 소개되었는데 각각 3.8B, 7B, 14B의 매개변수를 가지는 모델입니다. 이 가운데 mini 버전의 경우, 3.3조개의 토큰을 이용해 훈련되었고 4K 및 128K 토큰의 컨텍스트 길이를 지원하는 사전 학습모델이 HuggingFace에 올려져 있어 테스트 해 볼 수 있습니다. 작고 가볍지만 GPT-3.5보다 전반적으로 성능이 더 뛰어나다는데, 그 이유는 고품질의 데이터셋을 학습하고, 인간 피드백(RLHF)를 이용한 강화학습, 자동화된 테스트 및 평가와 레드팀을 통한 안전성 검토 등..

Apple에서 발표한 SLM(Small Language Model) 모델 OpenELM(Open Efficient Language Model)은 Apple에서 발표한 SLM(Small Language Model) 모델입니다. 그동안 구글, 메타 등에 비해 애플에서는 AI 관련한 기술 소개가 그리 많지 않았었습니다. 하지만 앞으로는 이름에 걸맞는 저력을 하나씩 공개해 나갈 것으로 예상됩니다. 이번에 발표된 OpenELM은 270M, 450M, 1.08B, 3.04B 큭기의 매개변수를 가지는 비교적 작은 크기의 모델로, 기본모델과 Instruct 모델이 포함됩니다. 계층 별 스케일링 전략을 채택하여 효율적인 매개변수 할당을 통해 자연어 이해 및 생성에서의 정확도를 향상시켰다고 합니다. 트랜스포머 기본 구조와..