Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- 강화학습
- 음성 인식
- gaussian splatting
- OpenAI
- LLM
- tts
- PYTHON
- ChatGPT
- 생성형AI
- 인공지능
- AI
- 바이브코딩
- 이미지 생성
- 확산 모델
- 이미지 편집
- 메타
- 음성합성
- 자동화
- XAI
- 오블완
- 트랜스포머
- 감정 표현
- 오픈소스
- 티스토리챌린지
- 오픈AI
- AI 기술
- 딥러닝
- 우분투
- 멀티모달
- 일론 머스크
Archives
- Today
- Total
목록fineweb-2 (1)
AI 탐구노트
인터넷에는 수많은 언어로 된 문서들이 존재하지만, 우리가 흔히 접하는 대규모 언어 모델들은 주로 영어 같은 고자원 언어에 편중되어 있습니다. 이런 모델들이 뛰어난 성능을 내는 이유는 단순히 구조가 좋기 때문만이 아니라, 훈련에 사용되는 데이터가 방대하고 질이 높기 때문입니다. 그런데 이 데이터 대부분은 영어로 되어 있고, 덕분에 영어 기반 모델들은 똑똑하지만 다른 언어에 대한 이해도는 상대적으로 떨어집니다. 다양한 언어를 이해하는 다국어 모델을 만들기 위해서는 수천 개 언어에 대해 데이터를 수집하고 가공하는 작업이 필수입니다. 하지만 언어마다 구조도 다르고, 문장 구분 방식도 제각각이라 이 과정을 자동화하기는 무척 어렵습니다. 이에 대한 해답으로 등장한 것이 바로 Hugging Face에서 개발한 Fin..
AI 기술
2025. 7. 2. 10:57
