AI 탐구노트

Sky-T1 : $450 이하로 구현한 고성능 추론 모델 본문

AI 기술

Sky-T1 : $450 이하로 구현한 고성능 추론 모델

42morrow 2025. 1. 16. 16:58

 

최근 인공지능 분야에서 추론 능력이 중요한 화두로 떠오르고 있습니다. 수학 문제 해결, 코드 생성, 퍼즐 풀이 등 다양한 작업에서 높은 성능을 발휘하는 모델들은 복잡한 사고 과정을 내재화하며 인상적인 결과를 도출하고 있습니다. 하지만 이러한 모델들은 일반적으로 높은 개발 비용과 제한된 접근성으로 인해 연구자 및 오픈소스 커뮤니티의 참여를 어렵게 만들었습니다.

 

잘 알려진 상용 추론 모델들은 뛰어난 성능을 보이지만, 모델의 가중치와 세부 기술이 비공개로 유지되어 오픈소스 커뮤니티가 이를 재현하거나 개선하기 어렵습니다. 또한, 이를 이용하기 위해서는 엄청난 비용이 들죠. 그러다보니 오픈소스 모델을 중심으로 이를 파인튜닝하는 쪽으로 접근하는 연구가 많이 진행되고 있습니다. 소규모 연구팀이 접근하기에는 현실적인 한계가 존재하기 때문이죠.

 

NovaSky 팀이 개발한 Sky-T1-32B-Preview 모델은 이러한 한계를 극복하려는 시도로 주목받고 있습니다. 단 $450 미만의 비용으로 훈련된 이 모델은 수학과 코딩 작업 모두에서 상위 성능을 기록하며, 추론 작업의 오픈소스화를 위한 새로운 기준을 제시합니다.

 


Sky-T1

Sky-T1은 오픈소스 모델인 Qwen2.5-32B-Instruct를 기반으로, 고품질의 데이터를 생성하고 이를 통해 모델을 미세 조정하는 방식으로 개발되었습니다. 이를 위해 다음과 같은 절차가 적용되었습니다.

  • 데이터 생성 : 수학, 코딩, 퍼즐 등 다양한 도메인에서 고품질 데이터를 수집 및 생성
  • 거절 샘플링(Rejection Sampling) : 부정확한 데이터를 제거하여 모델 학습의 신뢰도를 높임
  • 포맷 개선 : GPT-4o-mini를 활용해 학습 데이터를 재구성, 결과 분석 및 학습 효율성을 극대화

 

세부 적용 기술

  • 데이터 큐레이션
    Sky-T1은 17,000개의 데이터를 활용해 훈련되었습니다. 수학 문제 데이터는 NuminaMATH, 코딩 데이터는 APPs와 TACO 등 다양한 데이터셋에서 수집하였으며, 부정확한 데이터를 걸러내 정확도를 개선했습니다.
  • 훈련 기법
    Qwen2.5-32B-Instruct 모델을 기반으로, DeepSpeed Zero-3를 활용하여 비용 효율적인 훈련이 이루어졌습니다. 8개의 H100 GPU에서 19시간 동안 학습이 완료되었으며, 총 비용은 약 $450로 산정되었습니다.
  • 성능 평가 결과
    • 수학(MATH500): 기존 상위 모델과 유사한 82.4%의 정확도
    • 코딩(LiveCodeBench): Easy부터 Hard까지 다양한 난이도의 문제에서 높은 성능을 기록

 

타 모델과의 차별점

 

그림 : 타 모델과의 비교 (출처: NovaSky 공식 블로그)

 

제약사항

Sky-T1은 32B 규모에서 최적의 성능을 발휘하지만, 더 작은 모델에서는 성능이 저하되는 문제가 관찰되었습니다. 이는 반복적인 콘텐츠 생성 등 모델 크기와 데이터 간의 균형이 성능에 중요한 영향을 미침을 시사합니다.


결론

Sky-T1-32B-Preview는 경제성과 접근성을 모두 충족시키며, 오픈소스 기반의 추론 모델 개발에 새로운 가능성을 열었습니다. 특히, 단 $450의 비용으로도 상위 모델과 견줄 만한 성능을 달성했다는 점은 주목할 만합니다. 향후 모델 크기와 효율성을 더욱 개선한다면, 다양한 산업에서 비용 효율적인 AI 솔루션으로 활용될 가능성이 큽니다. 또한, 현재 제약사항인 모델 크기 의존성을 극복한다면, 소규모 환경에서도 적용 가능한 고성능 모델을 기대할 수 있습니다.

 


참고자료

  • 블로그) NovaSky Team, "Sky-T1: Train your own O1 preview model within $450," (링크)
 

Sky-T1: Train your own O1 preview model within $450

We introduce Sky-T1-32B-Preview, our reasoning model that performs on par with o1-preview on popular reasoning and coding benchmarks.

novasky-ai.github.io

 

  • 허깅페이스) Sky-T1 모델 카드 (링크)

Q&A

Q. Sky-T1의 가장 큰 장점은 무엇인가요?
저렴한 훈련 비용과 오픈소스화를 통해 AI 개발의 접근성을 크게 높였습니다.

 

Q. Sky-T1이 활용할 수 있는 주요 분야는?
수학 문제 해결, 코드 생성, 퍼즐 풀이 등 고도의 추론 능력이 필요한 모든 분야에서 활용 가능합니다.

 

Q. 데이터 품질을 높이기 위한 거절 샘플링이란 무엇인가요?
학습 데이터에서 부정확한 항목을 제거하여 모델이 신뢰할 수 있는 데이터만 학습하도록 하는 방법입니다.