AI 탐구노트

Phi-4 : Mixture-of-LoRAs를 활용한 강력한 멀티모달 언어 모델 본문

AI 기술

Phi-4 : Mixture-of-LoRAs를 활용한 강력한 멀티모달 언어 모델

42morrow 2025. 3. 8. 10:02

 

최근 인공지능(AI) 언어 모델 연구에서 매개변수의 크기를 줄이면서도 성능을 유지하거나 개선하는 방향이 활발히 진행되고 있습니다. 기존 대형 언어 모델들은 뛰어난 성능을 자랑하지만, 높은 연산 비용과 메모리 사용량이 문제로 지적되고 있습니다. 이에 따라 "소형 언어 모델(Small Language Models, SLMs)"에 대한 연구가 증가하고 있으며, 적절한 데이터 구성과 최적화된 모델 설계를 통해 대형 모델에 버금가는 성능을 달성하려는 시도가 이루어지고 있습니다.

 

Microsoft에서 발표한 Phi-4-MiniPhi-4-Multimodal은 이러한 흐름을 반영한 최신 연구 성과로, 3.8억 개의 매개변수만으로도 수학 및 코딩 분야에서 두 배 이상 큰 모델과 유사한 성능을 보여줍니다. 특히, Phi-4-Mini는 기존의 Phi-3.5-Mini보다 더 확장된 20만 개의 토큰을 지원하며, Group Query Attention(GQA) 기법을 활용해 긴 문맥을 보다 효율적으로 처리할 수 있도록 설계되었습니다.

 

또한 Phi-4-Multimodal은 텍스트뿐만 아니라 이미지, 음성, 오디오 입력을 통합하여 처리할 수 있는 멀티모달 모델입니다. 기존의 멀티모달 모델들이 서로 다른 입력 모달리티를 지원하기 위해 별도의 모델을 필요로 했던 반면, Phi-4-Multimodal은 LoRA(Low-Rank Adaptation) 어댑터와 모달리티별 라우터(router) 기술을 활용해 하나의 모델로 여러 입력을 효율적으로 처리할 수 있도록 설계되었습니다.

 


기존 LLM 모델의 문제점

  • 기존 대형 언어 모델은 높은 연산 비용과 메모리 사용량 문제로 인해 활용이 어려움
  • 멀티모달 모델은 개별 모달리티(텍스트, 이미지, 오디오 등)마다 별도의 모델을 필요로 하거나, 베이스 언어 모델을 직접 미세 조정해야 함
  • 이러한 접근법은 모델의 언어 처리 능력을 저하시킬 수 있으며, 모달리티 간의 간섭(interference) 문제를 초래함

Phi-4

 

1) Phi-4 모델의 동작 방식

Phi-4는 텍스트, 오디오, 비전(이미지)의 멀티 모달리티를 지원합니다. 이를 위해 다음과 같은 3단계의 동작 방식을 가집니다.

  • 언어모델 학습 단계 : 고품질 웹 및 합성 데이터로 사전 학습을 진행 (언어, 추론, 코딩 관련 작업 학습)
  • 멀티모달 확장 단계 : 언어모델의 매개변수 고정 후 추가적인 LoRA 어댑터를 이용해 이미지/음성 인코더와 프로젝터를 학습
    • 텍스트 : 언어모델에서 처리
    • 이미지 : SigLIP-400M 기반의 이미지 인코더로 정보 추출 -> 프로젝터를 통해 언어 임베딩과 정렬
    • 음성 : 음성 인코더가 음성 신호를 텍스트로 변환하기 위한 특징 추출 -> LoRA 어댑터로 보완 

 

그림 : Phi-4의 Multimodal 아키텍처 개요

 

2) 핵심 모델 

  • Phi-4-Mini
    • 목적: 비교적 작은 3.8억 파라미터 규모의 언어 모델임에도 불구하고, 수학 문제, 코딩, 복잡한 추론 등 다양한 작업에서 뛰어난 성능을 발휘합니다.
    • 특징: 고품질 웹 및 합성 데이터를 사용하여 학습되었으며, 특히 수학과 코딩 관련 데이터가 강화되어 있습니다. 또한, 200K에 달하는 어휘(vocabulary)를 지원해 다양한 언어를 효과적으로 처리할 수 있습니다.
  • Phi-4-Multimodal
    • 목적: 단일 모델로 텍스트뿐 아니라 이미지와 음성 같은 다양한 입력을 처리할 수 있도록 설계된 멀티모달 모델입니다.
    • 특징: 기본 언어 모델(즉, Phi-4-Mini의 구조)을 그대로 고정(freeze)해두고, 여기에 각 모달리티(이미지, 음성)에 특화된 작은 추가 모듈(LoRA 어댑터)을 붙여 다양한 입력을 동시에 처리합니다.

 

3) Phi-4에 적용된 세부 기술

 

  • Decoder-Only Transformer 구조
    • 두 모델 모두 Transformer 아키텍처를 기반으로 하며, 언어 생성 및 이해를 위해 32개의 레이어와 3072 차원의 히든 스테이트를 사용합니다.
  • Group Query Attention (GQA)
    • 긴 문맥을 효율적으로 처리하기 위해 일반적인 어텐션 메커니즘보다 메모리 사용량을 줄이면서도 중요한 정보를 놓치지 않도록 설계된 기술입니다.
  • LoRA (Low-Rank Adaptation) 어댑터
    • Phi-4-Multimodal에서는 기본 언어 모델의 파라미터는 고정한 채, 이미지나 음성 같은 다른 모달리티에 대해서는 별도의 LoRA 모듈을 학습합니다.
    • 작동 원리: 각 모달리티의 입력(예: 이미지, 음성)은 전용 인코더를 통해 특징을 추출하고, 이를 언어 모델의 임베딩 공간으로 맞춰주는 ‘프로젝터’ 계층을 거칩니다. 이후, 이 결과에 대해 LoRA 어댑터가 작동하여 언어 모델이 해당 모달리티의 정보를 효과적으로 처리할 수 있도록 합니다.
  • 동적 다중 자르기 (Dynamic Multi-Crop) 전략 (이미지 처리)
    • 이미지의 해상도와 비율에 따라 여러 개의 작은 영역으로 나누어 처리함으로써 다양한 크기의 이미지를 효과적으로 이해할 수 있게 합니다.
  • 음성 및 오디오 처리
    • 음성 입력은 80차원의 log-Mel 필터뱅크 특징을 이용하여 10ms 단위로 처리되며, Conformer 블록과 전용 프로젝터 계층을 통해 텍스트 임베딩 공간으로 매핑됩니다.

 


Phi-4-Mini 및 Phi-4-Multimodal은 기존 소형 언어 모델의 한계를 극복하면서도 효율성을 극대화한 모델입니다. 특히, Mixture-of-LoRAs 기법을 활용하여 멀티모달 확장이 가능하며, 기존 모델을 그대로 유지하면서도 성능을 유지할 수 있다는 점이 큰 강점으로 작용합니다.


참고자료

  • 논문) Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs (링크)
  • 데모) Phi-4 Multimodal 데모 (링크)

Q&A

Q. Phi-4-Mini는 기존 Phi-3.5-Mini와 비교했을 때 어떤 차이점이 있나요?

Phi-4-Mini는 20만 개의 확장된 토큰을 지원하며, GQA를 활용해 더 긴 문맥을 효율적으로 처리할 수 있습니다. 또한, 수학 및 코딩 데이터셋이 추가되어 논리적 추론 능력이 향상되었습니다.

 

Q. Mixture-of-LoRAs 기법이 기존 멀티모달 학습 방식과 다른 점은 무엇인가요?

기존 멀티모달 모델들은 기본 언어 모델을 미세 조정하는 방식이었지만, Mixture-of-LoRAs는 기존 언어 모델을 그대로 유지하면서 모달리티별 LoRA 어댑터만 추가하는 방식입니다. 이를 통해 모델 성능을 유지하면서도 다양한 입력을 효율적으로 처리할 수 있습니다.

 

Q. Phi-4-Multimodal은 어떤 종류의 입력을 동시에 처리할 수 있나요?

Phi-4-Multimodal은 텍스트, 이미지, 음성, 오디오 입력을 동시에 처리할 수 있으며, 예를 들어 음성 기반 질문에 대한 시각적 답변을 생성하는 것도 가능합니다.