AI 탐구노트

[Ollama] HuggingFace LLM 모델 사용하기 본문

AI 관련 소식

[Ollama] HuggingFace LLM 모델 사용하기

42morrow 2024. 10. 20. 12:06

 

Ollama란?

Ollama는 로컬 컴퓨터에서 LLM 모델을 실행하고 관리할 수 있는 플랫폼입니다. Macbook Air를 이용해서 LLM을 구동할 수 있는 방법을 찾아보다 알게 되었는데 어려운 환경 설정없이, GPU 없이도 생각보다 용이하게 모델들을 바꿔가며 실행할 수 있어 편리했습니다. 다만, 로컬에서 구동되는 LLM의 성능이 아무래도 OpenAI의 ChatGPT나 Claude에 비해 떨어지는 것은 현실이라, 데이터 보안 등이 필요치 않은 상황이면 굳이 이를 사용해야 할까 하는 생각에 경험만 해 보고는 잊고 있었습니다.

 

Macbook Air에는 GPU가 없지 않나요?

그렇죠.  Apple Silicon M1 칩이 강력하긴 하지만,  NIVIDA GPU 대비해서는 모자라는 것은 사실입니다. 게다가 LLM는 대부분 큰 용량의 메모리가 필요해서 고사양의 GPU가 있어야 한다고 알려져 있죠. 하지만 GGUF 모델을 사용하게 되면 고사양의 GPU가 없어도 이런 문제가 해결됩니다. 

 

GGUF 모델?

GGUF (Georgi Gerganov Unified Format)는 모델의 크기와 메모리 사용량을 줄여 저사양 하드웨어에서도 AI 모델을 실행할 수 있도록 만들어진 포맷입니다. Georgi Gerganov라는 개발자가 만든 딥러닝 모델을 저장하는 단일 파일 포맷이라고 설명되어 있습니다. 경량화 및 최적화, 그리고 여러 LLM 모델과 호환되도록 설계가 되어 있다고 알려져 있습니다. GGUF 모델에 대해서 좀 더 자세히 알고 싶으시면 아래 URL을 참고하세요.

 

GGUF (Georgi Gerganov Unified Format)

GGUF GGUF 는 Georgi Gerganov(@ggerganov)란 개발자가 만든 딥러닝 모델을 저장 용도의 단일 파일 포맷이다. GGML 라이브러리 기반의 런타임에서 주로 사용이 되고 있다. 현재는 주로 LLM 추론에 많이 활용이

bitwise-life.tistory.com

 

뭔가 특별한 소식이 있었나요?

X에 Ollama로 HuggingFace Hub에 있는 45,000개 가량의 GGUF 모델들을 다 사용할 수 있게 되었다는 소식이 올라온 겁니다. 우와... 다양한 LLM 모델과의 호환이 장점이라고 알곤 있었지만 이 정도 수준인 줄은 몰랐습니다. 여튼... 편하게 뭐든 사용해 볼 수 있게 된 것은 참 반가운 일입니다. 

 

Ollama를 이용해 HuggingFace 모델을 사용하는 방법은 다음과 같습니다. 

# 특정 repo의 모델 실행 
$ ollama run hf.co/{username}/{repository}

# 예: bartowski의 Llama-3.2-1B-Instruct-GGUF의 최신 버전
$ ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:latest

 

양자화 버전의 경우는 다음과 같습니다.

# Quantization 버전
$ ollama run hf.co/{username}/{repository}:{quantization}

# 예시
$ ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:iq3_m

 

 

GGUF 포맷을 이용한 실행 결과 영상 또한 X에 올라와 있으니 꼭 한번 둘러 보시기 바랍니다.