2026. 4. 23. 15:21ㆍ개발/AI

현재 다니는 회사에서는 프론트엔드를 담당하고 있다.
회식 자리에서 AI에 관심 있다고 말했다가,
사내 AI 에이전트 개발을 맡게 됐다.
하려는 것은 다음과 같다.
- 맥을 병렬로 연결한다.(한 컴퓨터에서 도커를 여러개 띄우는 것처럼)
- 이 맥들을 LiteLLM을 통해 라우팅 하며 관리한다.
근데 사실 나는 ai 에이전트, 하네스와 같은 것에 관심이 있던거지 인프라에는 관심이 그렇게 많지 않았어서 당혹스러웠다.
맥 스튜디오 128GB 짜리를 지급 받고 개발을 시작하려던 도중에 MLX와 GGUF라는 것에 대해서 알게 되었고, 이 차이를 명확하게 이해해보기 위해 글을 써보려고 한다.
1. 들어가며
휴대폰에서 돌릴 수 있는 Gemma4, 양자화등 로컬 환경에서 LLM을 돌리기 위한 노력들은 국내외를 가리지 않고 점점 늘어나고 있다. 하지만 초기에는 이를 일반 사용자의 로컬에서 직접 실행하는 과정이 쉽지는 않았다. 고성능 GPU가 필요하고, 초기 세팅이 힘들었기 때문이다.
이러한 문제들을 해결하기 위해 등장한 것이 바로 GGUF와 MLX이다.
이 두 기술은 같은 문제를 해결하려 하지만, 방식이 다르다.
먼저 GGUF는 로컬 LLM을 더 많은 사람들이 쉽게 사용할 수 있도록 하기 위해 등장했다. CPU 환경에서도 실행이 가능하도록 경량화하고, 모델을 하나의 파일로 통합해 배포함으로써 설치와 실행 과정을 단순화했다. 즉, 누구나 손쉽게 로컬에서 AI를 활용할 수 있도록 만든 ‘범용 실행 방식’이라고 볼 수 있다.
반면 MLX는 Apple이 자사의 실리콘 칩(M1, M2, M3 등)에 최적화된 머신러닝 환경을 제공하기 위해 개발한 프레임워크다. 기존 방식으로는 Apple Silicon의 구조적 장점을 충분히 활용하기 어려웠기 때문에, CPU와 GPU, 그리고 통합 메모리를 효율적으로 사용하는 새로운 접근이 필요했다. MLX는 이러한 한계를 해결하고, Mac 환경에서 LLM 성능을 극대화하는 데 초점을 맞추고 있다.
2. GGUF vs MLX 한눈에 보기
GGUF와 MLX는 로컬 환경에서 AI 모델을 실행할 때 자주 등장하는 개념이다. 처음 보면 둘 다 “모델 관련 기술”처럼 보이지만, 실제로는 역할이 다르다.
핵심부터 정리하면 이렇다.
GGUF는 모델을 저장하는 방식이고,
MLX는 모델을 실행하는 방식이다.
이 차이를 이해하면 이후 내용이 훨씬 쉽게 들어온다.

GGUF: 모델을 담는 포맷
GGUF는 AI 모델을 하나의 파일로 정리한 저장 형식이다.
이 파일 안에는 단순히 모델 데이터만 있는 게 아니라, 실행에 필요한 정보들이 함께 들어 있다.
예를 들면:
- 모델 가중치
- 토크나이저
- 설정 정보
그래서 GGUF 파일을 다운로드하면
-> 바로 실행 가능한 상태에 가깝다.
Ollama나 LM Studio 같은 프로그램에서 불러오기만 하면 되기 때문에,
설치 과정이 단순하고 접근성이 좋다.
MLX: 모델을 실행하는 프레임워크
MLX는 모델을 저장하는 형식이 아니라,
모델을 실제로 계산하고 실행하는 프레임워크다.
Apple이 만든 기술로,
Mac의 M1/M2/M3 칩 구조에 맞춰 최적화되어 있다.
MLX는 단순히 모델을 돌리는 수준을 넘어서,
- CPU와 GPU를 함께 활용하고
- 메모리 이동을 줄이고
- 전체 연산을 효율적으로 처리하는 데 집중한다
즉, 같은 모델이라도
-> 더 빠르고 효율적으로 실행하는 데 목적이 있다.
두 방식의 구조적 차이
정리하면 이렇게 나뉜다.
- GGUF → 모델을 쉽게 배포하고 실행하기 위한 방식
- MLX → 모델을 빠르게 계산하기 위한 실행 환경
둘은 경쟁 관계라기보다는
-> 서로 다른 문제를 해결하는 방식에 가깝다.
3. GGUF란 무엇인가

GGUF는 로컬에서 AI 모델을 실행할 때 널리 사용되는 모델 파일 형식이다.
특히 llama.cpp 기반 생태계에서 표준처럼 자리 잡은 포맷이다.
조금 더 쉽게 말하면,
-> “AI 모델을 실행하기 좋게 정리해놓은 파일” 이라고 보면 된다.
GGUF의 등장 배경
초기에는 AI 모델을 로컬에서 실행하는 과정이 꽤 번거로웠다.
- 여러 개의 파일을 따로 받아야 했고
- 환경 설정도 복잡했으며
- GPU가 없으면 실행 자체가 어려운 경우도 많았다
이런 불편함을 줄이기 위해 등장한 것이 GGUF다.
GGUF는 모델을 하나의 파일로 묶고,
CPU 환경에서도 실행할 수 있도록 경량화하는 데 초점을 맞췄다.
덕분에 지금은
-> 일반 사용자도 비교적 쉽게 로컬 AI를 실행할 수 있는 환경이 만들어졌다.
주요 특징
GGUF의 가장 큰 특징은 “간단함”이다.
- 모델, 토크나이저, 설정을 하나의 파일에 포함
- llama.cpp 기반으로 다양한 환경에서 실행 가능
- CPU에서도 동작하도록 최적화
- 양자화(quantization)를 통해 파일 크기와 메모리 사용량 감소
특히 양자화 덕분에
-> 고성능 GPU 없이도 모델을 실행할 수 있다는 점이 중요하다.
장점
GGUF는 접근성이 매우 좋다.
- Windows, Linux, Mac 모두에서 사용 가능
- 설치와 실행이 단순함
- Ollama, LM Studio 등 다양한 도구와 호환
- 커뮤니티와 모델 자료가 풍부함
그래서 로컬 LLM을 처음 접하는 경우라면
-> 대부분 GGUF부터 시작하게 된다.
한계
물론 단점도 있다.
- GPU 성능을 100% 활용하기는 어려움
- Apple Silicon 같은 특정 하드웨어 최적화는 제한적
- 초고성능이 필요한 작업에서는 한계가 있음
-> “쉽게 쓸 수 있는 대신, 성능은 어느 정도 타협한 방식”이다.
4. MLX란 무엇인가

MLX는 Apple이 만든 머신러닝 프레임워크로,
Mac 환경에서 AI 모델을 효율적으로 실행하기 위해 개발된 기술이다.
GGUF가 모델을 담는 파일 형식이라면,
MLX는 모델을 실제로 계산하고 실행하는 엔진에 가깝다.
MLX의 등장 배경
Apple Silicon(M1, M2, M3)이 등장하면서
Mac의 하드웨어 구조는 기존 PC와 다른 방향으로 발전했다.
- CPU와 GPU가 하나의 칩에 통합되어 있고
- 메모리를 함께 사용하는 unified memory 구조를 가지고 있다
문제는 기존 머신러닝 프레임워크들이
이 구조를 충분히 활용하지 못했다는 점이다.
그래서 Apple은 자사 하드웨어에 맞게
AI 연산을 더 효율적으로 처리할 수 있는 MLX를 만들었다.
주요 특징
MLX는 성능 최적화에 초점이 맞춰져 있다.
- Apple Silicon에 맞춘 연산 최적화
- CPU와 GPU를 동시에 활용
- unified memory 구조 활용 → 데이터 복사 최소화
- Python 기반 → 비교적 간단한 사용 가능
이 덕분에 같은 모델이라도
→ Mac에서는 더 빠르게 실행되는 경우가 많다.
장점
MLX의 가장 큰 장점은 성능이다.
- Mac에서 높은 처리 속도
- 메모리 효율이 좋아 대형 모델 실행에 유리
- 하드웨어 자원을 최대한 활용 가능
특히 M1/M2/M3 환경에서는
→ 체감 성능 차이가 크게 느껴질 수 있다.
한계
다만 사용 환경이 제한적이다.
- Mac(Apple Silicon)에서만 사용 가능
- GGUF에 비해 생태계가 작음
- 설정이나 사용 방식이 초보자에게는 다소 어렵게 느껴질 수 있음
→ 특정 환경에서는 강력하지만 범용성은 낮다.
정리
MLX는 Apple Silicon 환경에서
AI 모델의 성능을 최대한 끌어내기 위해 만들어진 프레임워크다.
GGUF가 접근성을 높였다면
MLX는 성능을 끌어올리는 역할을 한다.
5. 구조 및 성능 차이
앞에서 각각의 개념을 살펴봤다면,
이제 GGUF와 MLX의 차이를 구조와 성능 관점에서 정리해볼 수 있다.
두 방식은 같은 모델을 실행한다는 점에서는 같지만,
실제 동작 방식과 성능 특성은 꽤 다르다.
실행 방식 차이
가장 큰 차이는 역할에서 시작된다.
- GGUF → 모델을 저장하고 불러오는 포맷
- MLX → 모델을 계산하고 실행하는 프레임워크
GGUF는 파일 하나로 모델을 쉽게 배포하고 실행할 수 있도록 설계되어 있다.
반면 MLX는 해당 모델을 어떤 방식으로 계산할지에 더 집중한다.
즉,
→ GGUF는 “어떻게 쉽게 실행할 것인가”
→ MLX는 “어떻게 효율적으로 계산할 것인가”
이 차이가 이후 성능 차이로 이어진다.
메모리 활용 방식
두 방식의 차이는 메모리 처리 방식에서도 드러난다.
GGUF는 다양한 환경에서 동작하도록 설계된 만큼
일반적인 CPU 기반 메모리 구조를 따른다.
이 과정에서 CPU와 GPU 간 데이터 이동이 발생할 수 있다.
반면 MLX는 Apple Silicon의 unified memory 구조를 적극적으로 활용한다.
- CPU와 GPU가 같은 메모리를 공유
- 데이터 복사 과정 최소화
- 메모리 사용 효율 향상
이 구조 덕분에
→ 불필요한 오버헤드가 줄어들고 실행 속도가 빨라진다.
실제 성능 및 환경별 차이
실제 체감 성능은 사용 환경에 따라 크게 달라진다.
- Windows / Linux 환경
→ GGUF가 사실상 표준
→ 안정적이고 충분한 성능 제공 - Mac (Apple Silicon) 환경
→ MLX가 더 높은 성능을 보이는 경우가 많음
→ 특히 대형 모델에서 차이가 커짐
같은 모델이라도
→ Mac에서는 MLX가 더 빠르고
→ 다른 환경에서는 GGUF가 더 현실적인 선택이 된다
실제로 Mac에서 동일한 모델을 GGUF와 MLX로 각각 실행해보면,
MLX 쪽이 더 빠르게 응답하는 경우가 많았다.
6. 결론
GGUF와 MLX는 같은 AI 모델을 실행하기 위한 기술이지만,
출발점과 목적이 다르다.
GGUF는 로컬 환경에서 AI를 더 쉽게 사용할 수 있도록 만든 포맷이다.
설치와 실행이 간단하고 다양한 환경에서 동작하기 때문에,
입문자나 일반 사용자에게 적합하다.
반면 MLX는 Apple Silicon 환경에서 성능을 최대한 끌어내기 위한 프레임워크다.
특정 하드웨어에 맞춰 최적화되어 있기 때문에,
Mac에서는 더 빠르고 효율적인 실행이 가능하다.
결국 선택 기준은 단순하다.
- Windows / Linux → GGUF
- Mac(M1/M2/M3)에서 성능 중요 → MLX
두 기술은 경쟁 관계라기보다,
서로 다른 문제를 해결하기 위한 접근 방식에 가깝다.
하나는 접근성을, 다른 하나는 성능을 중심에 두고 있다.
자신의 환경과 목적에 맞게 선택하면 된다.
'개발 > AI' 카테고리의 다른 글
| "코딩 1도 몰라도 된다"는 말이 가장 무섭다: 모아이 ADK 발표 후기 (0) | 2026.05.22 |
|---|---|
| 현업에서는 이렇게 AI를 운영한다 - 구름 커밋 후기 (2) | 2026.05.17 |
| 거부기린 - 만 명의 사용자가 내 서비스를 이용해봤다고? (6) | 2026.04.29 |
| AI 시대의 개인 이슈 트래커 - 나만의 Linear를 만들어봤다 (2) | 2026.03.27 |
| AI 에이전트 스킬 vs 멀티에이전트 (1) | 2026.02.26 |