2026 Qwen3.5 M4 맥미니 실사용기: 32GB로 무료 AI 돌리는 법
ChatGPT Plus에 매달 2만 원씩 내고 계신가요? 저도 그랬는데, 최근에 알리바바가 내놓은 Qwen3.5를 보고 생각이 좀 바뀌었어요. 오픈소스에 무료인 데다 GPT-5 mini급 성능이라길래, 제 M4 맥미니 32GB에서 돌릴 수 있는지 싹 알아봤거든요.
Qwen3.5, 대체 뭐길래 이렇게 난리일까
알리바바 클라우드가 2026년 2월에 공개한 오픈소스 AI 모델이에요. Apache 2.0 라이선스라 상업적으로도 자유롭게 쓸 수 있고, 201개 언어를 지원해요. 한국어도 당연히 포함이고요.
눈에 띄는 건 Gated Delta Networks라는 새 아키텍처인데, 기존 트랜스포머보다 긴 문서를 처리할 때 훨씬 효율적이에요. 컨텍스트 윈도우가 256K 토큰(영문 A4 약 340쪽)이고, 최대 100만 토큰까지 늘릴 수 있죠.
출시는 세 차례로 나눠서 했어요.
| 출시일 | 모델 | 특징 |
|---|---|---|
| 2월 16일 | 397B-A17B (플래그십) | 3,970억 파라미터, 170억 활성 |
| 2월 24일 | 27B, 35B-A3B, 122B-A10B | 미디엄 라인업 |
| 3월 2일 | 0.8B ~ 9B | 엣지/모바일용 소형 모델 |
레딧 r/LocalLLaMA에서 연일 화제가 됐고, Simon Willison 같은 유명 개발자도 “exceptionally good”이라고 평가했어요.
M4 맥미니 32GB에서 돌릴 수 있는 모델
모델이 8종이나 되는데, 32GB 맥미니에서 현실적으로 돌릴 수 있는 건 3개예요.
| 모델 | 구조 | 활성 파라미터 | Q4 메모리 | 32GB 적합도 |
|---|---|---|---|---|
| 9B | Dense | 9B 전체 | ~6.5GB | 여유 있음 |
| 27B | Dense | 27B 전체 | ~17GB | 가능 (여유 있음) |
| 35B-A3B | MoE | 3B만 활성 | ~22GB | 가능 (빠듯) |
여기서 27B vs 35B-A3B가 좀 헷갈리죠.
27B는 Dense 모델이라 매 토큰마다 27B 파라미터를 전부 돌려요. 그만큼 품질은 좋지만 속도가 느리죠. 35B-A3B는 MoE(Mixture of Experts) 구조라 총 35B 중 매번 3B만 활성화돼요. 무게는 더 나가지만 실제 연산량이 적어서 훨씬 빠르죠.
근데 MoE라고 메모리를 적게 먹는 건 아니에요. 전문가 256개 가중치가 전부 RAM에 올라가야 해서, 35B-A3B도 22GB나 차지하거든요.
설치 방법: Ollama vs MLX
맥에서 로컬 AI 돌리는 방법, 크게 세 가지가 있어요.
1. Ollama — 가장 쉬움
터미널에서 두 줄이면 끝나요.
brew install ollama
ollama run qwen3.5:27bOpenAI 호환 API를 localhost:11434에서 제공해서, Open WebUI 같은 채팅 인터페이스 붙이기도 편하죠. 다만 Apple Silicon에서 속도가 좀 아쉬워요. 이건 뒤에서 자세히 다룰게요.
2. LM Studio (MLX 백엔드) — 가장 빠름
LM Studio 설치하고 “Qwen 3.5 MLX”로 검색하면 바로 받을 수 있어요. MLX는 애플이 직접 만든 머신러닝 프레임워크라 Apple Silicon 통합 메모리를 제대로 활용하죠. 같은 모델인데 Ollama보다 약 2배 빨라요.
3. MLX 명령줄 — 개발자용
pip install mlx-lm
mlx_lm.chat --model Qwen/Qwen3.5-9BPython 환경이 필요해서, GUI 없이 터미널로 직접 제어하고 싶은 개발자한테 맞아요.
맥 유저라면 LM Studio(MLX)가 정답이에요. Ollama는 편한 대신 느리고, MLX는 메모리도 약 50% 적게 먹어요.
실제 속도는? M4 실측 데이터
M4 맥미니 베이스 칩(메모리 대역폭 120GB/s)에서의 실측 데이터를 모아봤어요.
| 칩 | 모델 | 도구 | 생성 속도 | 체감 |
|---|---|---|---|---|
| M4 베이스 (24GB) | 27B Q4 | Ollama | 4.54 t/s | 느림 (200자 40초~1분) |
| M3 Air (24GB) | 35B-A3B Q4 | MLX | 14-22 t/s | 쓸만함 |
| M4 Pro (24GB) | 35B-A3B Q4 | MLX | 45-55 t/s | 쾌적 |
| M4 Pro (24GB) | 35B-A3B Q4 | Ollama | 25-30 t/s | 괜찮음 |
| M4 Max (64GB) | 35B-A3B Q4 | MLX | 60-75 t/s | 매우 쾌적 |
| M1 Max (32GB) | Qwen3-Coder 30B-A3B Q4 | LM Studio | 49 t/s | 쾌적 (참고: Qwen3 모델) |
솔직히 M4 베이스에서 27B Dense는 좀 고통스러워요. 4.54 t/s면 간단한 질문 하나에 40초~1분 기다려야 해요. M4 베이스 대역폭이 120GB/s인데, Pro는 273GB/s로 2배 넘게 차이 나요. LLM 추론은 메모리 대역폭이 병목이라 이게 속도에 그대로 반영되죠.
그래서 M4 베이스 유저한테는 35B-A3B MoE + MLX 조합이 핵심이에요. 활성 파라미터가 3B밖에 안 되니까 27B Dense보다 훨씬 빠르고, MLX가 Ollama보다 2배 빠르니까 체감이 확 달라요.
M3 Air(24GB)에서 35B-A3B를 MLX로 돌린 유저가 14-22 t/s를 기록했는데, 본인 말로 “actually usable(실제로 쓸만하다)”이라고 했어요. M4 베이스는 M3보다 대역폭이 20% 높은 120GB/s니까 비슷하거나 약간 나을 거예요.
커뮤니티 반응: 쓸만하다 vs 아직 멀었다
Hacker News랑 Reddit에서 댓글 수백 개를 읽어봤는데, 의견이 꽤 갈려요.
긍정적 반응
“로컬 모델 코딩 성능에 처음으로 진짜 놀랐다.” RTX 4090에서 27B를 돌린 dimgl이란 유저 반응이에요. 실제로 Qwen3.5 27B는 SWE-bench Verified에서 72.4점, GPT-5 mini(72.0)와 거의 동급이죠.
M4 Max 128GB에서 122B 모델을 돌린 pram이라는 유저는 “Claude Code 쓰는 느낌에 꽤 가깝다”고 했어요. XDA Developers에서는 Qwen3 계열 코딩 모델을 리뷰하면서 “처음으로 원칙이나 고집이 아니라 진짜 쓰고 싶어서 쓰는 로컬 LLM”이라고 평가하기도 했고요.
비용 면에서도 매력적이에요. 개발자 커뮤니티에서 클라우드 API에 월 수십만 원 쓴다는 얘기가 흔한데, 맥을 이미 갖고 있다면 로컬로 전환하면 전기세 빼고 0원이니까요.
부정적 반응
반면 아쉬운 점도 분명하죠.
아첨(sycophancy)이 심해요. moffkalast라는 유저 표현 빌리면 “insufferable sycophancy(참을 수 없는 아첨)”. 코딩 말고 일반 대화에서 뭘 물어봐도 “You are absolutely right”로 시작하는 게 좀 거슬려요.
stavros라는 유저는 더 냉정한데, 오픈소스 모델이 명령 수행 면에서 “Opus에 비하면 한참 뒤”라고 평가했어요.
Ollama 속도 문제도 있어요. GitHub 이슈(#14579)에서 같은 모델인데 llama.cpp보다 5~6배 느리다는 보고가 올라왔고, 아직 해결이 안 됐어요. 맥에서 Ollama 대신 MLX를 쓰라는 이유가 이거예요.
한 가지 걱정되는 건, 3월 초에 Qwen 팀 리드 연구원 Junyang Lin을 포함한 핵심 멤버들이 알리바바를 떠났다는 소식이에요. Simon Willison이 “real tragedy”라고 했는데, 후속 모델 개발에 영향이 있을 수도 있어요.
ChatGPT 대신 쓸 수 있을까? 벤치마크 비교
Qwen3.5 27B(로컬에서 무료로 돌릴 수 있는 모델)를 GPT-5 mini, 제미나이 3.1 플래시 라이트 같은 상용 모델과 숫자로 비교해봤어요.
| 벤치마크 | Qwen3.5 27B | GPT-5 mini | Claude Sonnet 4.5 |
|---|---|---|---|
| MMLU-Pro (지식) | 86.1 | 83.7 | 80.8 |
| SWE-bench (코딩) | 72.4 | 72.0 | 62.0 * |
| BFCL-V4 (도구 활용) | 68.5 | 55.5 | 54.8 |
| LiveCodeBench v6 | 80.7 | 80.5 | 82.7 |
숫자만 보면 꽤 선전하고 있죠. BFCL-V4(도구 활용)는 GPT-5 mini보다 23%나 높아요. 다만 알리바바 자체 평가라는 점, 실제 체감은 다르다는 커뮤니티 의견은 감안해야 해요. (* Claude Sonnet 4.5의 SWE-bench 점수는 non-thinking 모드 기준. thinking 모드에서는 77.2점으로 올라가요.)
비용 차이는 확실해요.
| 모델 | 입력 (100만 토큰당) | 출력 (100만 토큰당) |
|---|---|---|
| Qwen3.5 27B (로컬) | 무료 | 무료 |
| Qwen3.5 27B (API, OpenRouter) | $0.195 | $1.56 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.5 | $3.00 | $15.00 |
로컬이면 전기세 빼고 0원. API로 쓰더라도 GPT-5.4보다 입력 12배, 출력 10배 가까이 싸요.
M4 맥미니 최적 세팅 팁
M4 맥미니에서 세팅할 때 알아두면 좋은 것들이에요.
1. GPU Wired Memory 올리기
macOS가 GPU 고정 메모리를 전체 RAM의 약 66%로 제한해요. 32GB면 약 21GB인데, 27B(17GB)는 괜찮지만 35B-A3B(22GB)는 부족할 수 있죠.
sudo sysctl iogpu.wired_limit_mb=26624재부팅 후에도 유지하려면 /etc/sysctl.conf에 추가하면 돼요. 다만 이러면 OS용 메모리가 6GB만 남으니까, 브라우저 등 다른 앱은 닫고 AI 전용으로 쓸 때 추천해요. 여유를 두려면 24576(24GB)으로 설정하는 것도 방법이에요.
2. KV Cache는 Q8_0으로
Ollama 쓴다면 환경변수에 OLLAMA_KV_CACHE_TYPE=q8_0 설정하세요. 컨텍스트 메모리가 절반으로 줄어서 32K까지 안정적으로 돌아가요.
3. Flash Attention 켜기
LM Studio에서 Flash Attention을 “Auto” 말고 “On”으로 직접 켜세요. 자동 감지가 안 되는 경우가 있어요.
4. Sub-4-bit 양자화는 피하기
메모리를 아끼려고 Q3나 IQ3으로 내리면 M3 이하에서는 오히려 느려질 수 있어요. 역양자화(dequantization) 오버헤드 때문인데요. M4에서는 GPU 아키텍처 개선으로 IQ 양자화 성능이 나아졌다는 보고도 있지만, Q4_K_M이 여전히 가장 안정적인 선택이에요.
5. 컨텍스트는 32K로 제한
Ollama 기본 컨텍스트가 4K인데, Modelfile로 32K까지 올릴 수 있어요. 32GB 맥미니에서 64K 이상은 불안정해지니까, 32K 선에서 쓰는 게 안전해요.
자주 묻는 질문
Q. Qwen3.5 27B vs 35B-A3B, M4 맥미니에서 뭐가 나아요?
32GB라면 35B-A3B 추천이에요. 활성 파라미터가 3B라 27B Dense보다 훨씬 빠른데, 벤치마크는 큰 차이가 없어요. MMLU-Pro 기준 27B가 86.1, 35B-A3B가 85.3. 0.8점밖에 차이 안 나요. 코딩처럼 깊은 추론이 필요하면 27B가 낫긴 한데, 일상 질의응답이나 문서 요약은 35B-A3B 속도가 더 실용적이죠.
Q. Ollama vs LM Studio, 뭘 써야 하나요?
맥이면 LM Studio(MLX 백엔드)가 나아요. 같은 모델인데 토큰 생성 약 2배, 프롬프트 처리는 3~5배까지 빠르고, 메모리도 50% 덜 먹어요. Ollama는 Docker 서버 환경이나 헤드리스 운영이 필요할 때, 기존 Ollama 생태계를 쓰고 있을 때 쓰세요.
Q. M4 베이스 32GB로 충분한가요?
돌리는 것 자체는 충분해요. 다만 M4 Pro랑 체감 속도 차이가 커요. 베이스 대역폭(120GB/s)이 Pro(273GB/s)의 절반도 안 되거든요. 35B-A3B를 MLX로 돌리면 M3 Air 수준인 14-22 t/s 정도 나올 텐데, Pro에서 45-55 t/s 나오는 거랑 비교하면 차이가 크죠.
Q. 한국어 성능은 어떤가요?
201개 언어를 지원하고, CJK(중·일·한) 성능이 오픈소스 모델 중 가장 좋다는 평가가 있어요. 알리바바가 중국 회사라 아시아 언어 데이터가 풍부한 게 강점이죠. 다만 201개 전부가 독립적으로 검증된 건 아니에요.
참고 자료
- Qwen3.5-27B — HuggingFace 모델 카드
- Qwen3.5-35B-A3B — HuggingFace 모델 카드
- Qwen 3.5 Mac MLX vs Ollama Speed Test — InsiderLLM
- Qwen3.5 122B and 35B models — Hacker News 토론
- How to run Qwen 3.5 locally — Hacker News 토론
- Best Qwen Model for M4 Mac mini 32GB — Reddit r/LocalLLaMA
- Qwen 3.5 — Simon Willison
- Qwen3.5 much slower speeds compared to LlamaCPP — Ollama GitHub Issue
- Qwen 3.5 Medium Models: Benchmarks, Pricing, and Guide — DigitalApplied
