2026 Qwen3.5 M4 맥미니 실사용기: 32GB로 무료 AI 돌리는 법

ChatGPT Plus에 매달 2만 원씩 내고 계신가요? 저도 그랬는데, 최근에 알리바바가 내놓은 Qwen3.5를 보고 생각이 좀 바뀌었어요. 오픈소스에 무료인 데다 GPT-5 mini급 성능이라길래, 제 M4 맥미니 32GB에서 돌릴 수 있는지 싹 알아봤거든요.

Qwen3.5, 대체 뭐길래 이렇게 난리일까

알리바바 클라우드가 2026년 2월에 공개한 오픈소스 AI 모델이에요. Apache 2.0 라이선스라 상업적으로도 자유롭게 쓸 수 있고, 201개 언어를 지원해요. 한국어도 당연히 포함이고요.

눈에 띄는 건 Gated Delta Networks라는 새 아키텍처인데, 기존 트랜스포머보다 긴 문서를 처리할 때 훨씬 효율적이에요. 컨텍스트 윈도우가 256K 토큰(영문 A4 약 340쪽)이고, 최대 100만 토큰까지 늘릴 수 있죠.

출시는 세 차례로 나눠서 했어요.

출시일모델특징
2월 16일397B-A17B (플래그십)3,970억 파라미터, 170억 활성
2월 24일27B, 35B-A3B, 122B-A10B미디엄 라인업
3월 2일0.8B ~ 9B엣지/모바일용 소형 모델

레딧 r/LocalLLaMA에서 연일 화제가 됐고, Simon Willison 같은 유명 개발자도 “exceptionally good”이라고 평가했어요.

M4 맥미니 32GB에서 돌릴 수 있는 모델

모델이 8종이나 되는데, 32GB 맥미니에서 현실적으로 돌릴 수 있는 건 3개예요.

모델구조활성 파라미터Q4 메모리32GB 적합도
9BDense9B 전체~6.5GB여유 있음
27BDense27B 전체~17GB가능 (여유 있음)
35B-A3BMoE3B만 활성~22GB가능 (빠듯)

여기서 27B vs 35B-A3B가 좀 헷갈리죠.

27B는 Dense 모델이라 매 토큰마다 27B 파라미터를 전부 돌려요. 그만큼 품질은 좋지만 속도가 느리죠. 35B-A3B는 MoE(Mixture of Experts) 구조라 총 35B 중 매번 3B만 활성화돼요. 무게는 더 나가지만 실제 연산량이 적어서 훨씬 빠르죠.

근데 MoE라고 메모리를 적게 먹는 건 아니에요. 전문가 256개 가중치가 전부 RAM에 올라가야 해서, 35B-A3B도 22GB나 차지하거든요.

설치 방법: Ollama vs MLX

맥에서 로컬 AI 돌리는 방법, 크게 세 가지가 있어요.

1. Ollama — 가장 쉬움

터미널에서 두 줄이면 끝나요.

brew install ollama
ollama run qwen3.5:27b

OpenAI 호환 API를 localhost:11434에서 제공해서, Open WebUI 같은 채팅 인터페이스 붙이기도 편하죠. 다만 Apple Silicon에서 속도가 좀 아쉬워요. 이건 뒤에서 자세히 다룰게요.

2. LM Studio (MLX 백엔드) — 가장 빠름

LM Studio 설치하고 “Qwen 3.5 MLX”로 검색하면 바로 받을 수 있어요. MLX는 애플이 직접 만든 머신러닝 프레임워크라 Apple Silicon 통합 메모리를 제대로 활용하죠. 같은 모델인데 Ollama보다 약 2배 빨라요.

3. MLX 명령줄 — 개발자용

pip install mlx-lm
mlx_lm.chat --model Qwen/Qwen3.5-9B

Python 환경이 필요해서, GUI 없이 터미널로 직접 제어하고 싶은 개발자한테 맞아요.

맥 유저라면 LM Studio(MLX)가 정답이에요. Ollama는 편한 대신 느리고, MLX는 메모리도 약 50% 적게 먹어요.

실제 속도는? M4 실측 데이터

M4 맥미니 베이스 칩(메모리 대역폭 120GB/s)에서의 실측 데이터를 모아봤어요.

모델도구생성 속도체감
M4 베이스 (24GB)27B Q4Ollama4.54 t/s느림 (200자 40초~1분)
M3 Air (24GB)35B-A3B Q4MLX14-22 t/s쓸만함
M4 Pro (24GB)35B-A3B Q4MLX45-55 t/s쾌적
M4 Pro (24GB)35B-A3B Q4Ollama25-30 t/s괜찮음
M4 Max (64GB)35B-A3B Q4MLX60-75 t/s매우 쾌적
M1 Max (32GB)Qwen3-Coder 30B-A3B Q4LM Studio49 t/s쾌적 (참고: Qwen3 모델)

솔직히 M4 베이스에서 27B Dense는 좀 고통스러워요. 4.54 t/s면 간단한 질문 하나에 40초~1분 기다려야 해요. M4 베이스 대역폭이 120GB/s인데, Pro는 273GB/s로 2배 넘게 차이 나요. LLM 추론은 메모리 대역폭이 병목이라 이게 속도에 그대로 반영되죠.

그래서 M4 베이스 유저한테는 35B-A3B MoE + MLX 조합이 핵심이에요. 활성 파라미터가 3B밖에 안 되니까 27B Dense보다 훨씬 빠르고, MLX가 Ollama보다 2배 빠르니까 체감이 확 달라요.

M3 Air(24GB)에서 35B-A3B를 MLX로 돌린 유저가 14-22 t/s를 기록했는데, 본인 말로 “actually usable(실제로 쓸만하다)”이라고 했어요. M4 베이스는 M3보다 대역폭이 20% 높은 120GB/s니까 비슷하거나 약간 나을 거예요.

커뮤니티 반응: 쓸만하다 vs 아직 멀었다

Hacker News랑 Reddit에서 댓글 수백 개를 읽어봤는데, 의견이 꽤 갈려요.

긍정적 반응

“로컬 모델 코딩 성능에 처음으로 진짜 놀랐다.” RTX 4090에서 27B를 돌린 dimgl이란 유저 반응이에요. 실제로 Qwen3.5 27B는 SWE-bench Verified에서 72.4점, GPT-5 mini(72.0)와 거의 동급이죠.

M4 Max 128GB에서 122B 모델을 돌린 pram이라는 유저는 “Claude Code 쓰는 느낌에 꽤 가깝다”고 했어요. XDA Developers에서는 Qwen3 계열 코딩 모델을 리뷰하면서 “처음으로 원칙이나 고집이 아니라 진짜 쓰고 싶어서 쓰는 로컬 LLM”이라고 평가하기도 했고요.

비용 면에서도 매력적이에요. 개발자 커뮤니티에서 클라우드 API에 월 수십만 원 쓴다는 얘기가 흔한데, 맥을 이미 갖고 있다면 로컬로 전환하면 전기세 빼고 0원이니까요.

부정적 반응

반면 아쉬운 점도 분명하죠.

아첨(sycophancy)이 심해요. moffkalast라는 유저 표현 빌리면 “insufferable sycophancy(참을 수 없는 아첨)”. 코딩 말고 일반 대화에서 뭘 물어봐도 “You are absolutely right”로 시작하는 게 좀 거슬려요.

stavros라는 유저는 더 냉정한데, 오픈소스 모델이 명령 수행 면에서 “Opus에 비하면 한참 뒤”라고 평가했어요.

Ollama 속도 문제도 있어요. GitHub 이슈(#14579)에서 같은 모델인데 llama.cpp보다 5~6배 느리다는 보고가 올라왔고, 아직 해결이 안 됐어요. 맥에서 Ollama 대신 MLX를 쓰라는 이유가 이거예요.

한 가지 걱정되는 건, 3월 초에 Qwen 팀 리드 연구원 Junyang Lin을 포함한 핵심 멤버들이 알리바바를 떠났다는 소식이에요. Simon Willison이 “real tragedy”라고 했는데, 후속 모델 개발에 영향이 있을 수도 있어요.

ChatGPT 대신 쓸 수 있을까? 벤치마크 비교

Qwen3.5 27B(로컬에서 무료로 돌릴 수 있는 모델)를 GPT-5 mini, 제미나이 3.1 플래시 라이트 같은 상용 모델과 숫자로 비교해봤어요.

벤치마크Qwen3.5 27BGPT-5 miniClaude Sonnet 4.5
MMLU-Pro (지식)86.183.780.8
SWE-bench (코딩)72.472.062.0 *
BFCL-V4 (도구 활용)68.555.554.8
LiveCodeBench v680.780.582.7

숫자만 보면 꽤 선전하고 있죠. BFCL-V4(도구 활용)는 GPT-5 mini보다 23%나 높아요. 다만 알리바바 자체 평가라는 점, 실제 체감은 다르다는 커뮤니티 의견은 감안해야 해요. (* Claude Sonnet 4.5의 SWE-bench 점수는 non-thinking 모드 기준. thinking 모드에서는 77.2점으로 올라가요.)

비용 차이는 확실해요.

모델입력 (100만 토큰당)출력 (100만 토큰당)
Qwen3.5 27B (로컬)무료무료
Qwen3.5 27B (API, OpenRouter)$0.195$1.56
GPT-5.4$2.50$15.00
Claude Sonnet 4.5$3.00$15.00

로컬이면 전기세 빼고 0원. API로 쓰더라도 GPT-5.4보다 입력 12배, 출력 10배 가까이 싸요.

M4 맥미니 최적 세팅 팁

M4 맥미니에서 세팅할 때 알아두면 좋은 것들이에요.

1. GPU Wired Memory 올리기

macOS가 GPU 고정 메모리를 전체 RAM의 약 66%로 제한해요. 32GB면 약 21GB인데, 27B(17GB)는 괜찮지만 35B-A3B(22GB)는 부족할 수 있죠.

sudo sysctl iogpu.wired_limit_mb=26624

재부팅 후에도 유지하려면 /etc/sysctl.conf에 추가하면 돼요. 다만 이러면 OS용 메모리가 6GB만 남으니까, 브라우저 등 다른 앱은 닫고 AI 전용으로 쓸 때 추천해요. 여유를 두려면 24576(24GB)으로 설정하는 것도 방법이에요.

2. KV Cache는 Q8_0으로

Ollama 쓴다면 환경변수에 OLLAMA_KV_CACHE_TYPE=q8_0 설정하세요. 컨텍스트 메모리가 절반으로 줄어서 32K까지 안정적으로 돌아가요.

3. Flash Attention 켜기

LM Studio에서 Flash Attention을 “Auto” 말고 “On”으로 직접 켜세요. 자동 감지가 안 되는 경우가 있어요.

4. Sub-4-bit 양자화는 피하기

메모리를 아끼려고 Q3나 IQ3으로 내리면 M3 이하에서는 오히려 느려질 수 있어요. 역양자화(dequantization) 오버헤드 때문인데요. M4에서는 GPU 아키텍처 개선으로 IQ 양자화 성능이 나아졌다는 보고도 있지만, Q4_K_M이 여전히 가장 안정적인 선택이에요.

5. 컨텍스트는 32K로 제한

Ollama 기본 컨텍스트가 4K인데, Modelfile로 32K까지 올릴 수 있어요. 32GB 맥미니에서 64K 이상은 불안정해지니까, 32K 선에서 쓰는 게 안전해요.

자주 묻는 질문

Q. Qwen3.5 27B vs 35B-A3B, M4 맥미니에서 뭐가 나아요?

32GB라면 35B-A3B 추천이에요. 활성 파라미터가 3B라 27B Dense보다 훨씬 빠른데, 벤치마크는 큰 차이가 없어요. MMLU-Pro 기준 27B가 86.1, 35B-A3B가 85.3. 0.8점밖에 차이 안 나요. 코딩처럼 깊은 추론이 필요하면 27B가 낫긴 한데, 일상 질의응답이나 문서 요약은 35B-A3B 속도가 더 실용적이죠.

Q. Ollama vs LM Studio, 뭘 써야 하나요?

맥이면 LM Studio(MLX 백엔드)가 나아요. 같은 모델인데 토큰 생성 약 2배, 프롬프트 처리는 3~5배까지 빠르고, 메모리도 50% 덜 먹어요. Ollama는 Docker 서버 환경이나 헤드리스 운영이 필요할 때, 기존 Ollama 생태계를 쓰고 있을 때 쓰세요.

Q. M4 베이스 32GB로 충분한가요?

돌리는 것 자체는 충분해요. 다만 M4 Pro랑 체감 속도 차이가 커요. 베이스 대역폭(120GB/s)이 Pro(273GB/s)의 절반도 안 되거든요. 35B-A3B를 MLX로 돌리면 M3 Air 수준인 14-22 t/s 정도 나올 텐데, Pro에서 45-55 t/s 나오는 거랑 비교하면 차이가 크죠.

Q. 한국어 성능은 어떤가요?

201개 언어를 지원하고, CJK(중·일·한) 성능이 오픈소스 모델 중 가장 좋다는 평가가 있어요. 알리바바가 중국 회사라 아시아 언어 데이터가 풍부한 게 강점이죠. 다만 201개 전부가 독립적으로 검증된 건 아니에요.

Similar Posts