젬마 4 vs Qwen 3.5 vs Llama 4 — 2026 오픈소스 AI 3파전 벤치마크 비교

구글이 젬마 4를 내놨어요

4월 2일, 구글 딥마인드가 젬마 4를 공개했거든요. 모델이 한 종류가 아니라 무려 4종. E2B, E4B, 26B-A4B(MoE), 31B(Dense)로 크기도 용도도 전부 달라요. 라이선스도 Apache 2.0으로 바뀌면서 상업적 사용에 제한이 사실상 없어진 셈.

지난번 Qwen 3.5 맥미니 실사용기에서 Qwen 3.5가 로컬 AI 최강이라고 했잖아요. 근데 이번에 강력한 경쟁자가 나왔더라고요. 오늘은 Gemma 4, Qwen 3.5, Llama 4 Scout 세 모델을 나란히 놓고 비교해 봤어요.

모델 4종, 뭐가 다른가

제일 작은 E2B는 총 파라미터 5.1B인데 활성화되는 건 2.3B뿐이에요. E4B는 총 8B에 활성 4.5B. 이 두 모델은 텍스트, 이미지, 오디오를 처리하고 컨텍스트 윈도우는 128K까지 지원해요. 오디오는 최대 30초까지 입력 가능하거든요. 스마트폰이나 소형 디바이스에 올리기 좋게 만든 모델이죠.

26B-A4B는 MoE 구조예요. 128개 소형 전문가 중에서 토큰당 8개 + 공유 전문가 1개만 활성화해요. 총 25.2B 파라미터지만 실제로 쓰는 건 3.8B뿐이라 Dense 31B 대비 연산량이 8분의 1 수준이에요. 그러면서도 성능은 Dense 모델의 97% 수준이더라고요.

31B는 30.7B 파라미터를 전부 사용하는 Dense 모델이에요. 라인업 중 최고 성능. 26B/31B는 텍스트, 이미지, 비디오(최대 60초, 1fps)를 처리하고 컨텍스트 윈도우 256K에 140개 언어를 지원해요.

벤치마크 비교 — Gemma 4 vs Qwen 3.5 vs Llama 4

숫자를 나란히 놓으면 감이 바로 와요. Gemma 4 31B, Qwen 3.5-27B, Llama 4 Scout 세 모델의 주요 벤치마크.

벤치마크	Gemma 4 31B	Qwen 3.5-27B	Llama 4 Scout
AIME 2026 (수학)	89.2%	90.8%	–
LiveCodeBench v6	80.0%	80.7%	–
GPQA Diamond	84.3%	85.5%	–
MMLU Pro	85.2%	86.1%	–
MMMU Pro (비전)	76.9%	75.0%	–
Codeforces ELO	2150	1899	–
컨텍스트 윈도우	256K	–	10M
지원 언어	140개	201개	–
라이선스	Apache 2.0	Apache 2.0	Community (700M MAU 제한)

같은 AIME 2026 기준으로 놓으면 Qwen 3.5가 90.8%로 Gemma 4(89.2%)를 근소하게 앞서요. LiveCodeBench v6도 80.7% vs 80.0%로 Qwen이 약간 위. GPQA, MMLU Pro도 Qwen이 1~2%p 높아요. 반면 MMMU Pro(비전)과 Codeforces는 Gemma 4가 앞서죠. 전체적으로 꽤 대등한 수준이에요.

LMArena에서는 ELO ~1452로 오픈 모델 3위에 올라 있고, 에이전틱 벤치마크(τ2-bench Retail 도메인)에서 86.4%를 찍었어요.

각자 잘하는 게 달라요

세 모델 중 “승자”를 하나 고르는 건 의미가 없더라고요. 강점이 뚜렷하게 갈리거든요.

Gemma 4 — 비전과 에이전틱에서 앞서요

수학과 코딩은 Qwen 3.5와 거의 대등한데, 차이가 나는 건 비전과 에이전틱 쪽이에요. GPQA Diamond 84.3%, MMMU Pro 76.9%로 과학/비전 벤치마크가 탄탄하고, 에이전틱 작업까지 소화해요. 멀티모달 올인원이 필요하면 좋은 선택지.

Qwen 3.5 — 수학·코딩 근소 우위 + 다국어 압도적

AIME 90.8%, LiveCodeBench 80.7%로 수학·코딩에서 Gemma 4를 아슬아슬하게 앞서요. 거기에 201개 언어, 250K 어휘. 다국어 서비스를 만들거나 비영어권 텍스트를 많이 다루면 Qwen 3.5가 여전히 강력하죠.

Llama 4 Scout — 컨텍스트 10M의 세계

컨텍스트 윈도우 10M 토큰. 256K와는 차원이 다르잖아요. 긴 문서 전체를 한 번에 넣어야 하는 작업이면 Llama 4 Scout밖에 답이 없어요. 다만 라이선스가 Community License로 월간 활성 사용자 700M 이상이면 Meta에 별도 허가가 필요해요. Apache 2.0 진영과는 결이 달라요.

스마트폰에서 젬마 4 돌리기

E2B가 온디바이스에서 눈에 띄어요. 라즈베리파이 5에서 Prefill 133 tok/s, Decode 7.6 tok/s가 나왔어요. 2비트 양자화 기준 메모리도 1.5GB 미만. 스마트폰에서 돌리기에 충분한 수준.

NVIDIA에서도 적극적으로 밀고 있어요. RTX 5090, DGX Spark, Jetson Orin Nano에서 최적화 지원이 들어갔어요. 엣지 디바이스부터 데스크톱 GPU까지 폭넓게 커버하는 셈.

자주 묻는 질문

Q. 맥미니에서 돌릴 수 있나요?

31B Dense 모델 기준, M4 맥미니 32GB면 양자화해서 올릴 수 있어요. 26B-A4B MoE 모델은 활성 파라미터가 3.8B뿐이라 훨씬 가볍고요. E2B/E4B는 메모리 1.5GB 미만이니까 맥미니에서는 아무 문제 없어요.

Q. Qwen 3.5 쓰고 있는데 갈아타야 하나요?

같은 벤치마크 버전으로 비교하면 수학·코딩은 사실상 대등해요. Gemma 4는 비전과 에이전틱 쪽이 강하고, Qwen 3.5는 201개 언어 지원이 압도적이죠. 용도에 따라 두 모델을 병행하는 것도 방법. 둘 다 Apache 2.0이라 라이선스 걱정은 없어요.

Q. 라이선스가 왜 중요한가요?

상업 서비스에 AI를 넣으려면 라이선스가 핵심이에요. Gemma 4와 Qwen 3.5는 Apache 2.0이라 사실상 제약이 없어요. 반면 Llama 4 Scout는 Community License로 월간 활성 사용자 700M 이상이면 Meta에 별도 허가를 받아야 하세요. 대규모 서비스라면 반드시 확인해야 하는 부분이에요.

참고 자료

Google DeepMind — Gemma 4 공식 페이지
구글 코리아 — 젬마 4 한국어 소개
ai.rs — Gemma 4 vs Qwen 3.5 vs Llama 4 벤치마크 비교
NVIDIA — RTX Gemma 4 최적화
AI타임스 — 구글, 로컬 에이전트를 위한 ‘젬마 4’ 출시

젬마 4 vs Qwen 3.5 vs Llama 4 — 2026 오픈소스 AI 3파전, 누가 이겼나

구글이 젬마 4를 내놨어요

모델 4종, 뭐가 다른가

벤치마크 비교 — Gemma 4 vs Qwen 3.5 vs Llama 4