2026 그록 4.20 총정리 — AI 4명 멀티에이전트 벤치마크·가격

요즘 AI 모델이 너무 많이 쏟아져서 뭐가 뭔지 헷갈리는데, 이번에 나온 그록 4.20은 좀 독특하더라고요. xAI가 2월에 베타로 공개한 이 모델은 AI 4명이 내부에서 토론을 벌인 뒤에 답변을 내놓습니다. “멀티에이전트”라고 부르는데, 기존 AI들이 혼자서 생각하고 답하는 것과는 아예 달라요.

그록 4.20, 뭐가 다른 건데?

ChatGPT든 Claude든, 기존 AI는 혼자 생각하고 혼자 답하잖아요. 근데 그록 4.20은 좀 신기한 게, 4개의 전문 에이전트가 같은 질문을 동시에 받습니다. 각자 분석한 다음에 서로 결과를 까보고, 의견이 다르면 토론까지 벌이죠. 그걸 다 거쳐야 비로소 답변이 나와요.

비유하자면 회의실에 전문가 4명을 모아놓은 셈이죠. 단순히 4번 돌리는 게 아니라 중간 결과물을 서로 까보면서 검증하니까, 거짓 정보(환각)가 확 줄어듭니다.

그래서 그 4명이 누군데?

대충 나눈 게 아니고, 각자 성격이 다릅니다.

Grok (Captain): 팀장 역할. 나머지 셋이 낸 결과를 모아서 최종 답변으로 정리하죠.
Harper: 리서치 담당인데, X(트위터) 실시간 데이터를 뒤져요. 시스템 전체가 하루에 약 6,800만 건의 영어 트윗에 접근한다고 합니다. 팩트 검증도 이 친구 몫.
Benjamin: 논리·수학·코딩 전문. 계산 문제나 코드 작성처럼 단계별로 풀어야 하는 걸 맡고 있어요.
Lucas: 창의 쪽을 담당합니다. 나머지 셋이 놓칠 만한 각도에서 의견을 던지고, 표현도 다듬죠.

복잡한 질문이 들어오면 일단 4명이 동시에 달려들어요. 그 다음 여러 라운드에 걸쳐 서로 결과를 까보고 토론하는데, 마지막에 Grok(Captain)이 하나로 정리해서 내보내죠. 물론 “오늘 날씨 알려줘” 같은 건 이 과정이 줄어들고, 어려운 질문에는 에이전트가 더 붙을 수도 있대요.

벤치마크 성적표: 잘하는 것과 못하는 것

이 모델 벤치마크 성적이 좀 재밌는데, 잘하는 것과 못하는 게 확 갈립니다. Artificial Analysis 기준으로 정리해 봤어요.

항목	그록 4.20 Beta	GPT-5.4	Gemini 3.1 Pro	Claude Sonnet 4.6
Intelligence Index	48 (10위/119개)	57	57	52
비환각률 (AA Omniscience)	78% (1위)	—	—	—
출력 속도	265 t/s (1위)	—	—	—
컨텍스트 윈도우	200만 토큰	105만 토큰	—	100만 토큰 (베타)

종합 지능 지표인 Intelligence Index에서는 48점이에요. GPT-5.4(57)나 Gemini 3.1 Pro(57)에 비하면 꽤 격차가 나죠. 119개 모델 중 10위니까 상위권이긴 한데, 1등과는 거리가 있어요.

근데 비환각률 78%는 측정된 모델 중 1위입니다. AA Omniscience라는 테스트로 재는 건데, 100번 답하면 78번은 거짓 정보 없이 정확하게 답한다는 셈이죠. 모르는 건 모른다고 솔직히 말하는 것도 포함되고요. 4명이 서로 교차 검증하니까 헛소리가 줄어드는 겁니다.

출력 속도도 265 t/s로 1위. 동급 모델 중앙값이 60 t/s니까 4배 이상 빠릅니다. 다만 첫 토큰이 나오기까지 약 9초 걸리는데, 4개가 안에서 토론 끝내고 나와야 하니까요.

주식 트레이딩 대회에서 참가 모델 중 유일한 수익

좀 특이한 벤치마크가 하나 있는데요. Alpha Arena Season 1.5라는 실제 주식 트레이딩 대회에서 이 모델 변형 4개가 상위 6자리 중 4자리를 싹쓸이했습니다. 평균 수익률 +10~12%였고, 최적화 모드에서는 +34%이상. OpenAI·Google 모델들은 같은 대회에서 오히려 까먹었죠. 꽤 충격적인 차이였어요.

ForecastBench(예측 벤치마크)에서도 글로벌 2위를 찍었는데, GPT-5, Gemini 3 Pro, Claude Opus 4.5(당시 기준)보다 높았습니다. 종합 점수는 밀리지만 실전 예측만큼은 확실히 앞서요.

API 가격 비교: 출력 토큰이 저렴해요

모델	입력 (1M 토큰)	출력 (1M 토큰)	컨텍스트
그록 4.20 Beta	$2.00	$6.00	200만
GPT-5.4	$2.50	$15.00	105만
Claude Sonnet 4.6	$3.00	$15.00	100만 (베타)
Claude Opus 4.6	$5.00	$25.00	100만 (베타)
Grok 4.1 Fast	$0.20	$0.50	200만

출력 토큰 가격 기준으로 보면 GPT-5.4($15)나 Claude Sonnet 4.6($15)의 절반도 안 됩니다. $6이거든요. 입력도 $2로 거의 최저가 수준이고, 다만 같은 xAI의 Grok 4.1 Fast($0.20/$0.50)에 비하면 10배 이상 비싸긴 해요. 멀티에이전트 구조를 돌리려면 어쩔 수 없죠. GPT-5.4 벤치마크·가격이 궁금하면 GPT-5.4 벤치마크·가격 총정리에서 자세히 다뤘습니다.

캐시된 입력은 $0.20/1M 토큰이라, 같은 프롬프트를 반복 호출하면 꽤 싸져요.

그록 4.20 쓰려면 어떻게 해야 하나요?

현재 베타 단계라서 누구나 쓸 수 있는 건 아니에요.

SuperGrok 구독: 월 $30 (약 4만 4천 원)으로 웹/앱에서 이용 가능
X Premium+: X(트위터) 프리미엄 플러스 구독자도 접근 가능
API: 개발자용 API도 열려 있고, 모델 ID는 grok-4.20-multi-agent-beta-0309입니다

API만 쓸 거라면 구독 없이 종량제로 바로 이용할 수 있어요.

자주 묻는 질문

Q. 그록 4.20을 무료로 쓸 수 있나요?

아직은 안 돼요. SuperGrok(월 $30) 또는 X Premium+ 구독이 필요하죠. API는 종량제(입력 $2/출력 $6 per 1M 토큰)로 따로 쓸 수 있고요.

Q. GPT-5.4보다 나은 점이 뭔가요?

거짓말이 적은 데다(비환각률 78%), 속도도 빠르고(265 t/s) 가격까지 절반 이하입니다(출력 $6 vs GPT-5.4 $15). 대신 종합 지능(Intelligence Index)은 48 vs 57로 GPT-5.4한테 밀려요.

Q. 4개 에이전트가 항상 다 돌아가나요?

간단한 질문에는 과정이 줄어들어요. 어려울수록 토론이 깊어지고 에이전트가 더 붙을 수도 있죠. 첫 토큰까지 약 9초 걸리는 건 이 내부 토론 때문이에요.

Q. 한국어는 잘 되나요?

다국어를 지원하긴 하는데, X 실시간 데이터가 영어 위주(시스템 전체 일 6,800만 영어 트윗)라 영어에서 성능이 제일 좋습니다. 한국어도 쓸 수 있지만 실시간 데이터 기반 답변은 아무래도 영어만 못해요.

참고 자료

2026 그록 4.20 총정리: AI 4명이 토론하는 멀티에이전트, 벤치마크·가격 비교

그록 4.20, 뭐가 다른 건데?

그래서 그 4명이 누군데?