2026 GPT-5.4 출시 총정리: AI 컴퓨터 조작부터 벤치마크, 가격까지

GPT-5.4, 대체 뭐가 달라진 거예요?

오픈AI가 2026년 3월 5일, GPT-5.4를 공식 출시했어요. 이번엔 좀 다릅니다. AI가 직접 내 컴퓨터 화면을 보고 마우스 클릭, 키보드 입력까지 해주는 모델이 나온 거거든요. 거기다 컨텍스트 윈도우 105만 토큰, 환각 33% 감소까지. 꽤 의미 있는 업그레이드예요.

이번 모델은 기본 외에 추론 특화 Thinking, 최고 성능 Pro까지 총 3가지 모델로 나왔는데요. 가격, 벤치마크, 경쟁사 비교까지 핵심만 정리했습니다.

GPT-5.4 핵심 기능 4가지

1. 네이티브 컴퓨터 사용 — AI가 내 PC를 직접 조작합니다

가장 큰 변화는 네이티브 컴퓨터 사용(CUA) 기능이에요. 스크린샷을 찍어서 화면을 인식하고, 마우스 이동·클릭·키보드 입력을 직접 수행합니다. 웹 브라우저 조작, 엑셀·구글 시트 작업, 심지어 프레젠테이션 제작까지 가능하더라고요.

실제 성능도 인상적이에요. 데스크톱 환경 탐색 벤치마크인 OSWorld에서 75.0%를 기록했는데, 인간 평가 그룹(72.4%)을 넘었고, 주요 상용 LLM 중 가장 높은 점수예요. 부동산 기술 기업 Mainstay가 약 3만 개 주택관리(HOA)·재산세 포털을 대상으로 테스트한 결과, 1차 시도 95%, 3차 내 100% 성공률을 보였고요.

이전 CUA 모델과 비교하면 속도는 약 3배 빨라졌고, 토큰 사용량은 70% 줄었습니다. 실무에서 쓸 만한 수준이 된 거죠.

2. 105만 토큰 컨텍스트 윈도우

GPT-5.2가 40만 토큰이었는데, 이번 버전에서 약 105만 토큰으로 2.6배 이상 늘었어요. 영문 기준 A4 용지 약 1,575쪽 분량을 한 번에 처리할 수 있다는 뜻이에요.

다만 주의할 점이 있어요. 기본 요금이 적용되는 구간은 272K 토큰까지고, 그 이상 넘어가면 입력 요금 2배, 출력 요금 1.5배가 붙습니다. 긴 문서를 처리할 때는 비용 계산을 미리 해보는 게 좋아요.

3. 도구 검색(Tool Search) — 토큰 47% 절감

개발자한테 반가운 기능인데요. 기존엔 API를 쓸 때 사용 가능한 도구(tool) 정의를 전부 프롬프트에 넣어야 했거든요. 이번엔 Tool Search라는 기능으로 필요한 도구만 그때그때 불러옵니다. 테스트 결과 토큰 사용량이 47% 줄었다고 해요.

4. 환각(할루시네이션) 33% 감소

GPT-5.2와 비교했을 때, 개별 주장이 틀릴 확률이 33% 줄었고, 응답 전체에 오류가 포함될 확률은 18% 줄었습니다. “AI가 그럴듯하게 거짓말하는” 문제가 꽤 개선된 셈이에요. 물론 완전히 사라진 건 아니니까, 중요한 정보는 여전히 확인이 필요합니다.

벤치마크 비교 — 숫자로 확인해 봅시다

GPT-5.2 대비 얼마나 나아졌는지, 주요 벤치마크를 한눈에 정리했어요.

벤치마크GPT-5.4GPT-5.2변화
SWE-Bench Pro (코딩)57.7%55.6%+2.1%p
OSWorld (컴퓨터 사용)75.0%47.3%+27.7%p
GDPval (전문 업무)83.0%70.9%+12.1%p
ARC-AGI-2 (추상 추론)73.3%52.9%+20.4%p
투자은행 모델링87.3%68.4%+18.9%p
BrowseComp (웹 검색)82.7%65.8%+16.9%p

※ 위 수치는 오픈AI 자체 평가 기준입니다. 독립 벤치마크와 차이가 있을 수 있어요.

코딩(SWE-Bench Pro)은 소폭 개선에 그쳤지만, 컴퓨터 사용(+27.7%p)과 추상 추론(+20.4%p)은 점프 수준이에요. 특히 OSWorld에서 75.0%로 인간(72.4%)을 넘긴 건 상징적이에요.

참고로 코딩 전용 모델인 GPT-5.3 Codex는 SWE-Bench Pro 56.8%였는데, GPT-5.4가 57.7%로 약간 앞섰어요. 범용 모델이 코딩 특화 모델과 대등한 수준에 올라온 셈이죠.

Pro 버전은 성능이 한 단계 더 올라갑니다. ARC-AGI-2에서 83.3%(기본 모델 대비 +10%p), BrowseComp에서 89.3%, Frontier Math Tier 4에서 38.0%를 기록했어요.

가격 정리 — API와 ChatGPT 요금제

API 가격 (100만 토큰당)

모델입력캐시 입력출력
GPT-5.4$2.50$0.25$15
GPT-5.4 Pro$30$180

기본 모델은 입력 $2.50, 출력 $15로 가격 대비 성능이 괜찮은 편이에요. Pro는 12배 비싸지만, ARC-AGI-2 같은 고난도 추론에서 확실히 차이가 납니다.

ChatGPT 구독 요금제

요금제월 가격사용 가능 모델
Free무료GPT-5.3 (10회/5시간)
Plus$20Thinking
Business (구 Team)$25/유저 (연간)Thinking (높은 한도)
Pro$200Thinking + Pro

기존에 ChatGPT Plus($20/월)를 쓰고 있다면 Thinking 모델을 바로 사용할 수 있어요. Pro 버전은 $200/월 Pro 요금제에서만 쓸 수 있습니다.

GPT-5.4 vs 클로드 vs 제미나이 — 3사 비교

이전에 ChatGPT·클로드·제미나이 3사 비교를 했었는데요, 이번 출시로 판도가 좀 바뀌었어요.

항목GPT-5.4Claude Opus 4.6Gemini 3.1 Pro
API 입력 가격$2.50$5.00$2.00
API 출력 가격$15$25$12
컨텍스트 윈도우1.05M 토큰200K (1M 베타)1M 토큰
컴퓨터 사용 (OSWorld)75.0%72.7%
BrowseComp (웹 검색)82.7%84.0%85.9%

가격은 Gemini가 가장 저렴하고, 컨텍스트 윈도우는 이번 모델과 Gemini가 동급(1M)이에요. 컴퓨터 사용(OSWorld)은 GPT-5.4가 75.0%로 1위, Claude가 72.7%로 바짝 뒤쫓고 있습니다. 반면 웹 검색(BrowseComp)에서는 Gemini(85.9%)와 Claude(84.0%)가 GPT-5.4(82.7%)보다 앞서요. 코딩 벤치마크는 모델마다 사용하는 평가 기준(SWE-Bench Pro vs Verified)과 평가 환경이 달라서 단순 비교가 어렵습니다. BrowseComp 점수도 각사가 자체 평가 환경(도구, 하네스)에서 측정한 결과라 직접 비교에 한계가 있어요. 현재 3사 최신 모델의 동일 조건 독립 평가 결과는 아직 나오지 않았어요.

참고로 클로드 AI의 최근 행보가 궁금하다면 이 글도 확인해 보세요.

GPT-5.2 Thinking, 6월에 종료됩니다

GPT-5.4 Thinking이 기존 GPT-5.2 Thinking을 대체합니다. GPT-5.2 Thinking은 2026년 6월 5일에 완전히 퇴역할 예정이에요. 3개월간 레거시 모델 메뉴에서 쓸 수 있지만, 그 전에 이전하는 게 좋겠죠.

API를 쓰는 개발자라면 코드에서 모델명을 미리 바꿔두는 걸 추천합니다.

자주 묻는 질문

Q. GPT-5.4는 무료로 쓸 수 있나요?

ChatGPT 무료 플랜에서는 GPT-5.4를 사용할 수 없어요. 최소 Plus 요금제($20/월)가 필요하고, 이 경우 Thinking 모델을 쓸 수 있습니다. 팀으로 쓴다면 Business 요금제($25/유저/월)도 가능하고요. Pro 버전은 $200/월 Pro 요금제에서만 가능해요.

Q. 컴퓨터 사용 기능은 안전한가요?

오픈AI는 이 모델에 사이버보안 High 등급 완화 조치를 적용했어요. 유해 요청을 차단하는 분류기와 안전성 추론기를 결합한 다층 방어 구조도 갖추고 있습니다. 다만 민감한 작업을 맡길 때는 직접 확인하는 습관이 필요해요.

Q. GPT-5.4와 GPT-5.3 Codex, 코딩은 뭐가 더 좋나요?

SWE-Bench Pro 기준으로 GPT-5.4가 57.7%, GPT-5.3 Codex가 56.8%로 거의 비슷해요. 이 모델은 코딩에 더해서 컴퓨터 사용, 전문 업무, 추론까지 두루 잘하는 범용 모델이라는 점이 차이입니다. 코딩만 집중적으로 쓸 거라면 둘 다 큰 차이 없어요.

Q. GPT-5.2에서 GPT-5.4로 바꿔야 하나요?

벤치마크만 보면 대부분의 영역에서 새 모델이 앞서요. 특히 컴퓨터 사용(+27.7%p), 추상 추론(+20.4%p), 투자은행 모델링(+18.9%p) 같은 분야는 차이가 큽니다. API 가격 구조가 바뀌었으니, 비용 시뮬레이션을 해본 뒤 전환하는 걸 추천해요. 어차피 GPT-5.2 Thinking은 6월 5일에 종료되니까요.

Similar Posts