이상할 정도로 너무 좋아져버린 GPT 5.4

← 2026-03-06 목록으로

핵심 요약

OpenAI의 GPT-5.4는 코딩, 생산성 도구 사용, 컴퓨터 비전 등 다양한 전문 작업에 초점을 맞춰 혁신적인 성능 향상을 보였습니다. 단일 프롬프트로 복잡한 3D 시뮬레이션, 게임, 파워포인트 프레젠테이션, 스프레드시트 분석을 생성할 수 있으며, 이메일 전송 및 웹 양식 데이터 입력과 같은 UI 상호작용도 능숙하게 처리합니다. 특히 ‘Tool Search’와 ‘Agentic Tool Calling’ 기능의 개선으로 AI 에이전트의 효율성과 정확성이 크게 높아져, 개발 및 비즈니스 워크플로우에 상당한 영향을 미칠 것으로 예상됩니다.

주요 내용

GPT-5.4 소개

OpenAI는 GPT-5.4를 “Designed for professional work (전문적인 작업을 위해 설계됨)”이라고 소개하며, Chat GPT, API, Codex 전반에 걸쳐 더욱 유능하고 효율적인 모델임을 강조합니다.

Codex를 통한 다양한 애플리케이션 생성

Golden Gate Bridge 3D 시뮬레이션: 단일 프롬프트를 통해 골든 게이트 브리지의 3D 시뮬레이션을 생성하며, 차량의 움직임까지 구현합니다.
테마파크 건설 시뮬레이션 게임: 역시 단일 프롬프트로 테마파크를 건설하고 운영하는 게임을 만들었으며, 건설 규칙(어디에 무엇을 만들 수 있고 없는지)을 정확히 지키는 놀라운 완성도를 보여줍니다.
전략 보드 게임 (Eclipsed Tactics): 단일 프롬프트로 전략 게임을 만들었으며, 컴퓨터가 게임을 잘 플레이할 수 있을 정도로 기능이 구현되었습니다.

생산성 도구 통합 및 개선

파워포인트 프레젠테이션: GPT-5.4는 OpenAI에 대한 상세한 파워포인트 프레젠테이션 슬라이드 덱을 단일 프롬프트로 생성합니다. GPT-5.3 대비 PPT 능력이 매우 향상되어, 텍스트 크기 조정과 같은 미세한 수정만으로 거의 완벽한 디자인을 보여줍니다.
스프레드시트 분석: 나스닥 차트의 1주일치 데이터를 분석하여 표와 그래프로 표현하는 스프레드시트를 단일 프롬프트로 생성합니다. 이는 5.3, 5.2 버전에 비해 확실히 개선된 부분입니다.

컴퓨터 사용 및 비전 (Computer use and vision)

GPT-5.4는 기본 컴퓨터 사용 능력과 비전 기능을 갖추고 있어 브라우저 인터페이스를 해석하고 UI 요소와 상호작용할 수 있습니다. 이는 Playwright 라이브러리를 통해 코드를 작성하여 컴퓨터를 제어하는 방식으로 구현됩니다.

이메일 처리: G메일에서 첫 이메일을 분석하고, 특정 주소로 “안녕”이라는 내용의 이메일을 작성하고 전송하는 과정을 시연합니다. 이 모든 과정이 1배속으로 빠르게 진행됩니다.
대량 데이터 입력: Invoice Intake와 같은 웹 양식에 여러 줄의 데이터를 자동으로 입력하고 제출하는 작업을 시연합니다. 이 기능은 OpenClone에서 영감을 받은 것으로 보인다고 언급합니다.

도구 활용 (Tool use)

GPT-5.4는 외부 도구와 협업하는 방식을 크게 개선했습니다. 에이전트가 더 큰 도구 생태계에서 작동하고, 적절한 도구를 더 안정적으로 선택하며, 더 낮은 비용과 지연 시간으로 다단계 워크플로를 완료할 수 있습니다.

Tool Search: API에 ‘tool search’ 기능이 도입되어, 많은 도구가 주어졌을 때 모델이 효율적으로 작업하도록 돕습니다. 이는 불필요한 도구 정의를 프롬프트에 미리 포함하지 않아도 되게 하여, 동일한 정확도를 유지하면서 총 토큰 사용량을 47% 절감합니다.
Agentic Tool Calling: GPT-5.4는 ‘tool calling’ 능력을 향상시켜, Toolathlon 벤치마크에서 GPT-5.2 대비 더 적은 도구 호출(tool yields)로 더 높은 정확도를 달성합니다. 이는 특정 작업을 수행할 때 필요한 API 호출 횟수를 줄여 지연 시간을 단축하고 더 빠른 결과물을 얻게 합니다.

웹 검색 (Improved web search)

GPT-5.4는 agentic 웹 검색에서 더욱 향상된 성능을 보여줍니다. BrowseComp 벤치마크에서 GPT-5.2 대비 17% 개선되었으며, GPT-5.4 Pro는 89.3%의 정확도를 기록합니다. 이는 웹의 다양한 소스에서 정보를 효율적으로 취합하는 능력을 의미합니다.

조정 가능성 (Steerability)

GPT-5.4 Thinking은 작업 시작 시 모델의 작업 개요를 제시하며, 작업 진행 중에도 지시를 추가하거나 모델의 방향을 조정할 수 있는 ‘Steerability’ 기능을 제공합니다. 이를 통해 사용자는 모델의 추론 과정을 보다 정확하게 제어하여 원하는 결과물을 얻을 수 있습니다. 예를 들어, 날씨를 묻다가 캘리포니아 기준으로 알려달라고 하면, 모델이 기존 생각을 수정하여 재응답합니다.

안전성 (Safety)

OpenAI는 GPT-5.3-Codex 개발 시점부터 안전장치 개선을 지속해왔으며, GPT-5.4는 강화된 사이버 보안 능력을 갖추고 ‘Preparedness Framework’ 하에 배포됩니다. 여기에는 확장된 사이버 안전 스택, 모니터링 시스템, 신뢰할 수 있는 접근 제어, 높은 위험 요청에 대한 비동기 차단 등이 포함됩니다.

핵심 데이터 / 비교표

| 지표 (Codex) | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | |—|—|—|—| | GDPval (wins or ties) | 83.0% | 70.9% | 70.9% | | SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% | | OSWorld-Verified | 75.0% | 74.0%* | 47.3% | | Toolathlon | 54.6% | 51.9% | 46.3% | | BrowseComp | 82.7% | 77.3% | 65.8% | *GPT-5.3-Codex는 새로운 API 파라미터를 통해 74.0% 달성 (기존 이미지 해상도 보존).

Tool Search를 통한 토큰 절약 (동일 정확도 유지)

| 접근 방식 | Upfront Input Tokens | Input Tokens From Tool Outputs | Output Tokens | 누적 토큰 | |—|—|—|—|—| | With tool search | 2,700 | 2,220 | 60,400 | 65,320 | | Without tool search | 61,600 | 59,500 | - | 123,139 | *Tool Search 사용 시 총 토큰 사용량 47% 절감.

Toolathlon 벤치마크 (정확도 vs. 도구 호출 횟수)

그래프는 GPT-5.4가 GPT-5.2에 비해 더 적은 도구 호출(Number of tool yields)로도 높은 정확도(Accuracy)를 달성함을 보여줍니다.
예시 데이터 (그래프 상):
- GPT-5.4 (Number of tool yields: 17, Accuracy: 19.4%, Effort: none)
- GPT-5.4 (Number of tool yields: 17, Accuracy: 41.4%, Effort: low)
- GPT-5.4 (Number of tool yields: 약 23, Accuracy: 약 55%)
- GPT-5.2 (Number of tool yields: 약 30, Accuracy: 약 40%)

타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:00 | GPT-5.4 Codex를 이용한 골든 게이트 브리지 3D 시뮬레이션 시연. | | 00:17 | 테마파크 건설 시뮬레이션 게임 시연. | | 00:33 | 전략 보드 게임 시연. | | 00:41 | GPT-5.4로 만든 OpenAI 소개 파워포인트 프레젠테이션 시연. | | 01:07 | GPT-5.4로 만든 나스닥 차트 스프레드시트 분석 시연. | | 01:19 | 모든 작업이 Codex 앱, GPT-5.4 Extra High, 단일 프롬프트로 수정 없이 이루어졌음을 강조. | | 01:33 | OpenAI의 GPT-5.4 출시 발표 페이지 소개: “전문가 작업을 위해 설계됨”. | | 02:03 | GPT-5.4, GPT-5.3-Codex, GPT-5.2의 성능 비교표 (GDPval, SWE-Bench 등). | | 02:19 | “Computer use and vision” 기능 설명 시작. | | 02:24 | 이메일 보내기 시연 (Playwright 사용, 1배속). | | 02:35 | 대량 데이터 입력 (Invoice Intake 폼) 시연. | | 02:55 | “Tool use” 기능 및 “Tool search” 설명. | | 03:11 | Tool Search를 통한 토큰 절약량 차트 설명 (47% 절감). | | 03:40 | “Agentic tool calling” 설명 및 Toolathlon 벤치마크 차트 (GPT-5.4가 더 적은 도구 호출로 높은 정확도). | | 04:50 | “Steerability” 기능 설명 및 ChatGPT 5.4 Thinking 시연 (날씨 질문 중 프롬프트 변경). | | 05:42 | 실제 G메일 첫 이메일 분석 및 이메일 전송 데모. | | 06:14 | GPT-5.4의 전반적인 업데이트 및 개인적 추천. | | 06:50 | 구독 및 멤버십 가입 요청 엔딩. |

결론 및 시사점

GPT-5.4는 코드 생성, 문서 작업, 게임 개발, 웹 인터페이스 제어 등 광범위한 영역에서 AI의 능력을 한 차원 끌어올렸습니다. 특히 ‘싱글 프롬프트’로 복잡한 결과물을 완벽하게 구현하고, AI의 사고 과정을 중간에 ‘조정’할 수 있는 기능은 AI를 단순한 도구가 아닌 능동적인 에이전트로 활용할 수 있는 가능성을 제시합니다. 이는 개발자들이나 일반 사용자 모두에게 작업 효율성을 극대화하고 창의적인 결과물을 만드는 데 큰 도움을 줄 것입니다. GPT-5.4의 등장은 AI 활용의 새로운 패러다임을 열었으며, 앞으로 더 많은 분야에서 AI가 실제 업무에 통합되는 과정을 가속화할 것으로 보입니다.

추가 학습 키워드

GPT-5.4 Thinking
Agentic AI
OpenAI Codex
Playwright Automation
Steerability in LLMs

기본 정보

| 항목 | 내용 | |—|—| | 채널 | 코드팩토리 | | 카테고리 | 프로그래밍 | | 게시일 | 2026-03-06 | | 영상 길이 | 7:23 | | 처리 엔진 | gemini-2.5-flash | | 원본 영상 | YouTube에서 보기 |