← 2026-03-06 목록으로


핵심 요약

OpenAI의 GPT-5.4는 코딩, 생산성 도구 사용, 컴퓨터 비전 등 다양한 전문 작업에 초점을 맞춰 혁신적인 성능 향상을 보였습니다. 단일 프롬프트로 복잡한 3D 시뮬레이션, 게임, 파워포인트 프레젠테이션, 스프레드시트 분석을 생성할 수 있으며, 이메일 전송 및 웹 양식 데이터 입력과 같은 UI 상호작용도 능숙하게 처리합니다. 특히 ‘Tool Search’와 ‘Agentic Tool Calling’ 기능의 개선으로 AI 에이전트의 효율성과 정확성이 크게 높아져, 개발 및 비즈니스 워크플로우에 상당한 영향을 미칠 것으로 예상됩니다.


주요 내용

GPT-5.4 소개

OpenAI는 GPT-5.4를 “Designed for professional work (전문적인 작업을 위해 설계됨)”이라고 소개하며, Chat GPT, API, Codex 전반에 걸쳐 더욱 유능하고 효율적인 모델임을 강조합니다.

Codex를 통한 다양한 애플리케이션 생성

생산성 도구 통합 및 개선

컴퓨터 사용 및 비전 (Computer use and vision)

GPT-5.4는 기본 컴퓨터 사용 능력과 비전 기능을 갖추고 있어 브라우저 인터페이스를 해석하고 UI 요소와 상호작용할 수 있습니다. 이는 Playwright 라이브러리를 통해 코드를 작성하여 컴퓨터를 제어하는 방식으로 구현됩니다.

도구 활용 (Tool use)

GPT-5.4는 외부 도구와 협업하는 방식을 크게 개선했습니다. 에이전트가 더 큰 도구 생태계에서 작동하고, 적절한 도구를 더 안정적으로 선택하며, 더 낮은 비용과 지연 시간으로 다단계 워크플로를 완료할 수 있습니다.

GPT-5.4는 agentic 웹 검색에서 더욱 향상된 성능을 보여줍니다. BrowseComp 벤치마크에서 GPT-5.2 대비 17% 개선되었으며, GPT-5.4 Pro는 89.3%의 정확도를 기록합니다. 이는 웹의 다양한 소스에서 정보를 효율적으로 취합하는 능력을 의미합니다.

조정 가능성 (Steerability)

GPT-5.4 Thinking은 작업 시작 시 모델의 작업 개요를 제시하며, 작업 진행 중에도 지시를 추가하거나 모델의 방향을 조정할 수 있는 ‘Steerability’ 기능을 제공합니다. 이를 통해 사용자는 모델의 추론 과정을 보다 정확하게 제어하여 원하는 결과물을 얻을 수 있습니다. 예를 들어, 날씨를 묻다가 캘리포니아 기준으로 알려달라고 하면, 모델이 기존 생각을 수정하여 재응답합니다.

안전성 (Safety)

OpenAI는 GPT-5.3-Codex 개발 시점부터 안전장치 개선을 지속해왔으며, GPT-5.4는 강화된 사이버 보안 능력을 갖추고 ‘Preparedness Framework’ 하에 배포됩니다. 여기에는 확장된 사이버 안전 스택, 모니터링 시스템, 신뢰할 수 있는 접근 제어, 높은 위험 요청에 대한 비동기 차단 등이 포함됩니다.


핵심 데이터 / 비교표

| 지표 (Codex) | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | |—|—|—|—| | GDPval (wins or ties) | 83.0% | 70.9% | 70.9% | | SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% | | OSWorld-Verified | 75.0% | 74.0%* | 47.3% | | Toolathlon | 54.6% | 51.9% | 46.3% | | BrowseComp | 82.7% | 77.3% | 65.8% | *GPT-5.3-Codex는 새로운 API 파라미터를 통해 74.0% 달성 (기존 이미지 해상도 보존).

Tool Search를 통한 토큰 절약 (동일 정확도 유지)

| 접근 방식 | Upfront Input Tokens | Input Tokens From Tool Outputs | Output Tokens | 누적 토큰 | |—|—|—|—|—| | With tool search | 2,700 | 2,220 | 60,400 | 65,320 | | Without tool search | 61,600 | 59,500 | - | 123,139 | *Tool Search 사용 시 총 토큰 사용량 47% 절감.

Toolathlon 벤치마크 (정확도 vs. 도구 호출 횟수)


타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:00 | GPT-5.4 Codex를 이용한 골든 게이트 브리지 3D 시뮬레이션 시연. | | 00:17 | 테마파크 건설 시뮬레이션 게임 시연. | | 00:33 | 전략 보드 게임 시연. | | 00:41 | GPT-5.4로 만든 OpenAI 소개 파워포인트 프레젠테이션 시연. | | 01:07 | GPT-5.4로 만든 나스닥 차트 스프레드시트 분석 시연. | | 01:19 | 모든 작업이 Codex 앱, GPT-5.4 Extra High, 단일 프롬프트로 수정 없이 이루어졌음을 강조. | | 01:33 | OpenAI의 GPT-5.4 출시 발표 페이지 소개: “전문가 작업을 위해 설계됨”. | | 02:03 | GPT-5.4, GPT-5.3-Codex, GPT-5.2의 성능 비교표 (GDPval, SWE-Bench 등). | | 02:19 | “Computer use and vision” 기능 설명 시작. | | 02:24 | 이메일 보내기 시연 (Playwright 사용, 1배속). | | 02:35 | 대량 데이터 입력 (Invoice Intake 폼) 시연. | | 02:55 | “Tool use” 기능 및 “Tool search” 설명. | | 03:11 | Tool Search를 통한 토큰 절약량 차트 설명 (47% 절감). | | 03:40 | “Agentic tool calling” 설명 및 Toolathlon 벤치마크 차트 (GPT-5.4가 더 적은 도구 호출로 높은 정확도). | | 04:50 | “Steerability” 기능 설명 및 ChatGPT 5.4 Thinking 시연 (날씨 질문 중 프롬프트 변경). | | 05:42 | 실제 G메일 첫 이메일 분석 및 이메일 전송 데모. | | 06:14 | GPT-5.4의 전반적인 업데이트 및 개인적 추천. | | 06:50 | 구독 및 멤버십 가입 요청 엔딩. |


결론 및 시사점

GPT-5.4는 코드 생성, 문서 작업, 게임 개발, 웹 인터페이스 제어 등 광범위한 영역에서 AI의 능력을 한 차원 끌어올렸습니다. 특히 ‘싱글 프롬프트’로 복잡한 결과물을 완벽하게 구현하고, AI의 사고 과정을 중간에 ‘조정’할 수 있는 기능은 AI를 단순한 도구가 아닌 능동적인 에이전트로 활용할 수 있는 가능성을 제시합니다. 이는 개발자들이나 일반 사용자 모두에게 작업 효율성을 극대화하고 창의적인 결과물을 만드는 데 큰 도움을 줄 것입니다. GPT-5.4의 등장은 AI 활용의 새로운 패러다임을 열었으며, 앞으로 더 많은 분야에서 AI가 실제 업무에 통합되는 과정을 가속화할 것으로 보입니다.


추가 학습 키워드


기본 정보

| 항목 | 내용 | |—|—| | 채널 | 코드팩토리 | | 카테고리 | 프로그래밍 | | 게시일 | 2026-03-06 | | 영상 길이 | 7:23 | | 처리 엔진 | gemini-2.5-flash | | 원본 영상 | YouTube에서 보기 |