CLAUDE.md 지워

핵심 요약

코드 에이전트 개발에서 널리 사용되는 AGENTS.md와 같은 컨텍스트 파일이 실제 작업 성능에 미치는 영향에 대한 연구 결과가 발표되었습니다. 이 연구는 LLM이 자동 생성한 컨텍스트 파일이 작업 성공률을 낮추고 추론 비용을 20% 이상 증가시키는 경향이 있음을 발견했습니다. 반면, 사람이 작성한 컨텍스트 파일은 유의미한 성능 향상을 가져왔으며, 이는 에이전트에게 필요한 최소한의 정보만 제공해야 함을 시사합니다.

주요 내용

AGENTS.md 및 컨텍스트 파일 소개

AGENTS.md는 소프트웨어 개발 분야에서 코딩 에이전트가 특정 저장소에 맞춰 조정될 수 있도록 컨텍스트(문맥) 파일을 수동 또는 자동으로 생성하여 제공하는 방식입니다. 에이전트 개발자들은 이러한 방식을 적극 권장해왔지만, 실제 작업에서 효과가 있는지에 대한 엄밀한 연구는 부족했습니다. AI의 컨텍스트는 시스템 프롬프트, 메모리 파일(AGENTS.md 등), 사용자 프롬프트, AI 출력으로 구성되며, 시스템 프롬프트가 가장 높은 우선순위를 가집니다.

연구 목적 및 실험 환경

이 연구는 코딩 에이전트의 작업 완료 성능을 두 가지 상호 보완적인 환경에서 평가했습니다.

SW-BENCH Lite: 에이전트 개발자의 권장 사항에 따라 LLM이 생성한 컨텍스트 파일을 사용한 인기 저장소 기반 환경.
AGENTBENCH: 개발자가 직접 커밋한 컨텍스트 파일이 포함된 저장소에서 수집한 새로운 이슈 데이터셋 환경.

테스트는 세 가지 조건에서 진행되었습니다:

None: 컨텍스트 파일이 전혀 없는 경우.
LLM: LLM이 자동 생성한 컨텍스트 파일을 제공한 경우.
Human: 개발자가 직접 작성한 컨텍스트 파일을 제공한 경우.

컨텍스트 파일의 영향 분석

성공률 (Resolution Rate):
- SW-BENCH Lite (왼쪽 차트): LLM이 생성한 컨텍스트 파일(LLM)을 제공했을 때, 컨텍스트를 전혀 제공하지 않은(None) 경우보다 작업 성공률이 낮아지는 경향을 보였습니다.
- AGENTBENCH (오른쪽 차트): 사람이 작성한 컨텍스트 파일(Human)을 제공했을 때, Sonnet-4.5와 GPT-5.2 모델에서 컨텍스트를 제공하지 않거나 LLM이 생성한 경우보다 성공률이 높았습니다.
평균 단계 및 실행 비용:
- SW-BENCH Lite: 컨텍스트 파일을 제공하지 않았을 때(None)가 LLM이 생성한 컨텍스트 파일을 사용했을 때(LLM)보다 평균적으로 더 적은 단계와 더 낮은 비용을 기록했습니다.
- AGENTBENCH: 사람이 작성한 컨텍스트 파일(Human)이 컨텍스트가 없거나 LLM이 생성한 경우보다 평균적으로 더 적은 단계와 낮은 비용을 보였습니다.
도구 사용 및 추론 토큰:
- 컨텍스트 파일이 제공되면 에이전트가 더 많은 도구를 사용하고, 저장소를 더 넓게 탐색하며, 더 많은 추론 토큰을 소비하는 경향이 있었습니다.
- 이는 컨텍스트 파일이 에이전트의 불필요한 정보 처리, 과도한 탐색 및 테스트, 지시 사항 준수에 에너지 낭비를 유발할 수 있음을 시사합니다.
- LLM이 생성한 컨텍스트 파일을 제공했을 때, GPT-5.2와 GPT-5.1 Mini 모델에서 추론 토큰 사용량이 각각 22%와 14% 더 증가했습니다.

문서화 관련 파일 제거 실험

코드베이스에서 문서화와 관련된 파일을 모두 제거했을 때의 성공률을 비교한 결과(Figure 5), 컨텍스트가 없는 경우보다 오히려 LLM이 생성한 컨텍스트 파일의 성능이 떨어지는 경향을 보였습니다. 이는 불필요한 정보가 에이전트의 작업 효율을 저해할 수 있음을 뒷받침합니다.

핵심 데이터 / 비교표

Figure 1: 모델별 해결률 (성공률) 비교

| 모델 | None (컨텍스트 없음) | LLM (LLM 생성 컨텍스트) | Human (개발자 제공 컨텍스트) | 벤치마크 | |—|—|—|—|—| | Sonnet-4.5 | 60% | 58% | (N/A) | SWE-BENCH Lite | | GPT-5.2 | 57% | 55% | (N/A) | SWE-BENCH Lite | | GPT-5.1 Mini | 53% | 48% | (N/A) | SWE-BENCH Lite | | Qwen-3-30B | 31% | 27% | (N/A) | SWE-BENCH Lite | | Sonnet-4.5 | 68% | 67% | 70% | AGENTBENCH | | GPT-5.2 | 67% | 65% | 68% | AGENTBENCH | | GPT-5.1 Mini | 50% | 45% | 55% | AGENTBENCH | | Qwen-3-30B | 32% | 30% | 35% | AGENTBENCH |

주: Qwen-3-30B의 경우 전반적으로 성공률이 낮게 나타남. AGENTBENCH에서는 Human 컨텍스트가 LLM 컨텍스트보다 대부분 우수함을 보임.

Table 2: 평균 단계 (Steps) 및 실행 비용 (Cost in USD) 비교

| Type | Model | None Steps | None Cost | LLM Steps | LLM Cost | Human Steps | Human Cost | |—|—|—|—|—|—|—|—| | SWE-BENCH Lite | Sonnet-4.5 | 54.4 | 1.30 | 57.2 | 1.35 | N/A | N/A | | SWE-BENCH Lite | GPT-5.2 | 13.0 | 0.32 | 13.5 | 0.43 | N/A | N/A | | SWE-BENCH Lite | GPT-5.1 Mini | 0.32 | 0.09 | 0.43 | 0.13 | N/A | N/A | | SWE-BENCH Lite | Qwen-3-30B | 0.09 | 0.12 | 0.13 | 0.15 | N/A | N/A | | AGENTBENCH | Sonnet-4.5 | 40.7 | 1.13 | 46.5 | 1.31 | 13.3 | 0.57 | | AGENTBENCH | GPT-5.2 | 13.1 | 0.56 | 13.7 | 0.59 | 13.6 | 0.54 | | AGENTBENCH | GPT-5.1 Mini | 0.32 | 0.15 | 0.38 | 0.15 | 0.20 | 0.13 | | AGENTBENCH | Qwen-3-30B | 0.12 | 0.15 | 0.15 | 0.15 | 0.12 | 0.15 |

주: None은 컨텍스트를 제공하지 않은 경우. LLM은 LLM 생성 컨텍스트. Human은 개발자 제공 컨텍스트. N/A는 해당 데이터 없음. 더 적은 단계와 비용이 더 나은 효율을 의미함.

Figure 4: PR 패치 파일에 대한 첫 번째 상호작용까지의 단계 수

컨텍스트가 없을 때(None)가 LLM 생성 컨텍스트(LLM) 또는 개발자 제공 컨텍스트(Human)가 있을 때보다 첫 상호작용까지의 단계 수가 대부분 적음.

Figure 7: 추론 토큰 (Reasoning Tokens) 사용량 (SWE-BENCH Lite 및 AGENTBENCH 기준)

| 모델 | None (토큰) | LLM (토큰) | Human (토큰) | 벤치마크 | |—|—|—|—|—| | GPT-5.2 | ~10,000 | ~12,000 | N/A | SWE-BENCH Lite | | GPT-5.1 Mini | ~45,000 | ~51,000 | N/A | SWE-BENCH Lite | | GPT-5.2 | ~10,000 | ~12,000 | ~10,500 | AGENTBENCH | | GPT-5.1 Mini | ~45,000 | ~51,000 | ~48,000 | AGENTBENCH |

주: LLM 컨텍스트와 Human 컨텍스트 모두 None보다 추론 토큰 사용량이 증가함. 이는 컨텍스트가 에이전트의 추론 과정을 길게 만들어 비용 증가로 이어질 수 있음을 보여줍니다.

타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:00 | AGENTS.md 및 리포지토리 레벨 컨텍스트 파일의 유용성 논문 소개. | | 00:39 | AI 컨텍스트 구성 요소 (System Prompt, Memory Files, User Prompt, AI Output) 설명 및 컨텍스트 우선순위 분석. | | 03:00 | 논문 “Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?” 소개. 컨텍스트 파일이 오히려 작업 성공률을 낮추고 비용을 증가시킨다는 의외의 결과 언급. | | 05:07 | 실험 설계 설명: AGENTBENCH 및 SWE-BENCH Lite 벤치마크, 3가지 컨텍스트 조건(없음, LLM 생성, 사람 작성). | | 05:51 | Figure 1 (해결률) 분석: LLM 생성 컨텍스트는 성공률을 낮추고, 사람이 작성한 컨텍스트는 AGENTBENCH에서 일부 모델의 성공률을 향상시킴. | | 07:15 | Table 2 (단계 및 비용) 분석: LLM 생성 컨텍스트는 단계와 비용을 증가시킴. 사람이 작성한 컨텍스트는 효율을 높이는 경향을 보임. | | 09:25 | Figure 4 (첫 상호작용까지의 단계 수) 분석: 컨텍스트가 있을 때 에이전트가 파일 탐색에 더 많은 단계를 거침. | | 11:28 | Figure 7 (추론 토큰 사용량) 분석: 컨텍스트가 있을 때 더 많은 추론 토큰을 사용하여 작업 처리에 더 많은 자원이 소모됨. | | 12:47 | 최종 결론: 컨텍스트 파일의 불필요한 요구사항이 작업을 어렵게 만들며, 사람이 직접 작성한 컨텍스트 파일은 최소한의 필요 요구사항만 명시해야 함. | | 13:35 | 컨텍스트 파일에 특정 작업과 무관한 내용이 포함되면 에이전트의 목표 달성을 방해하고 효율을 떨어뜨릴 수 있음. | | 14:35 | 컨텍스트 파일을 효율적으로 관리하는 방법: 클로즈업.md에 필요한 핵심 정보만 담고, 특수한 기능은 스킬(sub-agent)로 분리하여 관리. | | 16:14 | 논문 결과의 오해를 경고: 에이전트가 멍청해지는 이유는 컨텍스트 파일을 잘못 작성했기 때문일 가능성이 높음. 문서화 목적의 컨텍스트는 오히려 역효과. | | 17:21 | 영상 종료. |

결론 및 시사점

이 연구는 코딩 에이전트의 성능 향상을 위해 컨텍스트 파일을 사용하는 방식에 대한 중요한 시사점을 제공합니다. 불필요하거나 관련 없는 정보가 담긴 컨텍스트 파일은 오히려 에이전트의 작업 성공률을 저해하고, 더 많은 탐색 시간과 추론 비용을 발생시킬 수 있습니다. 반면, 사람이 작업의 핵심 요구사항만을 명확하고 간결하게 작성한 컨텍스트 파일은 에이전트의 효율성을 높이는 데 기여할 수 있습니다. 이는 컨텍스트 파일의 존재 유무보다 그 내용의 질과 적절성이 더 중요하며, 에이전트의 자율적 판단과 탐색 능력을 과도하게 제약하거나 불필요한 방향으로 이끌지 않도록 주의해야 함을 의미합니다. 따라서, 컨텍스트 파일은 최소한의 필수적인 정보만을 포함하고, 복잡하거나 특수한 기능은 별도의 스킬(Sub-Agent)로 분리하여 관리하는 것이 효과적인 AI 에이전트 개발 전략으로 제시됩니다.

추가 학습 키워드

Repository-Level Context Files
Coding Agents Benchmarking
Prompt Engineering for LLMs
Agentic AI Frameworks
Context Window Management

기본 정보

| 항목 | 내용 | |—|—| | 채널 | 코드팩토리 | | 카테고리 | 프로그래밍 | | 게시일 | 2026-02-24 | | 영상 길이 | 17:42 | | 처리 엔진 | gemini-2.5-flash | | 원본 영상 | YouTube에서 보기 |