← 2026-03-18 목록으로


핵심 요약

Anthropic의 Skill Creator가 2.0으로 업데이트되어 스킬 개발 및 관리가 획기적으로 개선되었습니다. 이제 사용자는 스킬의 성능을 벤치마킹하고, 반복적인 개선 과정을 자동화하며, 스킬 설명 최적화를 통해 트리거 정확도를 높일 수 있습니다. 특히, AI 모델의 자체 발전과 무관하게 스킬의 유효성을 평가하고 필요시 스킬의 기능을 모델에 흡수시킬 수 있는 ‘Eval’ 기능이 핵심적인 변화입니다.


주요 내용

Skill Creator 2.0 업데이트 개요

최근 Anthropic은 Skill Creator를 대폭 확장하여 ‘Agent Skills’를 테스트, 측정 및 개선하는 기능을 강화했습니다. 이는 기존 스킬 크리에이터의 기능을 크게 확장한 업데이트로, 명확하게 ‘2.0’으로 명명되지는 않았지만 기능적으로 큰 진전을 보였습니다.

두 가지 스킬 유형

스킬은 크게 두 가지 범주로 나뉩니다:

  1. Capability uplift skills: 기본 모델이 수행할 수 없거나 일관성 없이 수행하는 작업을 돕습니다. 예를 들어, 문서 생성 스킬이 이에 해당합니다. 모델이 개선됨에 따라 이러한 스킬은 덜 필요해질 수 있습니다.
  2. Encoded preference skills: Claude가 각 부분을 이미 수행할 수 있지만, 팀의 프로세스에 따라 스킬이 순서를 정하는 워크플로우를 문서화합니다. 예를 들어, NDA 검토 또는 주간 업데이트 초안 작성이 이에 해당합니다. 이 스킬은 모델 개선에 덜 영향을 받으며, 워크플로우의 충실도가 중요합니다.

Eval을 이용한 스킬 테스트 및 개선

Skill Creator는 이제 ‘Eval’(평가) 작성을 지원하여, 주어진 프롬프트에 대해 Claude가 기대하는 바를 얼마나 잘 수행하는지 테스트할 수 있습니다. 이는 소프트웨어 테스트와 유사하게 작동하며, 스킬이 제대로 작동하는지 확인하는 데 사용됩니다. Eval은 두 가지 중요한 용도로 사용됩니다:

  1. 품질 저하(Regression) 포착: 모델과 인프라가 발전함에 따라 스킬이 다르게 작동할 수 있으므로, 새로운 모델에 대한 Eval 실행은 조기 신호를 제공합니다.
  2. 모델이 스킬 능력을 능가했는지 파악: Capability uplift 스킬에 주로 적용되며, 기본 모델이 스킬 로딩 없이 Eval을 통과한다면, 해당 스킬의 기술이 모델의 기본 동작에 통합되었음을 의미합니다.

또한, ‘벤치마크 모드’가 추가되어 Eval을 사용한 표준화된 평가를 실행할 수 있습니다. 이는 모델 업데이트 후 또는 스킬을 반복적으로 개선할 때 사용할 수 있으며, 통과율, 경과 시간, 토큰 사용량을 추적합니다.

멀티 에이전트 지원을 통한 평가

순차적인 Eval 실행은 느리고 컨텍스트가 오염될 수 있습니다. Skill Creator는 이제 멀티 에이전트 지원을 통해 독립적인 에이전트를 병렬로 실행하여, 각 에이전트가 자체 토큰 및 타이밍 메트릭으로 깨끗한 컨텍스트에서 실행됩니다. 이는 더 빠르고 교차 오염이 없는 결과를 제공합니다. A/B 비교를 위한 ‘비교 에이전트(comparator agents)’도 추가되었습니다. 두 가지 스킬 버전 또는 스킬 vs. 무스킬을 비교하여, 어떤 변경 사항이 실제로 도움이 되었는지 판단할 수 있습니다.

적절한 시기에 스킬 트리거

스킬이 적절한 시기에 트리거되는 것이 중요하며, Skill Creator는 이제 스킬 설명을 조정하여 더 안정적인 트리거링을 돕습니다. 샘플 프롬프트에 대한 현재 설명을 분석하고, 오탐(false positives)과 미탐(false negatives)을 줄이는 편집을 제안합니다. 실제 문서 생성 스킬에 적용한 결과, 6개 중 5개의 스킬에서 트리거링이 개선되었습니다.

Skill Creator 설치 및 사용법

Claude Code(웹 UI 또는 터미널)에서 ‘Skill creator’ 플러그인을 검색하여 설치할 수 있습니다.

설치 후, /skill-creator 명령어를 사용하여 새로운 스킬을 제작할 수 있습니다. 예를 들어, “주제를 알려주면 스스로 리서치를 하고 Thread, Facebook, X에 각각 어울리는 말투의 포스트를 자동으로 만들어주는 스킬을 제작해줘”와 같은 프롬프트를 입력하면, Claude는 스킬 초안을 만들고, 테스트 케이스를 생성하며, 평가 기준을 제시합니다.

SNS 포스트 생성기 스킬 제작 시연

영상을 통해 “AI 에이전트”라는 주제로 SNS 포스트 생성기 스킬을 제작하는 과정을 시연했습니다.

  1. 스킬명: sns-post-creator
  2. 요구사항 확인: 포스트 작성 언어(한국어, 영어, 자동 감지), 리서치 결과 포함 여부, 해시태그 자동 생성 여부 등을 사용자에게 질문하여 스킬의 의도를 명확히 합니다.
  3. To-do 리스트 생성: 인텐트 캡처 및 요구사항 명확화, SKILL.md 초안 작성, 테스트 케이스(evals.json) 생성, 테스트 케이스 실행 및 eval 뷰어 생성, 피드백 검토 및 스킬 반복 개선, 트리거링을 위한 스킬 설명 최적화 등의 To-do 리스트가 자동으로 생성됩니다.
  4. 테스트 케이스 및 평가 기준: 3개의 프롬프트 (한국어 주제, 영어 주제, 한국어+톤 지정 주제)를 기반으로 테스트 케이스를 준비하고, 7가지 평가 기준(Assertions)을 정의합니다.
    • 3개 플랫폼 포함 (Threads, Facebook, X 플랫폼 포스트 모두 존재)
    • 언어 일치 (입력 언어와 출력 언어 일치)
    • X 글자수 제한 (X 포스트가 280자 이내인가)
    • 해시태그 포함 (각 포스트에 해시태그가 있는가)
    • 구체적 팩트/수치 (리서치 기반의 구체적 수치나 팩트가 포함되어 있는가)
    • 톤 차별화 (세 플랫폼의 톤이 서로 다른가)
    • 톤 지정 반영 (유머러스한 톤이 실제로 반영되었는가)
  5. 초기 벤치마크 결과: 스킬을 적용했을 때와 미적용했을 때의 성능을 비교합니다.

SKILL.md 구조 및 새로운 기능

Skill Creator는 SKILL.md 파일을 사용하여 스킬을 정의합니다. 기존에 namedescription만 있던 프론트매터에 다음과 같은 새로운 옵션이 추가되었습니다.


핵심 데이터 / 비교표

SNS 포스트 생성기 스킬 초기 벤치마크 요약

| 항목 | 스킬 적용 | 스킬 미적용 | |—|—|—| | Pass Rate | 100% (19/19) | 42% (8/19) | | 평균 시간 | 63.9s | 45.0s | | 평균 토큰 | 43,672 | 37,496 |

핵심 차이점:


타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:00 | 업데이트된 스킬 크리에이터 소개 | | 00:27 | Anthropic의 Skill Creator 2.0 업데이트 관련 블로그 포스트 | | 01:03 | 스킬의 두 가지 종류: Capability uplift skills, Encoded preference skills 설명 | | 01:46 | Eval 기능 소개 및 스킬 테스트/개선 방법 설명 | | 02:44 | Eval을 통한 PDF 작업 개선 사례 및 모델 진행 상황 이해 | | 03:07 | Eval의 두 가지 주요 사용 목적: 품질 저하 포착, 모델 기능 확장 시 스킬 유효성 판단 | | 03:55 | 벤치마크 모드 추가: 스킬 적용/미적용 비교, 통과율, 시간, 토큰 사용량 추적 | | 04:20 | 멀티 에이전트 지원을 통한 일관된 평가 및 A/B 테스트 기능 | | 04:42 | 스킬 트리거링 정확도 개선(Description Optimization) 설명 | | 05:35 | Claude 코드에서 Skill Creator 플러그인 설치 방법 시연 | | 06:12 | SNS 포스트 생성기 스킬 제작 요청 및 Claude의 스킬 의도 확인 과정 | | 09:15 | 스킬 제작을 위한 To-do 리스트 생성 및 테스트 케이스, 평가 기준 자동 생성 | | 09:52 | 스킬 적용/미적용에 따른 초기 벤치마크 결과 확인 | | 10:37 | 생성된 SNS 포스트 출력물 및 평가 기준(Formal Grades) 검토 | | 11:23 | Claude Code Docs에서 SKILL.md의 새로운 프론트매터 옵션(예: disable-model-invocation, context, hooks) 설명 |


결론 및 시사점

업데이트된 Skill Creator는 스킬의 개발, 테스트, 개선 및 배포 전반에 걸쳐 효율성을 극대화합니다. 특히, Eval과 벤치마킹 모드는 스킬의 성능을 정량적으로 측정하고, 모델의 발전과 스킬의 유효성을 지속적으로 검증할 수 있는 강력한 도구를 제공합니다. 이를 통해 개발자는 더 이상 수동으로 스킬을 검증하고 개선하는 데 시간을 낭비하지 않고, Skill Creator가 제공하는 자동화된 반복(iterative) 프로세스를 활용하여 스킬의 능력을 최대치로 끌어올릴 수 있게 됩니다. 플러그인 형태로 설치하여 자동 업데이트 기능을 활용하는 것이 권장됩니다.


추가 학습 키워드

  1. Capability Uplift Skills
  2. Encoded Preference Skills
  3. Eval(Evaluation)
  4. Benchmark Mode
  5. Multi-agent Support

기본 정보

| 항목 | 내용 | |—|—| | 채널 | 코드팩토리 | | 카테고리 | 프로그래밍 | | 게시일 | 2026-03-18 | | 영상 길이 | 13:59 | | 처리 엔진 | gemini-2.5-flash | | 원본 영상 | YouTube에서 보기 |