Agent Stack Radar 에이전트 스택 변화를 한 줄 판단으로

← 전체 피드

METR time horizon은 에이전트 평가를 인간 작업 길이 기준으로 읽게 했다

METR의 time horizon은 에이전트 성능을 벤치마크 점수 하나가 아니라 인간 전문가가 어느 정도 걸리는 작업을 일정 성공률로 풀 수 있는지로 읽게 하는 평가 렌즈다. 이 값은 에이전트가 그 시간 동안 끊김 없이 자율 실행한다는 뜻이 아니며, 도입 설명에서 그 오해를 막는 것이 핵심이다.

채택 영향도 89 / 100 이벤트 2026-05-08 출처 2개 (주근거 1)

핵심 요약

  • METR은 2026-05-08 업데이트에서 time horizon 1.1과 16시간 초과 측정의 신뢰 한계를 함께 표시했다.
  • 평가 단위는 에이전트 실행 시간이 아니라, 인간 전문가가 작업을 끝내는 데 걸리는 추정 시간과 성공 확률의 관계다.
  • 모델, 스캐폴드, 작업 환경을 함께 측정하므로 단순 모델 순위표보다 실제 에이전트 구성에 가깝다.

맥락

  • 에이전트 평가는 과제 종류, 도구, 재시도 규칙, 스캐폴드에 따라 점수가 크게 흔들린다.
  • time horizon은 난도를 인간 작업 길이로 번역해 제품 의사결정자가 성능 변화를 더 직관적으로 설명하게 한다.
  • 하지만 숫자가 길어질수록 '그만큼 혼자 일한다'는 마케팅 문구로 오해되기 쉬워, 성공률과 작업군을 함께 말해야 한다.

판단 근거

  • METR 페이지는 2026-05-08 업데이트와 50%/80% time horizon 정의, 방법론, 자율 실행 시간과의 차이를 설명한다.
  • 2025-03-19 글은 긴 작업 완료 능력을 측정하는 초기 방법론 배경을 보조한다.
  • 에이전트 도입 판단에는 채택할 만한 평가 언어지만, 실제 제품 업무에는 도메인별 재검증이 필요하다.

근거 해석

METR time horizons 페이지와 2025년 방법론 글이 인간 작업 길이 기준, 성공률 곡선, 스캐폴드 포함 측정, 실행 시간 오해 방지를 뒷받침한다.

비교 축

  • time horizon vs 단일 점수
  • METR vs SWE-bench
  • 스캐폴드 영향

추천

에이전트 성능을 설명하고 비교하는 내부 언어로 채택하라. 단, 수치를 실제 자율 실행 시간처럼 말하지 말고 작업 난도, 성공률, 스캐폴드 조건을 함께 표기해야 한다.

위험

  • 측정 작업군이 실제 팀 업무를 대표하지 않을 수 있다.
  • 스캐폴드와 도구 선택이 모델 자체 능력처럼 보일 수 있다.
  • 긴 작업 구간은 신뢰 한계가 커져 과감한 로드맵 근거로 쓰기 어렵다.
  • 도메인별 검증 없이 범용 생산성 지표로 쓰면 과장될 수 있다.

출처