Agent Stack Radar 에이전트 스택 변화를 한 줄 판단으로

← 전체 피드

Terminal-Bench 2는 터미널 에이전트 평가를 더 현실적인 작업군으로 넓혔다

Terminal-Bench 2는 셸과 파일 시스템을 다루는 에이전트 평가를 실제 개발·운영 작업에 더 가깝게 확장한 벤치마크다. 터미널형 에이전트를 비교하는 팀에는 채택할 기준 후보가 됐다.

채택 영향도 87 / 100 이벤트 2025-11-07 출처 3개 (주근거 1)

핵심 요약

  • Snorkel AI 글은 2025-11-07 Terminal-Bench 2 공개와 주요 변화를 설명한다.
  • Terminal-Bench 저장소는 터미널 작업 평가 세트를 제공한다.
  • 코딩 에이전트 평가는 대화 점수보다 실제 셸 작업 성공률을 더 중요하게 보게 됐다.

맥락

  • 터미널 에이전트는 파일 수정, 명령 실행, 오류 대응을 모두 포함하므로 일반 질의응답 벤치마크로는 부족하다.
  • 실제 팀은 공개 점수보다 내부 저장소 작업을 추가해 도구 권한과 명령 정책을 함께 검증해야 한다.

판단 근거

  • Snorkel AI 글이 2025-11-07 날짜와 Terminal-Bench 2 공개 맥락을 제공한다.
  • GitHub 저장소가 Terminal-Bench 평가 코드와 작업군을 제공한다.
  • OpenReview 논문은 Terminal-Bench 2의 연구 설계와 후속 검토 맥락을 보조한다.

근거 해석

Snorkel AI 글, Terminal-Bench 저장소, OpenReview 논문이 공개 날짜, 평가 코드, 연구 설계를 나눠 확인한다.

비교 축

  • Terminal-Bench vs SWE-bench
  • 터미널 작업
  • 코딩 에이전트 회귀 검사

추천

터미널형 에이전트를 비교한다면 채택하라. 공개 작업군 점수만 보지 말고 내부 명령 정책에 맞춘 작업을 추가해야 한다.

위험

  • 공개 작업군 과적합
  • 내부 명령 정책 차이
  • 실행 비용 증가

출처

  • Snorkel AI 주근거

    2025-11-07 Terminal-Bench 2 공개 날짜와 주요 변화 확인 자료

    https://snorkel.ai/blog/terminal-bench-2-0-raising-the-bar-for-ai-agent-evaluation/
  • 저장소 terminal-bench
    Terminal-Bench 보조근거

    Terminal-Bench 평가 코드와 작업군 확인 자료

    https://github.com/harbor-framework/terminal-bench
  • OpenReview 보조근거

    Terminal-Bench 2 연구 설계와 후속 논문 정보 확인 자료

    https://openreview.net/forum?id=a7Qa4CcHak

관련 기사