← 전체 피드

이벤트 2025-11-07 · 평가 · 채택

Terminal-Bench 2는 터미널 에이전트 평가를 더 현실적인 작업군으로 넓혔다

Terminal-Bench 2는 셸과 파일 시스템을 다루는 에이전트 평가를 실제 개발·운영 작업에 더 가깝게 확장한 벤치마크다. 터미널형 에이전트를 비교하는 팀에는 채택할 기준 후보가 됐다.

채택 영향도 87 / 100 이벤트 2025-11-07 출처 3개 (주근거 1)

핵심 요약

Snorkel AI 글은 2025-11-07 Terminal-Bench 2 공개와 주요 변화를 설명한다.
Terminal-Bench 저장소는 터미널 작업 평가 세트를 제공한다.
코딩 에이전트 평가는 대화 점수보다 실제 셸 작업 성공률을 더 중요하게 보게 됐다.

맥락

터미널 에이전트는 파일 수정, 명령 실행, 오류 대응을 모두 포함하므로 일반 질의응답 벤치마크로는 부족하다.
실제 팀은 공개 점수보다 내부 저장소 작업을 추가해 도구 권한과 명령 정책을 함께 검증해야 한다.

판단 근거

Snorkel AI 글이 2025-11-07 날짜와 Terminal-Bench 2 공개 맥락을 제공한다.
GitHub 저장소가 Terminal-Bench 평가 코드와 작업군을 제공한다.
OpenReview 논문은 Terminal-Bench 2의 연구 설계와 후속 검토 맥락을 보조한다.

근거 해석

Snorkel AI 글, Terminal-Bench 저장소, OpenReview 논문이 공개 날짜, 평가 코드, 연구 설계를 나눠 확인한다.

비교 축

Terminal-Bench vs SWE-bench
터미널 작업
코딩 에이전트 회귀 검사

추천

터미널형 에이전트를 비교한다면 채택하라. 공개 작업군 점수만 보지 말고 내부 명령 정책에 맞춘 작업을 추가해야 한다.

위험

공개 작업군 과적합
내부 명령 정책 차이
실행 비용 증가

출처

블로그 Terminal-Bench 2.0: Raising the bar for AI agent evaluation

Snorkel AI 주근거

2025-11-07 Terminal-Bench 2 공개 날짜와 주요 변화 확인 자료
https://snorkel.ai/blog/terminal-bench-2-0-raising-the-bar-for-ai-agent-evaluation/
저장소 terminal-bench

Terminal-Bench 보조근거

Terminal-Bench 평가 코드와 작업군 확인 자료
https://github.com/harbor-framework/terminal-bench
논문 Terminal-Bench 2

OpenReview 보조근거

Terminal-Bench 2 연구 설계와 후속 논문 정보 확인 자료
https://openreview.net/forum?id=a7Qa4CcHak