Terminal-Bench 2는 터미널 에이전트 평가를 더 현실적인 작업군으로 넓혔다
Terminal-Bench 2는 셸과 파일 시스템을 다루는 에이전트 평가를 실제 개발·운영 작업에 더 가깝게 확장한 벤치마크다. 터미널형 에이전트를 비교하는 팀에는 채택할 기준 후보가 됐다.
채택
영향도 87 / 100
이벤트 2025-11-07
출처 3개 (주근거 1)
핵심 요약
- Snorkel AI 글은 2025-11-07 Terminal-Bench 2 공개와 주요 변화를 설명한다.
- Terminal-Bench 저장소는 터미널 작업 평가 세트를 제공한다.
- 코딩 에이전트 평가는 대화 점수보다 실제 셸 작업 성공률을 더 중요하게 보게 됐다.
맥락
- 터미널 에이전트는 파일 수정, 명령 실행, 오류 대응을 모두 포함하므로 일반 질의응답 벤치마크로는 부족하다.
- 실제 팀은 공개 점수보다 내부 저장소 작업을 추가해 도구 권한과 명령 정책을 함께 검증해야 한다.
판단 근거
- Snorkel AI 글이 2025-11-07 날짜와 Terminal-Bench 2 공개 맥락을 제공한다.
- GitHub 저장소가 Terminal-Bench 평가 코드와 작업군을 제공한다.
- OpenReview 논문은 Terminal-Bench 2의 연구 설계와 후속 검토 맥락을 보조한다.
근거 해석
Snorkel AI 글, Terminal-Bench 저장소, OpenReview 논문이 공개 날짜, 평가 코드, 연구 설계를 나눠 확인한다.
비교 축
- Terminal-Bench vs SWE-bench
- 터미널 작업
- 코딩 에이전트 회귀 검사
추천
터미널형 에이전트를 비교한다면 채택하라. 공개 작업군 점수만 보지 말고 내부 명령 정책에 맞춘 작업을 추가해야 한다.
위험
- 공개 작업군 과적합
- 내부 명령 정책 차이
- 실행 비용 증가
출처
-
2025-11-07 Terminal-Bench 2 공개 날짜와 주요 변화 확인 자료
https://snorkel.ai/blog/terminal-bench-2-0-raising-the-bar-for-ai-agent-evaluation/ -
저장소 terminal-bench
Terminal-Bench 평가 코드와 작업군 확인 자료
https://github.com/harbor-framework/terminal-bench -
Terminal-Bench 2 연구 설계와 후속 논문 정보 확인 자료
https://openreview.net/forum?id=a7Qa4CcHak