HAL은 에이전트 순위보다 평가 하네스의 신뢰성을 전면에 둔다
Holistic Agent Leaderboard는 단순 최신 순위표가 아니라 표준화된 평가 하네스, 비용 인식, 로그 공개, 모델·스캐폴드·벤치마크 차이를 함께 보는 평가 인프라다. HAL 사이트의 업데이트 일시 중단 맥락까지 보면 최신 랭킹보다 신뢰성 점검 도구로 읽는 편이 맞다.
채택
영향도 86 / 100
이벤트 2025-10-13
출처 2개 (주근거 1)
핵심 요약
- HAL 논문은 2025-10-13 arXiv에 제출됐다.
- 논문은 수백 개 VM에서 병렬 평가를 조율하는 표준 하네스와 모델, 스캐폴드, 벤치마크의 3차원 분석을 제시한다.
- 평가 로그와 비용, 스캐폴드 차이를 함께 공개해 단일 점수 경쟁의 한계를 줄이려는 방향을 보여준다.
맥락
- 에이전트 평가는 같은 모델이라도 도구 묶음, 실패 재시도, 비용 예산, 로그 검토 방식에 따라 결과가 달라진다.
- HAL은 최신 1위 모델을 고르는 자료라기보다 평가 실험을 어떻게 재현 가능하고 비용 인식적으로 만들지 보는 자료다.
판단 근거
- arXiv 초록은 2025-10-13 제출일, 표준 평가 하네스, 21,730개 롤아웃, 9개 모델과 9개 벤치마크, 로그 공개를 확인한다.
- HAL 사이트는 공개 리더보드와 운영 상태를 보조하지만, 최신 순위보다 평가 방법론 확인용으로 보는 것이 안전하다.
- 에이전트 평가 체계를 만드는 팀에는 채택할 만한 기준이지만, 개별 모델 선택에는 원자료 확인이 필요하다.
근거 해석
arXiv 논문과 HAL 사이트가 2025-10-13 제출일, 표준 하네스, 비용과 로그 공개, 모델·스캐폴드·벤치마크 비교 방식을 확인한다.
비교 축
- HAL vs 단일 리더보드
- 모델 vs 스캐폴드
- 비용 인식 평가
추천
평가 하네스 설계 기준으로 채택하라. 최신 순위표처럼 쓰기보다 로그, 비용, 스캐폴드 차이, 실패 행동을 함께 검토하는 참고 자료로 써야 한다.
위험
- 사이트 업데이트 중단
- 벤치마크 구성 편향
- 실험 비용
- 순위 과신
출처
-
2025-10-13 HAL 논문 제출 날짜와 표준 평가 하네스, 로그 공개, 비용 인식 평가 확인 자료
https://arxiv.org/abs/2510.11977 -
HAL 공개 사이트와 리더보드 운영 맥락 확인 자료
https://hal.cs.princeton.edu/