Agent Stack Radar

177,000개 MCP 도구 연구는 도구 계층 평가가 필수 게이트가 됐다는 최신 신호다

2026-03-25 제출된 177,000개 MCP 도구 연구는 2025년 MCP tool-use benchmark 흐름 위에 최신 dated signal을 더한다. 에이전트 성능은 모델 답변이 아니라 도구 선택/호출 단위로 평가해야 한다.

바뀐 점

  • 2026-03-25 177k MCP tools paper는 agent 평가가 정답 문장 비교에서 실제 도구 계층 관찰로 이동한다는 최신 신호다.
  • MCP 도구 목록이 커지면서 도구 계층 자체가 위험과 성능의 관찰 대상이 된다.
  • 추적 채점과 권한 경계 테스트가 에이전트 스택의 기본 품질 게이트가 된다.

맥락

  • 모델 benchmark만으로는 실제 업무 agent가 올바른 도구를 골랐는지 설명할 수 없다.
  • 도구가 많아질수록 '쓸 수 있음'보다 '잘 고름'과 '위험한 도구를 피함'이 중요해진다.

판단 근거

  • 177k MCP tool 사용 연구는 규제/거버넌스가 모델 출력보다 tool layer를 봐야 함을 강조한다.
  • MCPAgentBench 계열 논문은 후보 도구 목록과 방해 도구를 포함한 2025년 실제형 benchmark trend를 뒷받침한다.
  • 실전 agent에는 실패한 도구 호출 복구, 권한 거부, 오래된 도구 목록 테스트가 필요하다.

근거 해석

2026-03-25 177k MCP tool usage 연구와 2025년 MCPAgentBench 계열 논문이 tool layer 평가 필요성을 직접 제기한다.

비교 축

  • 모델 평가 vs 도구 평가
  • MCPAgentBench
  • 추적 채점

추천

도구 에이전트를 만들면 최소한 방해 도구, 권한 경계, 실패한 도구 호출 복구 테스트를 넣어야 한다.

위험

  • 벤치마크와 실제 업무 차이
  • tool catalog drift
  • 권한 변경 감지

출처