← 전체 피드 arXiv 신호 9건 →

이벤트 2026-03-25 · 평가 · 채택

177,000개 MCP 도구 연구는 도구 계층 평가가 필수 게이트가 됐다는 최신 신호다

2026-03-25 제출된 177,000개 MCP 도구 연구는 2025년 MCP tool-use benchmark 흐름 위에 최신 dated signal을 더한다. 에이전트 성능은 모델 답변이 아니라 도구 선택/호출 단위로 평가해야 한다.

채택 영향도 84 / 100 이벤트 2026-03-25 출처 3개 (주근거 1)

핵심 요약

2026-03-25 177k MCP tools paper는 agent 평가가 정답 문장 비교에서 실제 도구 계층 점검으로 이동한다는 최신 신호다.
MCP 도구 목록이 커지면서 도구 계층 자체가 위험과 성능을 점검해야 할 대상이 된다.
추적 채점과 권한 경계 테스트가 에이전트 스택의 기본 품질 게이트가 된다.

맥락

모델 benchmark만으로는 실제 업무 agent가 올바른 도구를 골랐는지 설명할 수 없다.
도구가 많아질수록 '쓸 수 있음'보다 '잘 고름'과 '위험한 도구를 피함'이 중요해진다.

판단 근거

177k MCP tool 사용 연구는 규제/거버넌스가 모델 출력보다 tool layer를 봐야 함을 강조한다.
MCPAgentBench 계열 논문은 후보 도구 목록과 방해 도구를 포함한 2025년 실제형 benchmark trend를 뒷받침한다.
실전 agent에는 실패한 도구 호출 복구, 권한 거부, 오래된 도구 목록 테스트가 필요하다.

근거 해석

2026-03-25 177k MCP tool usage 연구와 2025년 MCPAgentBench 계열 논문이 tool layer 평가 필요성을 직접 제기한다.

비교 축

모델 평가 vs 도구 평가
MCPAgentBench
추적 채점

추천

도구 에이전트를 만들면 최소한 방해 도구, 권한 경계, 실패한 도구 호출 복구 테스트를 넣어야 한다.

위험

벤치마크와 실제 업무 차이
tool catalog drift
권한 변경 감지

출처

논문 How are AI agents used? Evidence from 177,000 MCP tools

arXiv 주근거

2026-03-25 제출된 공개 MCP 도구 사용 데이터와 도구 계층 감시 필요성 근거
https://arxiv.org/abs/2603.23802
논문 MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use

arXiv 보조근거

MCP 도구 사용을 실제형 작업으로 평가하는 2025년 benchmark trend 근거
https://arxiv.org/abs/2512.24565
논문 MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark

arXiv 보조근거

대규모 MCP tool-use 평가 흐름을 확인한 보조 자료
https://arxiv.org/abs/2508.07575