arXiv 신호 모음
arXiv 관련 에이전트 스택 신호 9건을 판정과 출처 근거 기준으로 시간순 정리했습니다.
- 실험 MCP Atlas는 실제 서버 기반 도구 평가를 에이전트 품질 기준으로 올렸다
- 실험 HIL-Bench는 에이전트가 언제 질문해야 하는지를 평가 대상으로 만들었다
- 채택 177,000개 MCP 도구 연구는 도구 계층 평가가 필수 게이트가 됐다는 최신 신호다
- 주시 에이전트 정책 파일은 시스템 프롬프트를 대신하지 않는다
- 주시 에이전트 시대의 취향: 무엇을 버릴지 아는 사람이 이긴다
- 주시 APEX Agents는 전문직 장기 멀티앱 업무 자동화 주장에 현실성 검사를 요구한다
- 채택 HAL은 에이전트 순위보다 평가 하네스의 신뢰성을 전면에 둔다
- 채택 RedTeamCUA는 컴퓨터 사용 에이전트의 위험 행동을 직접 겨냥했다
- 채택 WASP는 웹 에이전트 보안을 평가할 수 있는 공격 과제를 공개했다
README 뱃지
— 최근 신호의 판정을 따라 배포 시 자동 갱신됩니다.
[](https://stkradar.com/topics/arxiv/)