Agent Stack Radar

AgentHarm은 에이전트 안전성 평가를 악성 작업 수행 여부까지 확장했다

AgentHarm은 에이전트가 악성 요청을 거부하는지와 탈옥 뒤 여러 단계 작업을 수행하는지를 함께 보는 안전성 벤치마크다. 도구 사용 에이전트 제품에는 채택 우선순위가 높다.

판정
채택
영향
88
이벤트
2025-01-22
출처
2개

바뀐 점

  • OpenReview 기록은 AgentHarm 논문을 2025-01-22 공개 논문으로 제시한다.
  • AgentHarm은 110개 악성 에이전트 작업과 증강 작업을 통해 거부와 수행 능력을 함께 평가한다.
  • 도구를 쓰는 에이전트 안전성은 단순 대화 거부율만으로 판단하기 어렵다는 기준을 만들었다.

맥락

  • 에이전트는 외부 도구와 여러 단계 행동을 통해 챗봇보다 큰 피해를 만들 수 있다.
  • 안전성 평가는 악성 요청 거부뿐 아니라 공격 뒤에도 실제 작업을 끝내는지까지 봐야 한다.

판단 근거

  • OpenReview는 2025-01-22 공개 날짜와 ICLR 2025 논문 정보를 제공한다.
  • arXiv와 데이터셋 페이지는 악성 작업 수, 범주, 공개 데이터셋 위치를 보조한다.
  • 도구 실행 에이전트를 제품에 넣는 팀에는 안전성 회귀 검사 후보로 채택할 가치가 크다.

근거 해석

OpenReview 논문, arXiv 초록, 공개 데이터셋이 날짜, 악성 에이전트 작업 범위, 안전성 평가 목적을 확인한다.

비교 축

  • AgentHarm vs 대화 안전성 평가
  • 도구 사용 안전성
  • 탈옥 견고성

추천

도구 사용 에이전트를 배포한다면 채택하라. 다만 내부 도구 권한과 산업별 위험 작업을 추가해 보완해야 한다.

위험

  • 공개 벤치마크 과적합
  • 내부 도구 위험 누락
  • 채점 기준의 조직별 해석 차이

출처