AgentHarm은 에이전트 안전성 평가를 악성 작업 수행 여부까지 확장했다
AgentHarm은 에이전트가 악성 요청을 거부하는지와 탈옥 뒤 여러 단계 작업을 수행하는지를 함께 보는 안전성 벤치마크다. 도구 사용 에이전트 제품에는 채택 우선순위가 높다.
- 판정
- 채택
- 영향
- 88
- 이벤트
- 2025-01-22
- 출처
- 2개
바뀐 점
- OpenReview 기록은 AgentHarm 논문을 2025-01-22 공개 논문으로 제시한다.
- AgentHarm은 110개 악성 에이전트 작업과 증강 작업을 통해 거부와 수행 능력을 함께 평가한다.
- 도구를 쓰는 에이전트 안전성은 단순 대화 거부율만으로 판단하기 어렵다는 기준을 만들었다.
맥락
- 에이전트는 외부 도구와 여러 단계 행동을 통해 챗봇보다 큰 피해를 만들 수 있다.
- 안전성 평가는 악성 요청 거부뿐 아니라 공격 뒤에도 실제 작업을 끝내는지까지 봐야 한다.
판단 근거
- OpenReview는 2025-01-22 공개 날짜와 ICLR 2025 논문 정보를 제공한다.
- arXiv와 데이터셋 페이지는 악성 작업 수, 범주, 공개 데이터셋 위치를 보조한다.
- 도구 실행 에이전트를 제품에 넣는 팀에는 안전성 회귀 검사 후보로 채택할 가치가 크다.
근거 해석
OpenReview 논문, arXiv 초록, 공개 데이터셋이 날짜, 악성 에이전트 작업 범위, 안전성 평가 목적을 확인한다.
비교 축
- AgentHarm vs 대화 안전성 평가
- 도구 사용 안전성
- 탈옥 견고성
추천
도구 사용 에이전트를 배포한다면 채택하라. 다만 내부 도구 권한과 산업별 위험 작업을 추가해 보완해야 한다.
위험
- 공개 벤치마크 과적합
- 내부 도구 위험 누락
- 채점 기준의 조직별 해석 차이
출처
-
2025-01-22 공개 날짜와 ICLR 2025 논문 정보 확인 자료
https://openreview.net/forum?id=AC5n7xHuR1 -
악성 에이전트 작업 수, 평가 목적, 공개 데이터셋 위치 확인 자료
https://arxiv.org/abs/2410.09024