← 전체 피드

이벤트 2025-01-22 · 평가 · 채택

AgentHarm은 에이전트 안전성 평가를 악성 작업 수행 여부까지 확장했다

AgentHarm은 에이전트가 악성 요청을 거부하는지와 탈옥 뒤 여러 단계 작업을 수행하는지를 함께 보는 안전성 벤치마크다. 도구 사용 에이전트 제품에는 채택 우선순위가 높다.

채택 영향도 88 / 100 이벤트 2025-01-22 출처 2개 (주근거 1)

핵심 요약

OpenReview 기록은 AgentHarm 논문을 2025-01-22 공개 논문으로 제시한다.
AgentHarm은 110개 악성 에이전트 작업과 증강 작업을 통해 거부와 수행 능력을 함께 평가한다.
도구를 쓰는 에이전트 안전성은 단순 대화 거부율만으로 판단하기 어렵다는 기준을 만들었다.

맥락

에이전트는 외부 도구와 여러 단계 행동을 통해 챗봇보다 큰 피해를 만들 수 있다.
안전성 평가는 악성 요청 거부뿐 아니라 공격 뒤에도 실제 작업을 끝내는지까지 봐야 한다.

판단 근거

OpenReview는 2025-01-22 공개 날짜와 ICLR 2025 논문 정보를 제공한다.
arXiv와 데이터셋 페이지는 악성 작업 수, 범주, 공개 데이터셋 위치를 보조한다.
도구 실행 에이전트를 제품에 넣는 팀에는 안전성 회귀 검사 후보로 채택할 가치가 크다.

근거 해석

OpenReview 논문, arXiv 초록, 공개 데이터셋이 날짜, 악성 에이전트 작업 범위, 안전성 평가 목적을 확인한다.

비교 축

AgentHarm vs 대화 안전성 평가
도구 사용 안전성
탈옥 견고성

추천

도구 사용 에이전트를 배포한다면 채택하라. 다만 내부 도구 권한과 산업별 위험 작업을 추가해 보완해야 한다.

위험

공개 벤치마크 과적합
내부 도구 위험 누락
채점 기준의 조직별 해석 차이

출처

논문 AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

OpenReview 주근거

2025-01-22 공개 날짜와 ICLR 2025 논문 정보 확인 자료
https://openreview.net/forum?id=AC5n7xHuR1
논문 AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

arXiv 보조근거

악성 에이전트 작업 수, 평가 목적, 공개 데이터셋 위치 확인 자료
https://arxiv.org/abs/2410.09024