promptfoo 에이전트 레드팀 기능은 도구 사용 실패를 보안 검사 대상으로 올렸다
promptfoo의 2025년 에이전트 레드팀 기능은 도구 사용, 권한 우회, 목표 탈선 같은 실패를 자동 점검 대상으로 만든다. 외부 도구를 쓰는 에이전트 제품은 채택 우선순위가 높다.
채택
영향도 88 / 100
이벤트 2025-06-15
출처 2개 (주근거 1)
핵심 요약
- promptfoo는 2025-06-15 에이전트 레드팀 기능을 소개했다.
- 문서는 에이전트 대상 레드팀 설정과 공격 목표 정의 방식을 제공한다.
- 보안 검사는 단일 응답 필터링에서 도구 사용 에이전트의 행동 경로 검사로 넓어졌다.
맥락
- 도구를 호출하는 에이전트는 프롬프트 탈선이 실제 파일, 브라우저, 결제, 내부 API 행동으로 이어질 수 있다.
- 레드팀 자동화는 출시 전 게이트뿐 아니라 권한 변경 때 반복 실행하는 회귀 검사로 가치가 있다.
판단 근거
- promptfoo 블로그가 2025-06-15 날짜와 에이전트 레드팀 기능 공개를 제공한다.
- promptfoo 문서는 에이전트 레드팀 설정과 검사 범위를 보조한다.
- 도구 권한이 있는 에이전트 제품에는 채택할 만한 보안 회귀 검사 축이다.
근거 해석
promptfoo 블로그와 문서가 날짜, 에이전트 레드팀 기능, 도구 사용 검사 범위를 확인한다.
비교 축
- promptfoo vs AgentHarm
- 레드팀 검사
- 도구 권한 안전성
추천
외부 도구를 쓰는 에이전트라면 채택하라. 제품별 권한 모델과 금지 행동 목록을 별도로 추가해야 효과가 난다.
위험
- 내부 권한 모델 반영 누락
- 검사 문항 과적합
- 거짓 양성 처리 비용
출처
-
2025-06-15 에이전트 레드팀 기능 공개 확인 자료
https://www.promptfoo.dev/blog/2025-summer-new-redteam-agent/ -
공식 문서 Agents
에이전트 레드팀 설정과 검사 범위 확인 자료
https://www.promptfoo.dev/docs/red-team/agents/