Agent Stack Radar 에이전트 스택 변화를 한 줄 판단으로

← 전체 피드

SWE-bench Pro는 코딩 에이전트 평가 난도를 다시 끌어올렸다

SWE-bench Pro는 기존 SWE-bench 계열보다 더 어려운 소프트웨어 작업 평가를 제시한다. 코딩 에이전트 성능 비교가 포화된 뒤 새로운 난도 기준을 찾는 팀에는 중요한 채택 후보가 됐다.

채택 영향도 86 / 100 이벤트 2025-09-19 출처 2개 (주근거 1)

핵심 요약

  • Scale AI는 2025-09-19 SWE-bench Pro 글을 공개했다.
  • OpenAI 글은 기존 SWE-bench Verified 평가 사용 중단 이유를 설명하며 평가 포화 문제를 보조한다.
  • 코딩 에이전트 평가는 기존 공개 과제 점수 경쟁에서 더 어려운 실제형 과제로 이동하고 있다.

맥락

  • 기존 코딩 평가에서 높은 점수가 나오면 제품 선택에 필요한 변별력이 줄어든다.
  • 새 평가 기준은 더 어렵고 최신 과제를 제공하지만, 특정 데이터 공급자의 설계 편향도 함께 검토해야 한다.

판단 근거

  • Scale AI 글이 2025-09-19 날짜와 SWE-bench Pro 공개 맥락을 제공한다.
  • OpenAI 글은 기존 평가 기준이 더 이상 충분하지 않을 수 있다는 배경을 보조한다.
  • 코딩 에이전트 비교를 계속해야 하는 팀에는 채택할 만한 새 기준이다.

근거 해석

Scale AI 글과 OpenAI 글이 2025-09-19 날짜, SWE-bench Pro 공개, 기존 평가 기준의 변별력 문제를 확인한다.

비교 축

  • SWE-bench Pro vs SWE-bench Verified
  • 코딩 에이전트 평가
  • 난도 상향

추천

코딩 에이전트 성능을 비교한다면 채택하라. 단일 점수보다 과제 유형, 실패 원인, 검토 비용을 함께 봐야 한다.

위험

  • 평가 설계 편향
  • 단일 점수 과신
  • 실제 저장소와 차이

출처

  • Scale AI 주근거

    2025-09-19 SWE-bench Pro 공개 날짜와 코딩 에이전트 평가 난도 상향 확인 자료

    https://scale.com/blog/swe-bench-pro
  • OpenAI 보조근거

    2025-09-19 공개 항목의 배경인 기존 코딩 평가 변별력 저하 확인 자료

    https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/