← 전체 피드

이벤트 2025-09-19 · 평가 · 채택

SWE-bench Pro는 코딩 에이전트 평가 난도를 다시 끌어올렸다

SWE-bench Pro는 기존 SWE-bench 계열보다 더 어려운 소프트웨어 작업 평가를 제시한다. 코딩 에이전트 성능 비교가 포화된 뒤 새로운 난도 기준을 찾는 팀에는 중요한 채택 후보가 됐다.

채택 영향도 86 / 100 이벤트 2025-09-19 출처 2개 (주근거 1)

핵심 요약

Scale AI는 2025-09-19 SWE-bench Pro 글을 공개했다.
OpenAI 글은 기존 SWE-bench Verified 평가 사용 중단 이유를 설명하며 평가 포화 문제를 보조한다.
코딩 에이전트 평가는 기존 공개 과제 점수 경쟁에서 더 어려운 실제형 과제로 이동하고 있다.

맥락

기존 코딩 평가에서 높은 점수가 나오면 제품 선택에 필요한 변별력이 줄어든다.
새 평가 기준은 더 어렵고 최신 과제를 제공하지만, 특정 데이터 공급자의 설계 편향도 함께 검토해야 한다.

판단 근거

Scale AI 글이 2025-09-19 날짜와 SWE-bench Pro 공개 맥락을 제공한다.
OpenAI 글은 기존 평가 기준이 더 이상 충분하지 않을 수 있다는 배경을 보조한다.
코딩 에이전트 비교를 계속해야 하는 팀에는 채택할 만한 새 기준이다.

근거 해석

Scale AI 글과 OpenAI 글이 2025-09-19 날짜, SWE-bench Pro 공개, 기존 평가 기준의 변별력 문제를 확인한다.

비교 축

SWE-bench Pro vs SWE-bench Verified
코딩 에이전트 평가
난도 상향

추천

코딩 에이전트 성능을 비교한다면 채택하라. 단일 점수보다 과제 유형, 실패 원인, 검토 비용을 함께 봐야 한다.

위험

평가 설계 편향
단일 점수 과신
실제 저장소와 차이

출처

블로그 Introducing SWE-bench Pro

Scale AI 주근거

2025-09-19 SWE-bench Pro 공개 날짜와 코딩 에이전트 평가 난도 상향 확인 자료
https://scale.com/blog/swe-bench-pro
블로그 Why we no longer evaluate on SWE-bench Verified

OpenAI 보조근거

2025-09-19 공개 항목의 배경인 기존 코딩 평가 변별력 저하 확인 자료
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/