SWE-bench Pro는 코딩 에이전트 평가 난도를 다시 끌어올렸다
SWE-bench Pro는 기존 SWE-bench 계열보다 더 어려운 소프트웨어 작업 평가를 제시한다. 코딩 에이전트 성능 비교가 포화된 뒤 새로운 난도 기준을 찾는 팀에는 중요한 채택 후보가 됐다.
채택
영향도 86 / 100
이벤트 2025-09-19
출처 2개 (주근거 1)
핵심 요약
- Scale AI는 2025-09-19 SWE-bench Pro 글을 공개했다.
- OpenAI 글은 기존 SWE-bench Verified 평가 사용 중단 이유를 설명하며 평가 포화 문제를 보조한다.
- 코딩 에이전트 평가는 기존 공개 과제 점수 경쟁에서 더 어려운 실제형 과제로 이동하고 있다.
맥락
- 기존 코딩 평가에서 높은 점수가 나오면 제품 선택에 필요한 변별력이 줄어든다.
- 새 평가 기준은 더 어렵고 최신 과제를 제공하지만, 특정 데이터 공급자의 설계 편향도 함께 검토해야 한다.
판단 근거
- Scale AI 글이 2025-09-19 날짜와 SWE-bench Pro 공개 맥락을 제공한다.
- OpenAI 글은 기존 평가 기준이 더 이상 충분하지 않을 수 있다는 배경을 보조한다.
- 코딩 에이전트 비교를 계속해야 하는 팀에는 채택할 만한 새 기준이다.
근거 해석
Scale AI 글과 OpenAI 글이 2025-09-19 날짜, SWE-bench Pro 공개, 기존 평가 기준의 변별력 문제를 확인한다.
비교 축
- SWE-bench Pro vs SWE-bench Verified
- 코딩 에이전트 평가
- 난도 상향
추천
코딩 에이전트 성능을 비교한다면 채택하라. 단일 점수보다 과제 유형, 실패 원인, 검토 비용을 함께 봐야 한다.
위험
- 평가 설계 편향
- 단일 점수 과신
- 실제 저장소와 차이
출처
-
2025-09-19 SWE-bench Pro 공개 날짜와 코딩 에이전트 평가 난도 상향 확인 자료
https://scale.com/blog/swe-bench-pro -
2025-09-19 공개 항목의 배경인 기존 코딩 평가 변별력 저하 확인 자료
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/