OSWorld-Verified는 컴퓨터 사용 평가의 과제 품질 문제를 드러냈다
OSWorld-Verified는 특정 에이전트가 검증됐다는 뜻이 아니라 OSWorld 벤치마크의 과제, 평가 함수, 실행 인프라를 정비한 신호다. 컴퓨터 사용 평가에서는 모델 점수만큼 과제 품질과 실행 안정성이 중요해졌다.
채택
영향도 84 / 100
이벤트 2025-07-28
출처 2개 (주근거 1)
핵심 요약
- XLANG Lab은 2025-07-28 OSWorld-Verified를 소개했다.
- 업데이트는 AWS 기반 병렬 실행, 300개 이상 문제 수정, 공개 평가 플랫폼, 과제 품질 정비를 강조한다.
- 웹 구조 변화, CAPTCHA, 지리적 차단, 모호한 지시, 평가 함수 취약성이 컴퓨터 사용 벤치마크의 핵심 리스크로 드러났다.
맥락
- 컴퓨터 사용 에이전트는 브라우저, 데스크톱 앱, 파일, 네트워크 상태가 조금만 변해도 실패 원인이 모델 능력인지 환경 문제인지 흐려진다.
- OSWorld-Verified는 점수표보다 과제 보수와 실행 안정성 관리가 평가 신뢰도의 일부라는 점을 보여준다.
판단 근거
- XLANG Lab 글은 2025-07-28 날짜와 OSWorld-Verified의 인프라 이전, 과제 수정, 공개 평가 플랫폼을 확인한다.
- GitHub 저장소는 OSWorld 벤치마크와 실행 자원을 보조한다.
- 컴퓨터 사용 에이전트를 평가하는 팀에는 채택할 만한 기준이지만, 점수만으로 제품 품질을 말하면 위험하다.
근거 해석
XLANG Lab 글과 OSWorld 저장소가 2025-07-28 날짜, 검증된 벤치마크 정비, 실행 인프라 개선, 과제 품질 문제를 확인한다.
비교 축
- OSWorld-Verified vs OSWorld
- 컴퓨터 사용 평가
- 과제 품질 vs 모델 점수
추천
컴퓨터 사용 에이전트 평가 기준으로 채택하라. 모델 점수와 함께 과제 수정 이력, 실행 환경, 모호한 지시 처리, 평가 함수 변경을 반드시 기록해야 한다.
위험
- 환경 변화
- 웹 차단
- 과제 모호성
- 평가 함수 수정에 따른 점수 비교 어려움
출처
-
2025-07-28 OSWorld-Verified 공개 날짜와 과제 품질, AWS 병렬 실행, 평가 플랫폼 정비 확인 자료
https://xlang.ai/blog/osworld-verified -
저장소 xlang-ai/osworld
OSWorld 벤치마크 코드와 실행 자원 확인 자료
https://github.com/xlang-ai/osworld