← 전체 피드

이벤트 2025-07-28 · 평가 · 채택

OSWorld-Verified는 컴퓨터 사용 평가의 과제 품질 문제를 드러냈다

OSWorld-Verified는 특정 에이전트가 검증됐다는 뜻이 아니라 OSWorld 벤치마크의 과제, 평가 함수, 실행 인프라를 정비한 신호다. 컴퓨터 사용 평가에서는 모델 점수만큼 과제 품질과 실행 안정성이 중요해졌다.

채택 영향도 84 / 100 이벤트 2025-07-28 출처 2개 (주근거 1)

핵심 요약

XLANG Lab은 2025-07-28 OSWorld-Verified를 소개했다.
업데이트는 AWS 기반 병렬 실행, 300개 이상 문제 수정, 공개 평가 플랫폼, 과제 품질 정비를 강조한다.
웹 구조 변화, CAPTCHA, 지리적 차단, 모호한 지시, 평가 함수 취약성이 컴퓨터 사용 벤치마크의 핵심 리스크로 드러났다.

맥락

컴퓨터 사용 에이전트는 브라우저, 데스크톱 앱, 파일, 네트워크 상태가 조금만 변해도 실패 원인이 모델 능력인지 환경 문제인지 흐려진다.
OSWorld-Verified는 점수표보다 과제 보수와 실행 안정성 관리가 평가 신뢰도의 일부라는 점을 보여준다.

판단 근거

XLANG Lab 글은 2025-07-28 날짜와 OSWorld-Verified의 인프라 이전, 과제 수정, 공개 평가 플랫폼을 확인한다.
GitHub 저장소는 OSWorld 벤치마크와 실행 자원을 보조한다.
컴퓨터 사용 에이전트를 평가하는 팀에는 채택할 만한 기준이지만, 점수만으로 제품 품질을 말하면 위험하다.

근거 해석

XLANG Lab 글과 OSWorld 저장소가 2025-07-28 날짜, 검증된 벤치마크 정비, 실행 인프라 개선, 과제 품질 문제를 확인한다.

비교 축

OSWorld-Verified vs OSWorld
컴퓨터 사용 평가
과제 품질 vs 모델 점수

추천

컴퓨터 사용 에이전트 평가 기준으로 채택하라. 모델 점수와 함께 과제 수정 이력, 실행 환경, 모호한 지시 처리, 평가 함수 변경을 반드시 기록해야 한다.

위험

환경 변화
웹 차단
과제 모호성
평가 함수 수정에 따른 점수 비교 어려움

출처

블로그 Introducing OSWorld-Verified

XLANG Lab 주근거

2025-07-28 OSWorld-Verified 공개 날짜와 과제 품질, AWS 병렬 실행, 평가 플랫폼 정비 확인 자료
https://xlang.ai/blog/osworld-verified
저장소 xlang-ai/osworld

XLANG Lab 보조근거

OSWorld 벤치마크 코드와 실행 자원 확인 자료
https://github.com/xlang-ai/osworld