Agent Stack Radar 에이전트 스택 변화를 한 줄 판단으로

← 전체 피드

OSWorld-Verified는 컴퓨터 사용 평가의 과제 품질 문제를 드러냈다

OSWorld-Verified는 특정 에이전트가 검증됐다는 뜻이 아니라 OSWorld 벤치마크의 과제, 평가 함수, 실행 인프라를 정비한 신호다. 컴퓨터 사용 평가에서는 모델 점수만큼 과제 품질과 실행 안정성이 중요해졌다.

채택 영향도 84 / 100 이벤트 2025-07-28 출처 2개 (주근거 1)

핵심 요약

  • XLANG Lab은 2025-07-28 OSWorld-Verified를 소개했다.
  • 업데이트는 AWS 기반 병렬 실행, 300개 이상 문제 수정, 공개 평가 플랫폼, 과제 품질 정비를 강조한다.
  • 웹 구조 변화, CAPTCHA, 지리적 차단, 모호한 지시, 평가 함수 취약성이 컴퓨터 사용 벤치마크의 핵심 리스크로 드러났다.

맥락

  • 컴퓨터 사용 에이전트는 브라우저, 데스크톱 앱, 파일, 네트워크 상태가 조금만 변해도 실패 원인이 모델 능력인지 환경 문제인지 흐려진다.
  • OSWorld-Verified는 점수표보다 과제 보수와 실행 안정성 관리가 평가 신뢰도의 일부라는 점을 보여준다.

판단 근거

  • XLANG Lab 글은 2025-07-28 날짜와 OSWorld-Verified의 인프라 이전, 과제 수정, 공개 평가 플랫폼을 확인한다.
  • GitHub 저장소는 OSWorld 벤치마크와 실행 자원을 보조한다.
  • 컴퓨터 사용 에이전트를 평가하는 팀에는 채택할 만한 기준이지만, 점수만으로 제품 품질을 말하면 위험하다.

근거 해석

XLANG Lab 글과 OSWorld 저장소가 2025-07-28 날짜, 검증된 벤치마크 정비, 실행 인프라 개선, 과제 품질 문제를 확인한다.

비교 축

  • OSWorld-Verified vs OSWorld
  • 컴퓨터 사용 평가
  • 과제 품질 vs 모델 점수

추천

컴퓨터 사용 에이전트 평가 기준으로 채택하라. 모델 점수와 함께 과제 수정 이력, 실행 환경, 모호한 지시 처리, 평가 함수 변경을 반드시 기록해야 한다.

위험

  • 환경 변화
  • 웹 차단
  • 과제 모호성
  • 평가 함수 수정에 따른 점수 비교 어려움

출처

  • XLANG Lab 주근거

    2025-07-28 OSWorld-Verified 공개 날짜와 과제 품질, AWS 병렬 실행, 평가 플랫폼 정비 확인 자료

    https://xlang.ai/blog/osworld-verified
  • 저장소 xlang-ai/osworld
    XLANG Lab 보조근거

    OSWorld 벤치마크 코드와 실행 자원 확인 자료

    https://github.com/xlang-ai/osworld