Agent Stack Radar 에이전트 스택 변화를 한 줄 판단으로

← 전체 피드OpenAI 신호 5건 →

BrowseComp는 웹 탐색 능력을 긴 검색 과제로 재측정했다

BrowseComp는 웹에서 숨은 정보를 찾아 답해야 하는 어려운 탐색 평가다. 브라우징 에이전트의 실제 조사 능력을 보려는 팀에는 단순 질의응답보다 나은 기준이 된다.

채택 영향도 85 / 100 이벤트 2025-04-10 출처 2개 (주근거 1)

핵심 요약

  • OpenAI는 2025-04-10 BrowseComp를 공개했다.
  • simple-evals 저장소는 공개 평가 구현과 관련 자료를 제공한다.
  • 웹 탐색 평가는 한 번의 검색 결과 요약보다 여러 단서를 찾아 합치는 어려운 과제로 옮겨갔다.

맥락

  • 웹 탐색 에이전트는 검색, 출처 비교, 모순 처리, 긴 조사 과정을 모두 수행해야 한다.
  • 짧은 답변 정확도만으로는 실제 조사 업무의 실패를 잡기 어렵다.

판단 근거

  • OpenAI 발표가 2025-04-10 날짜와 BrowseComp의 평가 목적을 제공한다.
  • OpenAI simple-evals 저장소는 공개 평가 구현을 보조한다.
  • 웹 조사 능력을 비교해야 하는 팀에는 채택할 만한 평가 기준이다.

근거 해석

OpenAI 발표와 simple-evals 저장소가 2025-04-10 날짜, BrowseComp 평가 목적, 공개 구현 자료를 확인한다.

비교 축

  • BrowseComp vs 단순 검색 질의
  • 웹 탐색 평가
  • 출처 기반 조사

추천

웹 탐색 에이전트를 비교한다면 채택하라. 답의 정확도뿐 아니라 출처 회수, 중간 근거, 실패 유형을 함께 기록해야 한다.

위험

  • 문항 최신성
  • 검색 결과 변동
  • 근거 회수 누락

출처

  • 블로그 BrowseComp
    OpenAI 주근거

    2025-04-10 BrowseComp 공개 날짜와 웹 탐색 평가 목적 확인 자료

    https://openai.com/index/browsecomp/
  • 저장소 simple-evals
    OpenAI 보조근거

    2025-04-10 공개 항목의 공개 평가 구현과 관련 자료 확인 자료

    https://github.com/openai/simple-evals