BrowseComp는 웹 탐색 능력을 긴 검색 과제로 재측정했다
BrowseComp는 웹에서 숨은 정보를 찾아 답해야 하는 어려운 탐색 평가다. 브라우징 에이전트의 실제 조사 능력을 보려는 팀에는 단순 질의응답보다 나은 기준이 된다.
채택
영향도 85 / 100
이벤트 2025-04-10
출처 2개 (주근거 1)
핵심 요약
- OpenAI는 2025-04-10 BrowseComp를 공개했다.
- simple-evals 저장소는 공개 평가 구현과 관련 자료를 제공한다.
- 웹 탐색 평가는 한 번의 검색 결과 요약보다 여러 단서를 찾아 합치는 어려운 과제로 옮겨갔다.
맥락
- 웹 탐색 에이전트는 검색, 출처 비교, 모순 처리, 긴 조사 과정을 모두 수행해야 한다.
- 짧은 답변 정확도만으로는 실제 조사 업무의 실패를 잡기 어렵다.
판단 근거
- OpenAI 발표가 2025-04-10 날짜와 BrowseComp의 평가 목적을 제공한다.
- OpenAI simple-evals 저장소는 공개 평가 구현을 보조한다.
- 웹 조사 능력을 비교해야 하는 팀에는 채택할 만한 평가 기준이다.
근거 해석
OpenAI 발표와 simple-evals 저장소가 2025-04-10 날짜, BrowseComp 평가 목적, 공개 구현 자료를 확인한다.
비교 축
- BrowseComp vs 단순 검색 질의
- 웹 탐색 평가
- 출처 기반 조사
추천
웹 탐색 에이전트를 비교한다면 채택하라. 답의 정확도뿐 아니라 출처 회수, 중간 근거, 실패 유형을 함께 기록해야 한다.
위험
- 문항 최신성
- 검색 결과 변동
- 근거 회수 누락
출처
-
블로그 BrowseComp
2025-04-10 BrowseComp 공개 날짜와 웹 탐색 평가 목적 확인 자료
https://openai.com/index/browsecomp/ -
저장소 simple-evals
2025-04-10 공개 항목의 공개 평가 구현과 관련 자료 확인 자료
https://github.com/openai/simple-evals