Agent Stack Radar 에이전트 스택 변화를 한 줄 판단으로

← 전체 피드Google 신호 4건 →

Gemini 2.5 Computer Use는 브라우저 조작을 모델 기능으로 끌어올렸다

Gemini 2.5 Computer Use 모델은 브라우저와 모바일 사용자 화면을 다루기 위한 computer_use 도구를 모델 API에 포함한다. Playwright, Stagehand, Nova Act 같은 자동화 계층과 달리 UI 판단 자체를 모델 제품 경계 안으로 넣은 실험 신호다.

실험 영향도 84 / 100 이벤트 2025-10-07 출처 2개 (주근거 1)

핵심 요약

  • Google DeepMind는 2025-10-07 Gemini 2.5 Computer Use 모델을 API 미리보기로 공개했다.
  • 문서는 모델이 화면을 보고 computer_use 도구 호출을 통해 브라우저와 모바일 UI 작업을 수행하는 방식을 설명한다.
  • 브라우저 자동화가 테스트 코드나 외부 제어 라이브러리만의 문제가 아니라 모델 선택 문제로도 바뀌었다.

맥락

  • Playwright는 결정적 브라우저 제어와 테스트 재현성에 강하고, Stagehand와 Nova Act는 자연어 기반 웹 작업을 더 높은 수준에서 다룬다.
  • Gemini Computer Use의 차이는 도구 사용 판단을 모델 제공자가 직접 최적화한다는 점이며, 데스크톱 운영체제 전반을 조작하도록 최적화됐다고 보기는 어렵다.

판단 근거

  • Google 발표는 2025-10-07 날짜와 Gemini 2.5 Computer Use 모델의 API 미리보기 제공을 확인한다.
  • Gemini API 문서는 computer_use 도구의 요청/응답 구조와 브라우저 중심 사용 범위를 보조한다.
  • 사용자 화면을 실제로 조작하는 만큼 권한, 실패 복구, 민감 정보 노출 통제가 채택 판단의 핵심이다.

근거 해석

Google DeepMind 발표와 Gemini API 문서가 2025-10-07 공개 날짜, computer_use 도구, 브라우저 중심 UI 조작 범위를 확인한다.

비교 축

  • Gemini Computer Use vs Playwright
  • Gemini Computer Use vs Stagehand
  • Gemini Computer Use vs Nova Act

추천

브라우저와 모바일 UI 작업을 자동화해야 하는 팀은 작은 실험으로 시작하라. 기존 Playwright 테스트를 대체하기보다, 불안정한 웹 작업에서 모델 기반 판단이 얼마나 줄을 세우는지 별도로 측정해야 한다.

위험

  • 화면 조작 권한
  • 민감 정보 노출
  • 비결정적 UI 판단
  • 데스크톱 운영체제 조작으로 과장할 위험

출처

  • Google DeepMind 주근거

    2025-10-07 Gemini 2.5 Computer Use 모델 공개 날짜와 API 미리보기 확인 자료

    https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-computer-use-model/
  • 공식 문서 Computer use
    Google AI for Developers 보조근거

    Gemini API의 computer_use 도구 구조와 브라우저 중심 사용 범위 확인 자료

    https://ai.google.dev/gemini-api/docs/computer-use