이벤트 2025-10-07 · SDK · 실험

Gemini 2.5 Computer Use는 브라우저 조작을 모델 기능으로 끌어올렸다

Gemini 2.5 Computer Use 모델은 브라우저와 모바일 사용자 화면을 다루기 위한 computer_use 도구를 모델 API에 포함한다. Playwright, Stagehand, Nova Act 같은 자동화 계층과 달리 UI 판단 자체를 모델 제품 경계 안으로 넣은 실험 신호다.

실험 영향도 84 / 100 이벤트 2025-10-07 출처 2개 (주근거 1)

핵심 요약

Google DeepMind는 2025-10-07 Gemini 2.5 Computer Use 모델을 API 미리보기로 공개했다.
문서는 모델이 화면을 보고 computer_use 도구 호출을 통해 브라우저와 모바일 UI 작업을 수행하는 방식을 설명한다.
브라우저 자동화가 테스트 코드나 외부 제어 라이브러리만의 문제가 아니라 모델 선택 문제로도 바뀌었다.

맥락

Playwright는 결정적 브라우저 제어와 테스트 재현성에 강하고, Stagehand와 Nova Act는 자연어 기반 웹 작업을 더 높은 수준에서 다룬다.
Gemini Computer Use의 차이는 도구 사용 판단을 모델 제공자가 직접 최적화한다는 점이며, 데스크톱 운영체제 전반을 조작하도록 최적화됐다고 보기는 어렵다.

판단 근거

Google 발표는 2025-10-07 날짜와 Gemini 2.5 Computer Use 모델의 API 미리보기 제공을 확인한다.
Gemini API 문서는 computer_use 도구의 요청/응답 구조와 브라우저 중심 사용 범위를 보조한다.
사용자 화면을 실제로 조작하는 만큼 권한, 실패 복구, 민감 정보 노출 통제가 채택 판단의 핵심이다.

근거 해석

Google DeepMind 발표와 Gemini API 문서가 2025-10-07 공개 날짜, computer_use 도구, 브라우저 중심 UI 조작 범위를 확인한다.

비교 축

Gemini Computer Use vs Playwright
Gemini Computer Use vs Stagehand
Gemini Computer Use vs Nova Act

위험

화면 조작 권한
민감 정보 노출
비결정적 UI 판단
데스크톱 운영체제 조작으로 과장할 위험

출처

블로그 Introducing the Gemini 2.5 Computer Use model

Google DeepMind 주근거

2025-10-07 Gemini 2.5 Computer Use 모델 공개 날짜와 API 미리보기 확인 자료
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-computer-use-model/
공식 문서 Computer use

Google AI for Developers 보조근거

Gemini API의 computer_use 도구 구조와 브라우저 중심 사용 범위 확인 자료
https://ai.google.dev/gemini-api/docs/computer-use