Agent Stack Radar

Agent Stack Radar AI 에이전트 스택 변화를 출처 기반 한 줄 판단으로 https://stkradar.com/ 2026-06-09T00:00:00+09:00 무료 체험이었는데 $1,081 청구서가 왔다 https://stkradar.com/articles/surprise-1081-bill-usage-billing-shift/ 2026-06-09T00:00:00+09:00

CI 서비스 Blacksmith가 무료 체험 사용자에게 1,081.45달러를 청구했다. 한도 초과 시 작업을 멈추는 대신 공시 요율로 과금을 누적하는 정책이 원인이다. 같은 주 Cursor의 Bugbot 사용량 과금 전환과 겹쳐, 에이전트 도구 비용이 사용량 청구로 이동하는 신호로 읽힌다.

Claude Code를 만든 사람은 더 이상 프롬프트를 치지 않는다 https://stkradar.com/articles/claude-code-head-writes-loops/ 2026-06-08T00:00:00+09:00

Claude Code를 이끄는 Anthropic의 Boris Cherny가 "이제 Claude에 프롬프트를 치지 않는다. 내 일은 루프를 쓰는 것"이라고 말했다. 이틀 뒤 Google의 Addy Osmani가 이 흐름에 '루프 엔지니어링'이라는 이름을 붙였다. 프롬프트 대신, 에이전트를 굴리는 바깥 루프를 설계하는 일이 새 작업 단위로 떠오르고 있다.

토큰 청구서가 왔다: 코딩 에이전트의 다음 병목은 회계다 https://stkradar.com/articles/token-bill-coding-agent-accounting/ 2026-06-08T00:00:00+09:00

코딩 에이전트의 병목은 더 이상 모델 성능만이 아니다. Cursor의 Bugbot 과금 전환과 토큰 가격 구조는 작업 단위 비용, 재시도, 검토 실행, 모델 라우팅을 함께 기록하는 회계 계층이 필요해졌다는 신호다.

루프 엔지니어링: 이제 프롬프트하는 시스템을 설계한다 https://stkradar.com/articles/loop-engineering-agent-work-pattern/ 2026-06-07T00:00:00+09:00

루프 엔지니어링은 좋은 프롬프트 한 문장을 쓰는 기술이 아니라 작업 발견, 위임, 검증, 상태 기록, 중단 조건을 설계하는 운영 방식이다. 에이전트가 오래 움직일수록 문구보다 루프의 피드백과 통제가 중요해진다.

AI 에이전트의 첫 대중 인터페이스는 IDE가 아니라 메시지일 수 있다 https://stkradar.com/articles/messaging-first-ai-agent-interface/ 2026-06-03T00:00:00+09:00

개발자에게 에이전트는 IDE와 터미널에서 먼저 보이지만 대중 시장의 첫 접점은 메시지 스레드일 수 있다. WhatsApp의 Meta Business Agent 확장은 고객 운영 에이전트가 신원, 동의, 이관, 감사 기록까지 품은 메시징 제품이어야 함을 보여준다.

OpenAI AgentKit 종료 신호는 코드 소유 Agents SDK 경로를 우선하게 만든다 https://stkradar.com/articles/openai-agentkit-winddown/ 2026-06-03T00:00:00+09:00

OpenAI의 2026년 6월 AgentKit 업데이트는 Agent Builder와 평가 제품군의 종료 방향을 담고 있다. 새 에이전트 작업은 시각적 빌더에 묶기보다 Agents SDK와 자체 코드, 테스트, 배포 흐름 안에서 소유하는 편이 안전하다.

Copilot SDK GA는 코딩 에이전트를 앱 안에 넣는 경계를 열었다 https://stkradar.com/articles/github-copilot-sdk-ga/ 2026-06-02T00:00:00+09:00

GitHub Copilot SDK GA는 Copilot을 정해진 편집기나 GitHub 화면 안에서만 쓰는 단계에서, 개발자가 만든 앱과 내부 도구 안에 코딩 에이전트 기능을 넣는 단계로 경계를 넓혔다. 핵심은 SDK 임베딩과 권한 책임이다.

MCP 2026-07-28 RC는 최종 스펙이 아니라 거버넌스 변화를 예고했다 https://stkradar.com/articles/mcp-2026-07-28-rc-governance/ 2026-05-21T00:00:00+09:00

MCP 2026-07-28 release candidate는 최종 스펙 출시가 아니라 프로토콜 운영 방식의 변화를 예고한 후보안이다. 무상태 core, extensions, authorization hardening, deprecation policy는 MCP가 연결 표준에서 운영 거버넌스 표준으로 넓어지고 있음을 보여준다.

NSA의 MCP 보안 고려사항은 프로토콜 운영 점검표가 필요하다는 신호다 https://stkradar.com/articles/nsa-mcp-security-design-considerations/ 2026-05-20T00:00:00+09:00

NSA의 MCP 보안 설계 고려사항은 MCP가 개발자 편의 프로토콜을 넘어 운영 점검표의 대상이 됐다는 신호다. 이것은 법적 의무 선언이 아니라 도구 권한, 서버 신뢰, 데이터 경계, 감시 체계를 배포 전 검토하라는 기준점에 가깝다.

Claude Managed Agents self-hosted sandbox는 실행 경계를 사용자 인프라로 옮긴다 https://stkradar.com/articles/anthropic-managed-agents-self-hosted-sandboxes/ 2026-05-19T00:00:00+09:00

Anthropic의 self-hosted sandbox 흐름은 Claude Managed Agents의 조율은 유지하면서 도구 실행, 파일시스템, 네트워크 경계를 사용자 인프라로 옮기는 선택지다. 민감한 저장소와 내부망 접근이 필요한 팀에는 실험 가치가 있지만, 연구 미리보기와 워커 운영 부담을 함께 봐야 한다.

MCP Atlas는 실제 서버 기반 도구 평가를 에이전트 품질 기준으로 올렸다 https://stkradar.com/articles/mcp-atlas-real-server-tool-eval/ 2026-05-19T00:00:00+09:00

MCP Atlas는 도구 호출 평가를 장난감 API 목록에서 실제 MCP 서버, 교차 서버 작업, 주장 단위 채점으로 끌어올린 벤치마크다. MCP를 붙였다는 사실보다, 여러 서버의 도구를 고르고 결과 주장을 끝까지 검증하는 능력이 에이전트 품질 기준이 됐다.

Docker MCP Custom Catalogs와 Profiles GA는 도구 배포 거버넌스를 구체화했다 https://stkradar.com/articles/docker-mcp-custom-catalogs-profiles-ga/ 2026-05-15T00:00:00+09:00

Docker의 Custom Catalogs와 Profiles 일반 제공은 MCP 서버를 개인별 설정 파일이 아니라 조직이 승인하고 배포하는 도구 묶음으로 다루게 만든다. MCP를 팀 운영에 넣는 곳에는 의미 있는 거버넌스 표면이지만, 개인 실험에는 절차가 먼저 커질 수 있다.

노션은 메모 앱이 아니라 에이전트 작업장이 되려 한다 https://stkradar.com/articles/notion-agent-workspace-platform/ 2026-05-13T00:00:00+09:00

Notion의 개발자 플랫폼 발표는 메모 앱에 AI 요약을 붙인 수준이 아니다. 데이터베이스 동기화, Workers, 웹훅, CLI, 외부 에이전트 API를 묶어 팀 지식 공간을 에이전트가 읽고 일하는 작업장으로 바꾸려는 방향이다.

METR time horizon은 에이전트 평가를 인간 작업 길이 기준으로 읽게 했다 https://stkradar.com/articles/metr-time-horizon-agent-eval/ 2026-05-08T00:00:00+09:00

METR의 time horizon은 에이전트 성능을 벤치마크 점수 하나가 아니라 인간 전문가가 어느 정도 걸리는 작업을 일정 성공률로 풀 수 있는지로 읽게 하는 평가 렌즈다. 이 값은 에이전트가 그 시간 동안 끊김 없이 자율 실행한다는 뜻이 아니며, 도입 설명에서 그 오해를 막는 것이 핵심이다.

프롬프트는 PR 설명이 됐다: AI 코드 리뷰는 의도부터 본다 https://stkradar.com/articles/prompt-as-pr-description/ 2026-05-07T00:00:00+09:00

에이전트 PR에서 설명문은 변경 요약을 넘어 원 요청, 금지 범위, 선택한 계획, 검증 증거를 담는 리뷰 계약서가 됐다. 리뷰어는 diff만 보는 대신 에이전트가 무엇을 하기로 했고 무엇을 하지 않기로 했는지부터 확인해야 한다.

에이전트 회계학: 토큰을 많이 쓴 사람이 생산적인 사람은 아니다 https://stkradar.com/articles/agent-accounting-token-productivity/ 2026-05-06T00:00:00+09:00

에이전트 사용량은 생산성 점수가 아니다. 한도와 과금이 커질수록 팀은 토큰, 요청 수, 좌석 수를 보는 데서 멈추지 말고 병합된 변경, 검토 시간, 되돌림, 장애 위험까지 연결해 결과당 비용을 봐야 한다.

Cursor TypeScript SDK는 코딩 에이전트 실행 환경을 제품 안으로 열었다 https://stkradar.com/articles/cursor-sdk-programmatic-agents/ 2026-04-29T00:00:00+09:00

Cursor TypeScript SDK는 Cursor의 코딩 에이전트 실행 환경과 모델 접근을 프로그램에서 호출하게 만드는 표면이다. 편집기 기능을 자동화 코드와 제품 기능으로 끌어내는 시도이지만, 초기 SDK인 만큼 권한 경계와 세션 비용을 작게 검증해야 한다.

Devin CLI는 로컬 터미널과 클라우드 에이전트 사이의 인계 흐름을 드러냈다 https://stkradar.com/articles/cognition-devin-cli-cloud-handoff/ 2026-04-27T00:00:00+09:00

Devin for Terminal은 로컬 터미널에서 시작한 코딩 작업을 클라우드 컴퓨터의 Devin 세션으로 넘기는 사용 방식을 전면에 세웠다. 핵심은 완전 자율 개발자라는 수사가 아니라, 로컬 맥락 확보와 클라우드 장기 실행을 어떻게 인계하고 검토할지다.

세션 기억 vs 제품 기억: supermemory는 agentmemory를 대체할 수 있을까 https://stkradar.com/articles/supermemory-agentmemory-replacement/ 2026-04-27T00:00:00+09:00

Supermemory는 @supermemory/tools 2.0.0에서 대화 식별자와 기본 저장을 전면화했고, MCP, 플러그인, 로컬 서버를 통해 기억 계층을 넓히고 있다. agentmemory처럼 코딩 세션을 자동 수집하는 전용 장치를 바로 대체한다고 보기는 어렵지만, 제품 안에 사용자 기억, RAG, 외부 자료 연결을 넣으려는 팀에는 교체 실험 후보가 됐다.

Cloudflare Browser Run은 에이전트용 브라우저 실행을 Cloudflare 계정 안으로 넣었다 https://stkradar.com/articles/cloudflare-browser-run/ 2026-04-15T00:00:00+09:00

Cloudflare Browser Run은 에이전트가 쓰는 Playwright 기반 브라우저 실행을 Cloudflare 계정 안의 인프라 선택지로 만든다. 브라우저 작업이 많은 팀에는 실험 가치가 있지만, 세션 보존, 차단 대응, 비용이 핵심이다.

Cloudflare Project Think는 장기 실행 에이전트 기반을 넓힌다 https://stkradar.com/articles/cloudflare-project-think-agents-sdk/ 2026-04-15T00:00:00+09:00

Cloudflare Project Think는 Agents SDK를 짧은 서버리스 호출이 아니라 더 오래 살아 있는 에이전트 실행 환경으로 확장하려는 신호다. Durable Objects와 엣지 배포를 쓰는 팀에는 흥미롭지만, 업무 이력과 실패 복구는 전용 도구와 비교해야 한다.

E2B의 OpenAI Agents SDK 통합은 에이전트 실행환경을 제품 기능으로 올렸다 https://stkradar.com/articles/e2b-agents-sdk-sandbox/ 2026-04-15T00:00:00+09:00

E2B의 OpenAI Agents SDK 통합은 에이전트가 파일을 만들고 shell을 실행하는 작업 공간을 외부 샌드박스 제공자로 분리한다. 코드 생성, 웹페이지 변형, 데이터 처리에는 실험 가치가 크지만, 비용과 산출물 반출, Python 우선 지원을 먼저 확인해야 한다.

HIL-Bench는 에이전트가 언제 질문해야 하는지를 평가 대상으로 만들었다 https://stkradar.com/articles/hil-bench-human-escalation-eval/ 2026-04-10T00:00:00+09:00

HIL-Bench는 에이전트 안전을 '사람 승인 버튼이 있는가'가 아니라 '언제 사람에게 물어야 하는가'로 옮겨 평가한다. 위험하거나 모호한 작업을 맡기는 제품은 정답률만 보지 말고 질문 타이밍, 과잉 질의, 침묵 추측을 함께 측정해야 한다.

Microsoft Agent Framework 1.0은 Semantic Kernel/AutoGen 수렴의 생산 단계 신호다 https://stkradar.com/articles/microsoft-agent-framework-10/ 2026-04-03T00:00:00+09:00

Microsoft Agent Framework 1.0은 Semantic Kernel과 AutoGen 계열을 Python/.NET 공통 프레임워크로 수렴시키겠다는 신호다. Microsoft 흐름을 쓰는 팀에는 생산 단계 후보지만, 작은 제품은 SDK 무게와 플랫폼 결합을 먼저 재야 한다.

Google ADK for Java 1.0.0은 기존 Java 백엔드에 에이전트 선택지를 열었다 https://stkradar.com/articles/google-adk-java-100/ 2026-03-30T00:00:00+09:00

Google ADK for Java 1.0.0은 Java 기반 백엔드와 기업 코드베이스에서 Google의 에이전트 스택을 더 현실적인 후보로 만든다. 다만 선택은 Google 서비스와 A2A 연동 방향을 받아들일지에 달려 있다.

177,000개 MCP 도구 연구는 도구 계층 평가가 필수 게이트가 됐다는 최신 신호다 https://stkradar.com/articles/mcp-tool-bench/ 2026-03-25T00:00:00+09:00

2026-03-25 제출된 177,000개 MCP 도구 연구는 2025년 MCP tool-use benchmark 흐름 위에 최신 dated signal을 더한다. 에이전트 성능은 모델 답변이 아니라 도구 선택/호출 단위로 평가해야 한다.

Dapr Agents 1.0 GA는 분산 시스템 기반 에이전트 프레임워크를 전면에 세웠다 https://stkradar.com/articles/dapr-agents-10-ga/ 2026-03-23T00:00:00+09:00

Dapr Agents 1.0 일반 제공은 상태, 메시징, 관측성, 재시도 같은 분산 시스템 요소를 에이전트 프레임워크 판단 기준으로 끌어올렸다. Dapr 기반 조직에는 주시할 가치가 크다.

A2A v1.0.0은 에이전트 간 상호운용 프로토콜을 구체화했다 https://stkradar.com/articles/a2a-watch/ 2026-03-12T00:00:00+09:00

A2A v1.0.0은 Agent Card, Task, Artifact, 스트리밍 업데이트 모델을 구체적인 에이전트 간 프로토콜로 묶었다. 다만 개인 개발자는 외부 에이전트 상호운용이 필요할 때까지 기다려도 된다.

에이전트 정책 파일은 시스템 프롬프트를 대신하지 않는다 https://stkradar.com/articles/agent-policy-files-not-system-prompts/ 2026-02-23T00:00:00+09:00

AGENTS.md 같은 저장소 정책 파일은 프로젝트별 명령, 금지 경로, 검증 기준을 리뷰 가능한 파일로 끌어낸다. 하지만 보안 경계가 아니며, 길고 일반적인 규칙 덩어리는 오히려 비용과 실패를 늘릴 수 있다.

NIST AI Agent Standards Initiative는 에이전트 표준 논의를 공공 의제로 올렸다 https://stkradar.com/articles/nist-ai-agent-standards-initiative/ 2026-02-17T00:00:00+09:00

NIST의 AI Agent Standards Initiative는 법적 강제 준수 규칙이 아니라 상호운용성, 보안, identity, open protocol 논의를 촉진하는 표준 이니셔티브다. 정부 출처라는 점은 중요하지만, 지금 당장 의무 규제처럼 읽으면 안 된다.

WebMCP는 웹앱이 브라우저 안에서 에이전트 도구를 노출하는 방향을 열었다 https://stkradar.com/articles/webmcp-browser-tools/ 2026-02-10T00:00:00+09:00

WebMCP는 웹앱이 브라우저 확장 지점과 연결돼 에이전트에게 도구를 제공하는 크롬 개발자 흐름이다. 파급력은 크지만 생태계 초기 단계라 채택보다 주시가 맞다.

Vercel Sandbox GA는 에이전트 코드 실행을 Vercel 앱 흐름 안으로 가져왔다 https://stkradar.com/articles/vercel-sandbox-ga/ 2026-01-30T00:00:00+09:00

Vercel Sandbox 일반 제공은 비신뢰 코드와 에이전트 생성 결과를 짧게 실행하는 기반을 Vercel 생태계 안에 넣었다. Vercel 배포 팀은 Modal, E2B와 함께 실험할 만하다.

에이전트 시대의 취향: 무엇을 버릴지 아는 사람이 이긴다 https://stkradar.com/articles/agent-era-engineering-taste/ 2026-01-29T00:00:00+09:00

에이전트가 코드를 빠르게 만들수록 사람의 희소한 역할은 더 많이 작성하는 것이 아니라 중복을 지우고, 기존 구조를 재사용하게 만들고, 불필요한 기능을 거절하는 일로 이동한다.

MCP Apps는 도구 결과를 대화형 UI로 바꾸는 첫 공식 MCP 확장이다 https://stkradar.com/articles/mcp-apps-extension/ 2026-01-26T00:00:00+09:00

MCP Apps는 도구가 일반 텍스트나 JSON만 반환하는 대신 dashboard, form, review UI 같은 대화형 컴포넌트를 샌드박스 iframe으로 렌더링하게 한다. 아직 클라이언트 지원 차이가 있어 실험 판정이지만, 에이전트 UI의 표준화 신호는 강하다.

APEX Agents는 전문직 장기 멀티앱 업무 자동화 주장에 현실성 검사를 요구한다 https://stkradar.com/articles/apex-agents-professional-work-benchmark/ 2026-01-20T00:00:00+09:00

APEX Agents는 투자은행, 컨설팅, 법무 같은 전문 업무에서 긴 멀티앱 과제를 평가한다. 모든 사무 자동화를 대표한다고 일반화하기보다, 고가 전문 업무를 에이전트가 실제로 어디까지 다룰 수 있는지 보는 현실성 검사로 써야 한다.

Mastra 1.0은 TypeScript agent framework의 production API 고정 신호다 https://stkradar.com/articles/mastra-1-stable/ 2026-01-20T00:00:00+09:00

Mastra 1.0 stable은 서버 어댑터, 복합 저장소, AI SDK v6 지원, 스레드 복제, 통합 관측성 스키마를 묶었다. TypeScript 빌더에게 매력적이지만, LangGraph/Vercel AI SDK와 역할을 분리해 실험해야 한다.

Vercel AI SDK 6는 TypeScript 앱 안의 Agent 추상화를 실전 표면으로 만들었다 https://stkradar.com/articles/vercel-ai-sdk-6-agents/ 2025-12-22T00:00:00+09:00

AI SDK 6는 ToolLoopAgent, MCP OAuth/리소스/프롬프트/입력 요청, DevTools, UI 스트리밍을 TypeScript 앱 흐름 안에 묶었다. Next.js와 Vercel 기반 개인 개발자에게는 LangGraph급 실행 환경보다 가볍게 에이전트 UI를 붙이는 채택 후보가 됐다.

Gemini Interactions API는 모델 호출과 관리형 에이전트를 한 표면으로 묶기 시작했다 https://stkradar.com/articles/google-gemini-interactions-api/ 2025-12-11T00:00:00+09:00

Google의 Interactions API는 Gemini 모델 호출, 관리형 에이전트 호출, 서버 측 상태, 백그라운드 실행, MCP 도구 연결을 하나의 상호작용 표면으로 모으려는 공개 베타 신호다. 아직 기본 스택으로 고정하기보다 작은 실험으로 검증할 단계다.

OWASP Agentic Top 10 2026은 에이전트 보안을 별도 위험 목록으로 정리했다 https://stkradar.com/articles/owasp-agentic-top10-2026/ 2025-12-09T00:00:00+09:00

OWASP Agentic Top 10 for 2026은 에이전트 애플리케이션에서 반복되는 보안 위험을 별도 목록으로 정리한 기준이다. 보안 검토 체크리스트를 만드는 팀에는 채택할 만한 공통 언어다.

운영의 첫 화면이 바뀐다: 대시보드보다 에이전트에게 먼저 묻는다 https://stkradar.com/articles/ai-sre-agent-dashboard-shift/ 2025-12-02T00:00:00+09:00

대시보드가 사라지는 것은 아니다. 다만 장애 대응의 첫 인터페이스가 패널 탐색에서 관측 자료를 읽는 SRE 에이전트와의 질의로 이동하는 신호가 강해지고 있다.

Amazon Nova Act는 브라우저 조작 에이전트를 AWS 제품선 안으로 넣었다 https://stkradar.com/articles/amazon-nova-act-browser-agent/ 2025-12-02T00:00:00+09:00

Amazon Nova Act는 웹 사용자 인터페이스 작업을 모델과 도구로 수행하게 하는 AWS의 브라우저 에이전트 SDK다. AWS 계정과 보안 경계 안에서 브라우저 자동화를 시험하려는 팀에 실험 가치가 있다.

MCP 2025-11-25는 tasks, elicitation, authorization을 운영 기준으로 올렸다 https://stkradar.com/articles/mcp-2025-11-operational-release/ 2025-11-25T00:00:00+09:00

MCP 2025-11-25 개정판은 인증 서버 발견, 입력 요청 스키마, 샘플링 도구 호출, 실험 작업, SDK 관리 기준을 더했다. 단순 도구 호출 표준에서 장기 요청과 사용자 입력을 다루는 운영형 프로토콜로 확장된 신호다.

Google Antigravity는 코딩 에이전트 경쟁을 개발 표면 전체로 넓혔다 https://stkradar.com/articles/google-antigravity-agentic-dev-platform/ 2025-11-18T00:00:00+09:00

Google Antigravity는 코딩 에이전트를 명령줄 도구가 아니라 편집기, 관리자 화면, 브라우저, 터미널이 연결된 개발 표면으로 제시했다. Gemini CLI나 Interactions API와 달리 개발자가 실제로 일하는 화면 전체를 재편하려는 신호다.

Terminal-Bench 2는 터미널 에이전트 평가를 더 현실적인 작업군으로 넓혔다 https://stkradar.com/articles/terminal-bench-2/ 2025-11-07T00:00:00+09:00

Terminal-Bench 2는 셸과 파일 시스템을 다루는 에이전트 평가를 실제 개발·운영 작업에 더 가깝게 확장한 벤치마크다. 터미널형 에이전트를 비교하는 팀에는 채택할 기준 후보가 됐다.

Langfuse for Agents는 에이전트 실행 추적을 평가의 앞단으로 끌어왔다 https://stkradar.com/articles/langfuse-for-agents-observability/ 2025-11-05T00:00:00+09:00

Langfuse for Agents는 도구 호출, trace log view, observation types, agent graphs를 통해 에이전트 실행을 더 잘 훑고 평가할 수 있게 한 2025-11-05 기능 묶음이다. v4 전체 GA로 과장하기보다, 에이전트 추적 기능 강화와 이후 미리보기 흐름으로 보는 편이 안전하다.

OpenHands Software Agent SDK는 연구용 에이전트 구성 요소를 제품 코드 쪽으로 끌어왔다 https://stkradar.com/articles/openhands-software-agent-sdk/ 2025-11-05T00:00:00+09:00

OpenHands Software Agent SDK는 코드 작성 에이전트에 필요한 상태, 도구, 실행 제어를 재사용 가능한 파이썬 구성 요소로 정리하려는 시도다. 연구 기반 SDK이므로 실제 제품에는 좁은 범위 실험부터 맞다.

Rule of Two는 에이전트 보안 설계를 현실적인 분리 원칙으로 낮췄다 https://stkradar.com/articles/agents-rule-of-two-security-framework/ 2025-10-31T00:00:00+09:00

Meta의 Rule of Two는 신뢰할 수 없는 입력, 비공개 데이터, 외부 행동 세 가지를 한 에이전트 세션에 모두 묶지 말라는 실용 보안 프레임워크다. 프롬프트 주입이 해결됐다는 뜻이 아니라 위험 조합을 줄이는 설계 원칙이다.

Stagehand v3는 브라우저 에이전트를 Playwright 스크립트와 블랙박스 사이에 세웠다 https://stkradar.com/articles/stagehand-v3-browser-agents/ 2025-10-29T00:00:00+09:00

Stagehand v3는 Playwright 의존성을 제거하고 CDP 기반 모듈형 드라이버, 토큰 인식 컨텍스트 빌더, 브라우저 에이전트 관측성을 강조했다. API 없는 웹 업무를 자동화하는 개인 개발자에게 유용하지만 인증/captcha/세션 문제는 여전히 별도 과제다.

LangSmith 멀티턴 평가는 에이전트 품질 판단을 단일 실행 기록에서 전체 대화로 옮겼다 https://stkradar.com/articles/langsmith-multiturn-evals/ 2025-10-23T00:00:00+09:00

LangSmith Insights Agent와 멀티턴 평가는 운영 실행 기록을 사용 패턴과 전체 상호작용 점수로 바꾼다. 에이전트가 한 번 답을 잘했는지가 아니라, 사용자 목표를 전체 대화 스레드에서 달성했는지를 보는 방향이다.

LangChain 1.0 GA는 표준 에이전트 API를 안정화 기준으로 올렸다 https://stkradar.com/articles/langchain-v1-agent-api/ 2025-10-22T00:00:00+09:00

LangChain 1.0 일반 제공은 create_agent 중심의 새 에이전트 표면을 안정 버전으로 묶었다. 기존 체인 중심 사용자는 새 API와 LangGraph 기반 실행 모델을 함께 검토할 시점이다.