← 전체 피드

이벤트 2025-10-23 · 평가 · 채택

LangSmith 멀티턴 평가는 에이전트 품질 판단을 단일 실행 기록에서 전체 대화로 옮겼다

LangSmith Insights Agent와 멀티턴 평가는 운영 실행 기록을 사용 패턴과 전체 상호작용 점수로 바꾼다. 에이전트가 한 번 답을 잘했는지가 아니라, 사용자 목표를 전체 대화 스레드에서 달성했는지를 보는 방향이다.

채택 영향도 82 / 100 이벤트 2025-10-23 출처 2개 (주근거 1)

핵심 요약

2025-10-23 LangChain 글은 Insights Agent와 멀티턴 평가 기능을 LangSmith에 출시했다고 밝혔다.
Insights Agent는 실행 기록을 분류/하위 분류로 묶어 지연 시간, 실행, 평가와 함께 탐색하게 한다.
멀티턴 평가는 전체 대화 스레드 단위로 의미 의도, 결과, 진행 궤적을 평가한다.

맥락

기존 LLM 평가는 한 응답이나 한 도구 호출을 채점하기 쉬웠지만, 에이전트 제품은 여러 차례 대화 끝에 목표를 달성했는지가 핵심이다.
LangGraph를 쓰는 팀에게 LangSmith는 자연스럽지만, 프레임워크 중립 팀은 종속과 내보내기 가능성을 함께 봐야 한다.

판단 근거

LangChain 공식 글이 날짜, Insights Agent, 멀티턴 평가, 대화 스레드 기반 평가 범위를 명시한다.
Agent Observability 글은 실행 추적과 평가를 하나의 개선 순환으로 연결하는 맥락을 제공한다.
개인 개발자도 운영 실행 기록을 작업 목록과 평가 데이터셋으로 바꾸는 습관은 즉시 채택할 가치가 있다.

근거 해석

LangSmith 출시 글과 관측성 글이 전체 상호작용 평가, 실행 기록 분류, 데이터셋/주석 대기열 연결을 확인한다.

비교 축

단일 실행 기록 평가 vs 대화 스레드 평가
LangSmith vs 원시 로그
오프라인 평가 vs 운영 실행 기록

추천

LangGraph/LangChain 기반 에이전트는 멀티턴 평가를 일찍 도입하고, 다른 기술 묶음은 최소한 실행 기록 ID와 대화 단위 결과 스키마를 자체적으로 설계하라.

위험

LangSmith SaaS 종속
LLM-as-judge 편향
실행 기록 개인정보

출처

블로그 Improve agent quality with Insights Agent and Multi-turn Evals, now in LangSmith

LangChain 주근거

2025-10-23 LangSmith Insights Agent와 멀티턴 평가 출시 확인 자료
https://www.langchain.com/blog/insights-agent-multiturn-evals-langsmith
블로그 Agent Observability Powers Agent Evaluation

LangChain 보조근거

에이전트 실행 추적과 평가 순환 맥락
https://blog.langchain.com/agent-observability-powers-agent-evaluation/