LangSmith 멀티턴 평가는 에이전트 품질 판단을 단일 실행 기록에서 전체 대화로 옮겼다
LangSmith Insights Agent와 멀티턴 평가는 운영 실행 기록을 사용 패턴과 전체 상호작용 점수로 바꾼다. 에이전트가 한 번 답을 잘했는지가 아니라, 사용자 목표를 전체 대화 스레드에서 달성했는지를 보는 방향이다.
- 판정
- 채택
- 영향
- 82
- 이벤트
- 2025-10-23
- 출처
- 2개
바뀐 점
- 2025-10-23 LangChain 글은 Insights Agent와 멀티턴 평가 기능을 LangSmith에 출시했다고 밝혔다.
- Insights Agent는 실행 기록을 분류/하위 분류로 묶어 지연 시간, 실행, 평가와 함께 탐색하게 한다.
- 멀티턴 평가는 전체 대화 스레드 단위로 의미 의도, 결과, 진행 궤적을 평가한다.
맥락
- 기존 LLM 평가는 한 응답이나 한 도구 호출을 채점하기 쉬웠지만, 에이전트 제품은 여러 차례 대화 끝에 목표를 달성했는지가 핵심이다.
- LangGraph를 쓰는 팀에게 LangSmith는 자연스럽지만, 프레임워크 중립 팀은 종속과 내보내기 가능성을 함께 봐야 한다.
판단 근거
- LangChain 공식 글이 날짜, Insights Agent, 멀티턴 평가, 대화 스레드 기반 평가 범위를 명시한다.
- Agent Observability 글은 실행 추적과 평가를 하나의 개선 순환으로 연결하는 맥락을 제공한다.
- 개인 개발자도 운영 실행 기록을 작업 목록과 평가 데이터셋으로 바꾸는 습관은 즉시 채택할 가치가 있다.
근거 해석
LangSmith 출시 글과 관측성 글이 전체 상호작용 평가, 실행 기록 분류, 데이터셋/주석 대기열 연결을 확인한다.
비교 축
- 단일 실행 기록 평가 vs 대화 스레드 평가
- LangSmith vs 원시 로그
- 오프라인 평가 vs 운영 실행 기록
추천
LangGraph/LangChain 기반 에이전트는 멀티턴 평가를 일찍 도입하고, 다른 기술 묶음은 최소한 실행 기록 ID와 대화 단위 결과 스키마를 자체적으로 설계하라.
위험
- LangSmith SaaS 종속
- LLM-as-judge 편향
- 실행 기록 개인정보
출처
-
2025-10-23 LangSmith Insights Agent와 멀티턴 평가 출시 확인 자료
https://www.langchain.com/blog/insights-agent-multiturn-evals-langsmith -
에이전트 실행 추적과 평가 순환 맥락
https://blog.langchain.com/agent-observability-powers-agent-evaluation/