header

로고

"Reading makes a complete man, communication makes a deceitful man, and composition makes a precision man."
MJ GLOBAL ACADEMY Communicates with Training

Q&A

"모델 평가만으론 부족"…기업 에이전트

onion

2

25-07-21 04:38

"모델 평가만으론 부족"…기업 에이전트 "모델 평가만으론 부족"…기업 에이전트 도입 검증에 실용적 활용 '기대'인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. AI 모델 자체만을 평가하던 벤치마크 한계를 넘어 에이전트의 실질적 성능 분석이 가능한 프레임워크다.20일 IT 업계에 따르면 세일즈포스는 지난 17일 '모델 컨텍스트 프로토콜 기반 평가 프레임워크(MCPeval): MCP 기반의 자동 심층 에이전트 평가' 논문을 통해 에이전트 문제 해결 능력을 자동 검증할 수 있는 새 벤치마크 프레임워크를 오픈소스로 공개했다.MCPeval은 MCP 기반으로 에이전트 성능을 검증한다. 사용자가 가상 업무 환경을 제시하면, 에이전트가 MCP를 이용해 필요한 도구 정보를 받아, 주어진 작업을 직접 수행하는 식이다.인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. (사진=구글 제미나이)이 과정에서 MCPeval은 에이전트의 과제 해결하는 과정을 추적할 수 있다. 프로토콜 상 상호작용 데이터도 체계적으로 수집한다. 이를 통해 에이전트 성능을 평가하는 셈이다. 에이전트 성능 개선에 활용할 수 있는 고품질 데이터까지 확보 가능하다.해당 프레임워크는 작업 생성과 성능 검증도 모두 자동화됐다. 이때 생성된 과제 해결 기록은 모델을 미세 조정하거나 개선하는 데 활용된다. 또 MCPeval의 평가 리포트를 통해 에이전트가 플랫폼과 어떻게 소통했는지 세밀하게 분석 가능하다.세일즈포스 AI 리서치 관계자는 "기업들은 내부 업무에 맞게 MCPeval로 자체 평가 기준을 만들 수 있다"며 "에이전트를 도입하기 전 실제 활용 가능성을 미리 점검하는 데 도움 될 것"이라고 밝혔다.같은 날 하정우 대통령비서실 AI미래기획수석비서관도 세일즈포스의 연구 결과를 개인 소셜미디어에 공유했다. 하 수석은 "그동안 다수 파운데이션 모델 능력 평가 벤치마크가 태스크를 해결하는 에이전트로서의 능력보다는 정해진 지식이나 논증적 추론 능력 중심으로 평가하는 형태가 대부분이었다"고 지적했다.하정우 대통령비서실 AI미래기획수석비서관도 세일즈포스의 연구 결과를 개인 소셜미디어에 공유했다. (사진=페이스북 캡처)그러면서 "세일즈포스 프레임워크는 에이전트가 MCP 같은 프로토콜로 다양한 외부 리소스에 접근해 해결한 태스트 결과를 평가한다는 측면에서 훨씬 현실적"이라고 덧붙였다.MCPeval로 모델·에이전트 평가했더니실제 "모델 평가만으론 부족"…기업 에이전트 도입 검증에 실용적 활용 '기대'인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. AI 모델 자체만을 평가하던 벤치마크 한계를 넘어 에이전트의 실질적 성능 분석이 가능한 프레임워크다.20일 IT 업계에 따르면 세일즈포스는 지난 17일 '모델 컨텍스트 프로토콜 기반 평가 프레임워크(MCPeval): MCP 기반의 자동 심층 에이전트 평가' 논문을 통해 에이전트 문제 해결 능력을 자동 검증할 수 있는 새 벤치마크 프레임워크를 오픈소스로 공개했다.MCPeval은 MCP 기반으로 에이전트 성능을 검증한다. 사용자가 가상 업무 환경을 제시하면, 에이전트가 MCP를 이용해 필요한 도구 정보를 받아, 주어진 작업을 직접 수행하는 식이다.인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. (사진=구글 제미나이)이 과정에서 MCPeval은 에이전트의 과제 해결하는 과정을 추적할 수 있다. 프로토콜 상 상호작용 데이터도 체계적으로 수집한다. 이를 통해 에이전트 성능을 평가하는 셈이다. 에이전트 성능 개선에 활용할 수 있는 고품질 데이터까지 확보 가능하다.해당 프레임워크는 작업 생성과 성능 검증도 모두 자동화됐다. 이때 생성된 과제 해결 기록은 모델을 미세 조정하거나 개선하는 데 활용된다. 또 MCPeval의 평가 리포트를 통해 에이전트가 플랫폼과 어떻게 소통했는지 세밀하게 분석 가능하다.세일즈포스 AI 리서치 관계자는 "기업들은 내부 업무에 맞게 MCPeval로 자체 평가 기준을 만들 수 있다"며 "에이전트를 도입하기 전 실제 활용 가능성을 미리 점검하는 데 도움 될 것"이라고 밝혔다.같은 날 하정우 대통령비서실 AI미래기획수석비서관도 세일즈포스의 연구 결과를 개인 소셜미디어에 공유했다. 하 수석은 "그동안 다수 파운데이션 모델 능력 평가 벤치마크가 태스크를 해결하는 에이전트로서의 능력보다는 정해진 지식이나 논증적 추론 능력 중심으로 평가하는 형태가 대부분이었다"고 지적했다.하정우 대통령비서실 AI미래기획수석비서관도 세일즈포스의 연구 결과를 개인 소셜미디어에 공유했다. (사진=페이스북 캡처)그러면서 "세일즈포스 프레임워크는 에이전트가 MCP 같은 프로토콜로 다양한 외부 리소스에 접근해 해결한 태스트 결과를 평가한다는 측면에서 훨씬 현실적"이라고 덧붙였다.MCPeval로 모델·에이전트 평가했더니실제 연구팀은 각 회사 모델과 모델별로 구축된 에이전트 성능을 MCPeval로 평가한 결과를 공개했다.MCPeval의 사용자 인터페이스. (사진=세일즈포스 AI 리서치)실험에서는 오픈AI가 만든 GPT 계열 "모델 평가만으론 부족"…기업 에이전트
List view
카카오톡 상담하기