요즘 개인용 음악 추천 챗봇을 계속 디벨롭하는 중인데 agent를 넣으려고 하고 있다.
그러다가 문득, RAG처럼 tool을 제대로 쓰고 있는지 특히 검색이면 쿼리랑 잘 맞게 가져오는지 평가해야 하지 않아 싶어서 에이전트의 성능 평가에 대해서 찾아서 정리해 보았다.
Agent Evaluations
AgentOps 한국 파이토치: 링크
IBM Watson 에이전트 AI 평가: 링크
Agents Companion (2): 에이전트를 평가하기, Agent Evaluation 블로그: 링크
Agent Benchmark의 비용을 다룬 AI 타임즈 기사: 링크
LLM의 function calling
LLM의 function calling은 곧 tool의 사용이며 이는 곧 에이전트와 관련된 내용으로 이어진다.
OpenAI API가 아니라 다른 모델로 불러오기 위해서는 학습을 해야하는데 데이터가 필요하다.
glaiveai/glaive-function-calling-v2 데이터: 링크
Qwen 2.5의 Function Calling Templates: 링크
Function Calling과 Code Orchestration과 관련된 GeekNews 글: 링크
'AI Codes > LangChain & MCP & Agent' 카테고리의 다른 글
Multi Agent와 ReAct 관련 글 모음 (0) | 2025.05.28 |
---|---|
Streamlit으로 음악 추천을 위한 챗봇 구현 (2) | 2025.05.16 |
Chainlit 리서치 및 튜토리얼 적용 결과 (3) | 2025.05.14 |
LLM으로 테이블과 차트 생성 (2) | 2025.05.08 |
금융 PDF에서 Figure와 Table 추출하기 (0) | 2025.05.02 |