跳到主要内容

3 篇文档带有标签「评估」

Agent 评估和测试框架

查看所有标签

Bloom: Seed-driven 自适应行为评估

范围：Bloom 框架的评估概念、设计思路、与 Agent Harness 的关系以及可复现性权衡

Opik 与 Bloom 的有机融合方案

范围：本文档探讨了开源 LLM 观测平台 Opik 与多智能体后门攻击研究框架 Bloom 结合的技术路径与价值。

生产级 Trace 与可定制 Eval 方案 - Langfuse

范围：本文档深入分析 Langfuse 作为 LLM 工程平台的核心能力，重点探讨其相比其他评估工具（如 Opik）的灵活性优势。