Phoenix 是 Arize 推出的开源机器学习可观测与评估工具,专为在 Notebook 环境中工作的开发者与数据科学家打造。它聚焦现代 AI 技术栈,帮助你在一个统一界面中监控、诊断并持续优化大语言模型(LLM)、计算机视觉模型以及传统表格类模型。通过与 Jupyter、VS Code 等 Python 环境无缝集成,你无需离开熟悉的开发工作流,就能对模型进行埋点、数据探索和质量分析。 Phoenix 将调用链路、预测结果、向量嵌入与元数据统一到一个交互式工作台中,方便你发现数据漂移、定位失败模式,并从不同切片理解模型表现。针对 LLM,Phoenix 提供从提示词到回复与工具调用的评估能力,覆盖质量、安全性与幻觉(Hallucination)等关键维度;针对 CV 与表格模型,则提供丰富的可视化与指标,帮助识别分布变化、标签泄漏或特定人群表现欠佳等问题。 作为开源项目,Phoenix 能自然融入现有 MLOps 体系,可嵌入 CI/CD 流水线、实验追踪与线上监控。团队可以共享看板、对比模型版本,并在上线前后进行多种 What-if 分析。无论是构建全新的 LLM 应用,还是维护成熟推荐系统,Phoenix 都能为你提供统一、贴近开发者体验的模型可观测与优化能力。
在 Notebook 中实时监控基于大模型的应用,跟踪回复质量、延迟与失败模式,支撑快速迭代与回归分析。
分析线上计算机视觉或表格模型的数据漂移,识别表现下降的关键特征与用户群体,指导重训与数据清洗。
在上线前对比不同模型或提示词版本,通过统一指标与可视化评估收益,降低发布新版本的风险。
排查大模型幻觉、不安全输出或工具调用异常,借助调用链路与跨度级别日志精准定位问题根因。
构建可复现的评估流水线,将 Phoenix 融入 CI/CD,使每次模型发布都能自动完成质量与安全检查。