🚀 大模型 Prefill & Decode 性能测试工具

OpenAI兼容接口

Ollama接口

OpenAI兼容接口测试说明

使用流式响应(stream=true)测量首字延迟
预填充速度 = 提示词长度 / (首字到达时间 - 请求开始时间)
输出速度 = 输出token数 / (输出完成时间 - 首字到达时间)
适用于所有兼容OpenAI API的大模型服务

API 信息

API 地址

模型名称

API-Key

备注

测试参数配置

最小提示词长度

最大提示词长度

步长

期望输出长度

Temperature

Top P

Presence Penalty

Frequency Penalty

执行测试

等待开始测试...