🚀
大模型 Prefill & Decode 性能测试工具
OpenAI兼容接口
Ollama接口
OpenAI兼容接口测试说明
使用流式响应(stream=true)测量首字延迟
预填充速度 = 提示词长度 / (首字到达时间 - 请求开始时间)
输出速度 = 输出token数 / (输出完成时间 - 首字到达时间)
适用于所有兼容OpenAI API的大模型服务
API 信息
API 地址
模型名称
API-Key
备注
测试参数配置
最小提示词长度
最大提示词长度
步长
期望输出长度
Temperature
Top P
Presence Penalty
Frequency Penalty
执行测试
开始测试
停止测试
复制 Markdown 表格
导出 CSV 数据
等待开始测试...