{"componentChunkName":"component---src-templates-acg-portal-new-template-tsx","path":"/Om1kotkki","result":{"data":{"markdownRemark":{"html":"<h1 id=\"推理服务性能压测\"><a href=\"#%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E6%80%A7%E8%83%BD%E5%8E%8B%E6%B5%8B\" aria-label=\"推理服务性能压测 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>推理服务性能压测</h1>\n<h2 id=\"概述\"><a href=\"#%E6%A6%82%E8%BF%B0\" aria-label=\"概述 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>概述</h2>\n<p>本文档介绍如何在百舸平台对已部署的在线推理服务进行性能压测，包括创建压测任务、管理压测任务、查看压测详情与结果报表，以及实时监控压测过程中的性能指标变化趋势。</p>\n<p>性能压测功能面向在线推理服务上线前的性能评估场景，通过模拟不同负载下的并发请求，帮助用户发现服务性能瓶颈、评估服务承载能力并保障 SLA。当前版本仅支持对标准服务中的 LLM 和 VLM 模型进行性能压测。</p>\n<h2 id=\"前提条件\"><a href=\"#%E5%89%8D%E6%8F%90%E6%9D%A1%E4%BB%B6\" aria-label=\"前提条件 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>前提条件</h2>\n<ul>\n<li>已在百舸平台完成标准服务的创建，且目标服务处于<strong>运行中</strong>状态。</li>\n<li>平台提供公共数据集，若需使用自定义数据集，相关数据文件已上传至 BOS，记录具体文件路径。</li>\n</ul>\n<h2 id=\"创建压测任务\"><a href=\"#%E5%88%9B%E5%BB%BA%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1\" aria-label=\"创建压测任务 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>创建压测任务</h2>\n<h3 id=\"步骤-1：进入性能压测-tab\"><a href=\"#%E6%AD%A5%E9%AA%A4-1%EF%BC%9A%E8%BF%9B%E5%85%A5%E6%80%A7%E8%83%BD%E5%8E%8B%E6%B5%8B-tab\" aria-label=\"步骤 1：进入性能压测 tab permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 1：进入性能压测 Tab</h3>\n<p>登录百舸控制台，在导航栏依次选择 <strong>大规模训练与推理 -> 在线服务部署</strong>，进入「在线服务部署」页面。在顶部切换栏选择<strong>在线服务</strong>。</p>\n<p>在服务列表中找到目标标准服务（服务状态须为「运行中」），点击该服务的<strong>服务名称</strong>，进入服务详情页。在服务详情页顶部 Tab 栏中点击 <strong>【性能压测】</strong> Tab，进入压测任务列表。</p>\n<p><img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E6%A0%87%E5%87%86%E6%9C%8D%E5%8A%A1%E5%88%97%E8%A1%A8%E9%A1%B5_2b0e472.png\" alt=\"标准服务列表页.png\">\n<img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%8E%8B%E6%B5%8B%E5%8A%9F%E8%83%BD%E9%A1%B5_3d44ed3.png\" alt=\"压测功能页.png\"></p>\n<blockquote>\n<p><strong>说明：</strong> 仅「运行中」状态的服务支持创建压测任务。若当前无可用服务，需先通过 <strong>【部署服务】</strong> 完成服务创建，并等待其进入运行中状态。</p>\n</blockquote>\n<hr>\n<h3 id=\"步骤-2：创建压测任务\"><a href=\"#%E6%AD%A5%E9%AA%A4-2%EF%BC%9A%E5%88%9B%E5%BB%BA%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1\" aria-label=\"步骤 2：创建压测任务 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 2：创建压测任务</h3>\n<p>进入「性能压测」Tab 后，点击 <strong>【创建压测任务】</strong> 按钮，弹出创建表单。</p>\n<blockquote>\n<p><strong>说明：</strong> 若目标服务不处于运行中状态，<strong>【创建压测任务】</strong> 按钮置灰不可点击，鼠标悬停时提示\"仅支持对运行中的服务进行压测\"。</p>\n</blockquote>\n<hr>\n<h3 id=\"步骤-3：填写基本信息\"><a href=\"#%E6%AD%A5%E9%AA%A4-3%EF%BC%9A%E5%A1%AB%E5%86%99%E5%9F%BA%E6%9C%AC%E4%BF%A1%E6%81%AF\" aria-label=\"步骤 3：填写基本信息 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 3：填写基本信息</h3>\n<p>在创建表单的「基本信息」区域，依次填写以下字段：</p>\n<table>\n<thead>\n<tr>\n<th>参数</th>\n<th>必填</th>\n<th>说明</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td><strong>压测任务名称</strong></td>\n<td>是</td>\n<td>支持小写字母、数字及 <code>-</code>，须以小写字母开头，以小写字母或数字结尾；同一服务下不可重名</td>\n</tr>\n<tr>\n<td><strong>资源规格</strong></td>\n<td>是</td>\n<td>选择资源池/队列（支持跨资源池），填写所需 CPU（核数）与内存（GB）；该资源在资源统计视图中归属「训练任务」类型</td>\n</tr>\n<tr>\n<td><strong>模型类型</strong></td>\n<td>是</td>\n<td>可选 <strong>LLM</strong>或 <strong>VLM</strong>；不同类型对应不同的预置数据集和压测方法</td>\n</tr>\n<tr>\n<td><strong>模型 ID</strong></td>\n<td>是</td>\n<td>目前仅支持从<strong>魔搭</strong> 加载 Tokenizer，最多 200 字符，支持大小写字母、数字及特殊字符</td>\n</tr>\n<tr>\n<td><strong>模型名称</strong></td>\n<td>是</td>\n<td>即压测请求参数中的 <code>model name</code> 字段值，最多 100 字符，支持大小写字母、数字及特殊字符</td>\n</tr>\n</tbody>\n</table>\n<hr>\n<h3 id=\"步骤-4：压测配置\"><a href=\"#%E6%AD%A5%E9%AA%A4-4%EF%BC%9A%E5%8E%8B%E6%B5%8B%E9%85%8D%E7%BD%AE\" aria-label=\"步骤 4：压测配置 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 4：压测配置</h3>\n<p>在「压测配置」区域的「压测地址」部分，依次完成以下配置：</p>\n<ol>\n<li><strong>端口号</strong>：若目标服务配置了多个端口，在下拉列表中选择需要压测的端口号。</li>\n<li>\n<p><strong>URL 类型</strong>：选择<strong>内网地址</strong>或<strong>公网地址</strong>。</p>\n<ul>\n<li>压测工具与服务跨 VPC 部署时，只能选择公网地址。</li>\n<li>选择公网地址（BLB 接入服务）时，需为任务所属资源池配置 NAT 网关，并在 BLB 实例安全组入站规则中放行 NAT 网关关联的公网 IP。</li>\n<li>选择公网地址（云原生 AI 网关接入服务）时，同样需为任务所属资源池配置 NAT 网关。</li>\n</ul>\n</li>\n<li><strong>接口</strong>：选择压测接口，支持 <code>/v1/chat/completions</code>（Chat 接口）和 <code>/v1/completions</code>（Completions 接口）。</li>\n</ol>\n<blockquote>\n<p><strong>说明：</strong> 与推理服务所在资源池同一个vpc下的资源池部署压测任务可以选择外网和内网。与推理服务所在资源池不在同一个vpc下的资源池部署压测任务只能选择外网</p>\n</blockquote>\n<p>同vpc\n<img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%90%8Cvpc_5a7ef2b.png\" alt=\"同vpc.png\"></p>\n<p>不同vpc\n<img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E4%B8%8D%E5%90%8Cvpc_d4a7b31.png\" alt=\"不同vpc.png\"></p>\n<hr>\n<h3 id=\"步骤-5：配置压测数据集\"><a href=\"#%E6%AD%A5%E9%AA%A4-5%EF%BC%9A%E9%85%8D%E7%BD%AE%E5%8E%8B%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86\" aria-label=\"步骤 5：配置压测数据集 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 5：配置压测数据集</h3>\n<p>在「压测数据集」区域选择数据集类型（必填，默认「公共数据集」）：</p>\n<p><strong>公共数据集：</strong></p>\n<ul>\n<li>模型类型为 LLM 时，默认预置 <strong>ShareGPT_V3</strong>（默认格式 openqa）。</li>\n<li>模型类型为 VLM 时，默认预置 <strong>flickr8k</strong>。</li>\n</ul>\n<p><strong>自定义数据集（仅 LLM 支持）：</strong></p>\n<ol>\n<li>选择存储类型：<strong>BOS</strong>。</li>\n<li>选择 Bucket，填写具体文件的存储路径。</li>\n<li>\n<p>选择<strong>数据集格式</strong>：</p>\n<ul>\n<li><strong>openqa</strong>：问答对格式。</li>\n<li><strong>line_by_line</strong>：逐行格式。</li>\n</ul>\n</li>\n</ol>\n<blockquote>\n<p><strong>说明：</strong> VLM 模型不支持自定义数据集，仅可使用平台预置数据集。</p>\n</blockquote>\n<hr>\n<h3 id=\"步骤-6：配置其他压测参数\"><a href=\"#%E6%AD%A5%E9%AA%A4-6%EF%BC%9A%E9%85%8D%E7%BD%AE%E5%85%B6%E4%BB%96%E5%8E%8B%E6%B5%8B%E5%8F%82%E6%95%B0\" aria-label=\"步骤 6：配置其他压测参数 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 6：配置其他压测参数</h3>\n<p>继续填写以下压测参数：</p>\n<table>\n<thead>\n<tr>\n<th>参数</th>\n<th>必填</th>\n<th>说明</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td><strong>API Key</strong></td>\n<td>否</td>\n<td>压测调用服务的鉴权 Token；服务已开启平台鉴权时无需填写；使用云原生网关接入时会自动填入网关 Token</td>\n</tr>\n<tr>\n<td><strong>上下文长度</strong></td>\n<td>否</td>\n<td>控制输入/输出 Token 的上下限，填写最小/最大输入输出长度，范围 1–10,000,000</td>\n</tr>\n<tr>\n<td><strong>单个请求样本数</strong></td>\n<td>是</td>\n<td>每轮请求携带的样本数；总请求样本数 = 单个请求样本数 × 并发数</td>\n</tr>\n<tr>\n<td><strong>起始并发数</strong></td>\n<td>是</td>\n<td>压测起始阶段的并发请求数，取值范围 1–50</td>\n</tr>\n<tr>\n<td><strong>最大并发数</strong></td>\n<td>是</td>\n<td>压测允许达到的最大并发请求数，取值范围 1–50</td>\n</tr>\n<tr>\n<td><strong>每阶段增加并发数</strong></td>\n<td>是</td>\n<td>每个压测阶段递增的并发数，取值范围 1–50</td>\n</tr>\n<tr>\n<td><strong>Header</strong></td>\n<td>否</td>\n<td>自定义 HTTP 请求头，最多可添加 20 个</td>\n</tr>\n</tbody>\n</table>\n<hr>\n<h3 id=\"步骤-7：提交创建\"><a href=\"#%E6%AD%A5%E9%AA%A4-7%EF%BC%9A%E6%8F%90%E4%BA%A4%E5%88%9B%E5%BB%BA\" aria-label=\"步骤 7：提交创建 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>步骤 7：提交创建</h3>\n<p>确认所有参数填写无误后，点击 <strong>【确认】</strong> 按钮，完成压测任务创建。任务创建成功后，将出现在「性能压测」Tab 的任务列表中，初始状态为「创建中」或「排队中」。</p>\n<hr>\n<h2 id=\"管理压测任务\"><a href=\"#%E7%AE%A1%E7%90%86%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1\" aria-label=\"管理压测任务 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>管理压测任务</h2>\n<h3 id=\"查看压测任务列表\"><a href=\"#%E6%9F%A5%E7%9C%8B%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1%E5%88%97%E8%A1%A8\" aria-label=\"查看压测任务列表 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>查看压测任务列表</h3>\n<p>在导航栏依次点击 <strong>大规模训练与推理 -> 在线服务部署</strong>，进入标准服务列表，点击目标服务的服务名称，进入服务详情页，点击顶部 Tab 栏中的 <strong>【性能压测】</strong> Tab。</p>\n<p>页面展示压测任务列表，包含以下字段：</p>\n<table>\n<thead>\n<tr>\n<th>字段</th>\n<th>说明</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td><strong>压测任务名称/ID</strong></td>\n<td>任务标识，同一服务内唯一</td>\n</tr>\n<tr>\n<td><strong>状态</strong></td>\n<td>排队中 / 创建中 / 创建失败 / 压测中 / 停止中 / 已停止 / 已完成 / 失败</td>\n</tr>\n<tr>\n<td><strong>模型类型</strong></td>\n<td>LLM 或 VLM</td>\n</tr>\n<tr>\n<td><strong>模型 ID</strong></td>\n<td>加载 Tokenizer 所使用的模型 ID</td>\n</tr>\n<tr>\n<td><strong>资源池名称/ID</strong></td>\n<td>运行该压测任务所使用的资源池</td>\n</tr>\n<tr>\n<td><strong>队列名称/ID</strong></td>\n<td>所属资源队列</td>\n</tr>\n<tr>\n<td><strong>资源规格</strong></td>\n<td>CPU/内存规格</td>\n</tr>\n<tr>\n<td><strong>创建时间</strong></td>\n<td>任务创建时间</td>\n</tr>\n<tr>\n<td><strong>操作</strong></td>\n<td>复制 / 停止（压测中状态）/ 删除（终态）</td>\n</tr>\n</tbody>\n</table>\n<p><img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%8E%8B%E6%B5%8B%E5%88%97%E8%A1%A8_161ab97.png\" alt=\"压测列表.png\"></p>\n<hr>\n<h3 id=\"复制压测任务\"><a href=\"#%E5%A4%8D%E5%88%B6%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1\" aria-label=\"复制压测任务 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>复制压测任务</h3>\n<p>在压测任务列表中，找到需要复制的目标任务，点击操作列中的 <strong>【复制】</strong>。</p>\n<p>页面跳转至创建压测任务表单，并自动填充被复制任务的全部参数（任务名称、资源规格、模型类型、模型 ID、压测配置等）。按需修改参数后，点击 <strong>【提交】</strong> 即完成新任务的创建。</p>\n<p><img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%A4%8D%E5%88%B6%E5%8E%8B%E6%B5%8B_c4bf61c.png\" alt=\"复制压测.png\"></p>\n<hr>\n<h3 id=\"停止压测任务\"><a href=\"#%E5%81%9C%E6%AD%A2%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1\" aria-label=\"停止压测任务 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>停止压测任务</h3>\n<p>在压测任务列表中，找到状态为「压测中」的任务，点击操作列中的 <strong>【停止】</strong>。</p>\n<p>弹出二次确认弹窗，确认后任务状态切换为「停止中」，稍后变更为「已停止」，压测工具 Pod 随之释放资源。</p>\n<div style=\"background-color: #FDF2E4;white-space: pre-wrap;padding-left:8px;padding-right:8px;margin-bottom:5px\"><font style=\"font-weight:bold\">注意：</font>停止操作不可逆，当前压测进度将中止，但已产出的压测结果数据不会被删除。</div>\n<p><img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%81%9C%E6%AD%A2%E5%8E%8B%E6%B5%8B%E7%A1%AE%E8%AE%A4%E5%BC%B9%E7%AA%97_fb8078d.png\" alt=\"停止压测确认弹窗.png\"></p>\n<hr>\n<h3 id=\"删除压测任务\"><a href=\"#%E5%88%A0%E9%99%A4%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1\" aria-label=\"删除压测任务 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>删除压测任务</h3>\n<p><strong>终态任务（创建失败 / 失败 / 已停止 / 已完成）：</strong> 在对应任务行点击操作列中的 <strong>【删除】</strong>，弹出二次确认弹窗，确认后完成删除。</p>\n<p><strong>压测中状态任务：</strong> 须先执行步骤 3「停止」操作，待任务进入「已停止」终态后，再执行删除。</p>\n<p><strong>删除服务时的联动说明：</strong> 若服务下仍存在执行中的压测任务，删除服务时会弹窗提示\"有压测任务正在执行，删除后将停止压测并删除任务和测试结果\"，确认后平台同步停止并删除所有关联压测任务。</p>\n<div style=\"background-color: #FDF2E4;white-space: pre-wrap;padding-left:8px;padding-right:8px;margin-bottom:5px\"><font style=\"font-weight:bold\">注意：</font>压测任务删除后结果数据不可恢复，请在删除前确认已记录或保存所需压测结果。</div>\n<p><img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%88%A0%E9%99%A4%E5%8E%8B%E6%B5%8B%E7%A1%AE%E8%AE%A4%E5%BC%B9%E7%AA%97_d640f80.png\" alt=\"删除压测确认弹窗.png\"></p>\n<hr>\n<h3 id=\"查看压测任务详情\"><a href=\"#%E6%9F%A5%E7%9C%8B%E5%8E%8B%E6%B5%8B%E4%BB%BB%E5%8A%A1%E8%AF%A6%E6%83%85\" aria-label=\"查看压测任务详情 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>查看压测任务详情</h3>\n<p>详情面板默认展示<strong>基本信息</strong>区块，内容分三个部分：</p>\n<ul>\n<li><strong>基本信息：</strong> 压测任务名称、资源规格、模型类型、模型 ID、模型名称。</li>\n<li>\n<p><strong>压测配置：</strong></p>\n<ul>\n<li><strong>压测地址：</strong> 服务推理接口完整 URL（含协议、主机、端口、API 路径）。</li>\n<li><strong>压测结果存储路径：</strong> BOS 格式路径（如 <code>bos://&#x3C;bucket>/&#x3C;prefix>/</code>），压测完成后结果文件存储于此。</li>\n<li><strong>压测数据集：</strong> 数据集类型（公共数据集 / 自定义数据集）及数据来源路径。</li>\n<li><strong>API Key：</strong> 调用压测服务时使用的认证密钥。</li>\n<li><strong>上下文长度：</strong> 输入/输出的最小和最大 Token 数范围。</li>\n<li><strong>并发数：</strong> 起始并发数、每阶段增加并发数、最大并发数。</li>\n<li><strong>单个请求样本数：</strong> 每次请求携带的样本数量。</li>\n</ul>\n</li>\n<li><strong>关联任务：</strong> 与该压测任务关联的训练任务名称，点击可跳转至对应训练任务详情。</li>\n</ul>\n<p><img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E6%93%8D%E4%BD%9C%E4%B8%AD_a551cdb.png\" alt=\"操作中.png\"></p>\n<hr>\n<h2 id=\"查看压测结果\"><a href=\"#%E6%9F%A5%E7%9C%8B%E5%8E%8B%E6%B5%8B%E7%BB%93%E6%9E%9C\" aria-label=\"查看压测结果 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>查看压测结果</h2>\n<p>点击压测完成的任务详情可以查看<strong>压测结果</strong>，表格按不同并发数阶段分行展示以下性能指标：</p>\n<table>\n<thead>\n<tr>\n<th>指标列名</th>\n<th>说明</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td><strong>Average input tokens per request</strong></td>\n<td>平均输入 token 数/请求</td>\n</tr>\n<tr>\n<td><strong>Average inter-token latency</strong></td>\n<td>平均 token 间延迟（秒）</td>\n</tr>\n<tr>\n<td><strong>Average latency</strong></td>\n<td>平均延迟（秒）</td>\n</tr>\n<tr>\n<td><strong>Average output tokens per request</strong></td>\n<td>平均输出 token 数/请求</td>\n</tr>\n<tr>\n<td><strong>Average time per output token</strong></td>\n<td>平均每个输出 token 耗时（秒）</td>\n</tr>\n<tr>\n<td><strong>Average time to first token</strong></td>\n<td>首 token 平均响应时间（秒）</td>\n</tr>\n<tr>\n<td><strong>Failed requests</strong></td>\n<td>平失败请求数</td>\n</tr>\n<tr>\n<td><strong>Number of concurrency</strong></td>\n<td>并发数</td>\n</tr>\n<tr>\n<td><strong>Output token throughput</strong></td>\n<td>输出 token 吞吐量（tok/s）</td>\n</tr>\n<tr>\n<td><strong>Request throughput</strong></td>\n<td>请求吞吐量（req/s）</td>\n</tr>\n<tr>\n<td><strong>Succeed requests</strong></td>\n<td>成功请求数</td>\n</tr>\n<tr>\n<td><strong>Time taken for tests</strong></td>\n<td>测试总耗时（秒）</td>\n</tr>\n<tr>\n<td><strong>Total requests</strong></td>\n<td>总请求数</td>\n</tr>\n<tr>\n<td><strong>Total token throughput</strong></td>\n<td>总 token 吞吐量（tok/s）｜</td>\n</tr>\n</tbody>\n</table>\n<hr>\n<h2 id=\"下载压测报告\"><a href=\"#%E4%B8%8B%E8%BD%BD%E5%8E%8B%E6%B5%8B%E6%8A%A5%E5%91%8A\" aria-label=\"下载压测报告 permalink\" class=\"anchor\"><svg aria-hidden=\"true\" focusable=\"false\" height=\"16\" version=\"1.1\" viewBox=\"0 0 16 16\" width=\"16\"><path fill-rule=\"evenodd\" d=\"M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z\"></path></svg></a>下载压测报告</h2>\n<p>压测结果已存储在平台提供公共BOS中，您可以在压测任务详情中查看BOS地址，下载压测报告文件。路径以 <code>bos://</code> 开头。点击路径右侧的复制图标，可将完整 BOS 路径复制到剪贴板。\n<img src=\"https://bce.bdstatic.com/doc/bce-doc/AIHC/%E5%8E%8B%E6%B5%8B%E6%8A%A5%E5%91%8A%E4%B8%8B%E8%BD%BD%E5%9C%B0%E5%9D%80_ea83316.png\" alt=\"压测报告下载地址.png\"></p>","fields":{"slug":"Om1kotkki","title":"服务性能压测","date":"2026-05-09","extractedHeadings":[]},"headings":[{"value":"推理服务性能压测","depth":1},{"value":"概述","depth":2},{"value":"前提条件","depth":2},{"value":"创建压测任务","depth":2},{"value":"步骤 1：进入性能压测 Tab","depth":3},{"value":"步骤 2：创建压测任务","depth":3},{"value":"步骤 3：填写基本信息","depth":3},{"value":"步骤 4：压测配置","depth":3},{"value":"步骤 5：配置压测数据集","depth":3},{"value":"步骤 6：配置其他压测参数","depth":3},{"value":"步骤 7：提交创建","depth":3},{"value":"管理压测任务","depth":2},{"value":"查看压测任务列表","depth":3},{"value":"复制压测任务","depth":3},{"value":"停止压测任务","depth":3},{"value":"删除压测任务","depth":3},{"value":"查看压测任务详情","depth":3},{"value":"查看压测结果","depth":2},{"value":"下载压测报告","depth":2}]}},"pageContext":{"isCreatedByStatefulCreatePages":false,"slug":"Om1kotkki","prev":{"id":"Ilwyd20cv","name":"推理参数说明","path":"Ilwyd20cv","filePath":"操作指南/在线服务部署/推理参数说明.md","seo":null,"parentIds":["ilib2qygp","Olkt21sv7"],"parents":[{"id":"ilib2qygp","documentId":"bfa43a8b-968a-41a1-8c9d-906507eeaed9","name":"操作指南","repoName":"AIHC","filePath":"操作指南","disabled":false,"path":"ilib2qygp","lastMergeTime":null,"isApiDoc":null,"httpMethod":null,"seo":null,"sourceOrgName":null,"sourceRepoName":null,"sourceDocumentId":null},{"id":"Olkt21sv7","documentId":"af2e9368-6400-4d7e-925f-fa5f2ca2e322","name":"在线服务部署","repoName":"AIHC","filePath":"操作指南/在线服务部署","disabled":false,"path":"Olkt21sv7","lastMergeTime":null,"isApiDoc":null,"httpMethod":null,"seo":null,"sourceOrgName":null,"sourceRepoName":null,"sourceDocumentId":null}]},"next":{"id":"Hmovavu93","name":"在线调试","path":"Hmovavu93","filePath":"操作指南/在线服务部署/在线调试.md","seo":null,"parentIds":["ilib2qygp","Olkt21sv7"],"parents":[{"id":"ilib2qygp","documentId":"bfa43a8b-968a-41a1-8c9d-906507eeaed9","name":"操作指南","repoName":"AIHC","filePath":"操作指南","disabled":false,"path":"ilib2qygp","lastMergeTime":null,"isApiDoc":null,"httpMethod":null,"seo":null,"sourceOrgName":null,"sourceRepoName":null,"sourceDocumentId":null},{"id":"Olkt21sv7","documentId":"af2e9368-6400-4d7e-925f-fa5f2ca2e322","name":"在线服务部署","repoName":"AIHC","filePath":"操作指南/在线服务部署","disabled":false,"path":"Olkt21sv7","lastMergeTime":null,"isApiDoc":null,"httpMethod":null,"seo":null,"sourceOrgName":null,"sourceRepoName":null,"sourceDocumentId":null}]},"parents":[{"id":"ilib2qygp","documentId":"bfa43a8b-968a-41a1-8c9d-906507eeaed9","name":"操作指南","repoName":"AIHC","filePath":"操作指南","disabled":false,"path":"ilib2qygp","lastMergeTime":null,"isApiDoc":null,"httpMethod":null,"seo":null,"sourceOrgName":null,"sourceRepoName":null,"sourceDocumentId":null},{"id":"Olkt21sv7","documentId":"af2e9368-6400-4d7e-925f-fa5f2ca2e322","name":"在线服务部署","repoName":"AIHC","filePath":"操作指南/在线服务部署","disabled":false,"path":"Olkt21sv7","lastMergeTime":null,"isApiDoc":null,"httpMethod":null,"seo":null,"sourceOrgName":null,"sourceRepoName":null,"sourceDocumentId":null}],"specificSeo":null}}}