文本生成

和指定模型对话,模型根据请求给出响应。支持多种模型,流式和非流式输出,可配置采样、温度、最大令牌数等。

POST/v1/chat/completions

授权

Authorizationstringheader必填
HTTP: Bearer Auth
  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。

请求头

Content-Typestring必填

请求体为 JSON,请设置 application/json

请求体application/json

modelstring必填

可用选项:u1-insuremed

messagesarray必填

包含对话历史的消息列表;每条为一条消息对象。

messages[].roleenum<string>

消息角色,取值为 systemuser assistant
  • system:设定模型角色与行为
  • user:用户输入
  • assistant:模型历史回复

messages[].contentstring

该条消息的文本内容。

streamboolean

是否使用流式传输,默认为 `false`。设置为 `true` 后,响应将分批返回

max_completion_tokensinteger

指定生成内容长度的上限(Token 数),上限为 2048。超过上限的内容会被截断。如果生成因 `length` 原因中断,请尝试调高此值

temperaturenumber

温度系数,影响输出随机性,取值范围 (0, 1],模型默认值为 1.0。值越高,输出越随机;值越低,输出越确定

top_pnumber

采样策略,影响输出随机性,取值范围 (0, 1],模型默认值为 0.95

thinkingobject

可选。思维链开关配置对象。

thinking.typeenum<string>

是否开启思维链:enabled 或 disabled(默认 disabled)。

响应体结构

idstring

本次响应的唯一 ID。

objectstring

对象类型:非流式为 chat.completion;流式为 chat.completion.chunk。

createdinteger

响应创建的 Unix 时间戳(秒)。

modelstring

本次请求实际使用的模型 ID。

choicesarray

响应选择列表。非流式含完整 message;流式分片含 delta 增量字段。

choices[].indexinteger

选项索引,从 0 开始。

choices[].finish_reasonstring | null

生成结束原因:stop(自然结束)、length(达到 max_completion_tokens 上限)。流式未完成时可为 null。

choices[].message.rolestring

非流式。角色,恒为 assistant。

choices[].message.contentstring

非流式。模型完整回复文本。

choices[].delta.rolestring

流式。增量中的角色,可能出现且恒为 assistant。

choices[].delta.contentstring

流式。增量文本片段。

usageobject

本次请求的 Token 使用情况统计。

usage.prompt_tokensinteger

用户输入(提示)的 Token 数量。

usage.completion_tokensinteger

模型输出的 Token 数量。

usage.total_tokensinteger

消耗的总 Token 数量。