文本生成
和指定模型对话,模型根据请求给出响应。支持多种模型,流式和非流式输出,可配置采样、温度、最大令牌数等。
POST/v1/chat/completions
授权
Authorizationstringheader必填
HTTP: Bearer Auth
- Security Scheme Type: http
- HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。
请求头
Content-Typestring必填
请求体为 JSON,请设置 application/json。
请求体application/json
modelstring必填
可用选项:u1-insuremed。
messagesarray必填
包含对话历史的消息列表;每条为一条消息对象。
messages[].roleenum<string>
消息角色,取值为 system、user 或 assistant:
- system:设定模型角色与行为
- user:用户输入
- assistant:模型历史回复
messages[].contentstring
该条消息的文本内容。
streamboolean
是否使用流式传输,默认为 `false`。设置为 `true` 后,响应将分批返回
max_completion_tokensinteger
指定生成内容长度的上限(Token 数),上限为 2048。超过上限的内容会被截断。如果生成因 `length` 原因中断,请尝试调高此值
temperaturenumber
温度系数,影响输出随机性,取值范围 (0, 1],模型默认值为 1.0。值越高,输出越随机;值越低,输出越确定
top_pnumber
采样策略,影响输出随机性,取值范围 (0, 1],模型默认值为 0.95
thinkingobject
可选。思维链开关配置对象。
thinking.typeenum<string>
是否开启思维链:enabled 或 disabled(默认 disabled)。
响应体结构
idstring
本次响应的唯一 ID。
objectstring
对象类型:非流式为 chat.completion;流式为 chat.completion.chunk。
createdinteger
响应创建的 Unix 时间戳(秒)。
modelstring
本次请求实际使用的模型 ID。
choicesarray
响应选择列表。非流式含完整 message;流式分片含 delta 增量字段。
choices[].indexinteger
选项索引,从 0 开始。
choices[].finish_reasonstring | null
生成结束原因:stop(自然结束)、length(达到 max_completion_tokens 上限)。流式未完成时可为 null。
choices[].message.rolestring
非流式。角色,恒为 assistant。
choices[].message.contentstring
非流式。模型完整回复文本。
choices[].delta.rolestring
流式。增量中的角色,可能出现且恒为 assistant。
choices[].delta.contentstring
流式。增量文本片段。
usageobject
本次请求的 Token 使用情况统计。
usage.prompt_tokensinteger
用户输入(提示)的 Token 数量。
usage.completion_tokensinteger
模型输出的 Token 数量。
usage.total_tokensinteger
消耗的总 Token 数量。