异步文档解析

平台提供异步文档解析 API,适用于合同、财务报表、病历、发票等文档的内容解析。

  1. 支持 JPG、PNG、PDF 等格式
  2. 支持输出标准 Markdown 和 JSON 结构

使用流程

  1. 先调用 文件上传 API 上传待处理文档并获取 file_id
  2. 调用 创建异步文档解析任务 API,获取 task_id
  3. 调用 查询文档解析任务状态 API,基于 task_id 获取文档解析任务进度
  4. 当任务完成时,会返回 Markdown 和 JSON 结构的解析结果

过程示例

1. 获取 file_id

Python
"""
本示例用于获取待处理文档的 file_id。注意:需要先将密钥信息写入环境变量 `API_KEY`。
"""
import requests
import os

api_key = os.environ.get("API_KEY")
url = "https://maas-api.hivoice.cn/v1/files/upload"


payload = {'purpose': 'ocr_async_input'}
files=[
('file',('test.pdf',open('path/to/test.pdf','rb'),'application/pdf'))
]
headers = {
'authority': 'maas-api.hivoice.cn',
'Authorization': f'Bearer {api_key}'
}


response = requests.request("POST", url, headers=headers, data=payload, files=files)


print(response.text)




2. 创建文档解析任务

Python
"""
本示例用于创建文档解析任务。注意:需要先将密钥信息写入环境变量 `API_KEY`。
"""
import requests
import json
import os

api_key = os.environ.get("API_KEY")
url = "https://maas-api.hivoice.cn/v1/files/parser/tasks"


payload = json.dumps({
"model": "u1-ocr",
"file_id": <file_id>
})
headers = {
'Authorization': f'Bearer {api_key}',
'Content-Type': 'application/json'
}


response = requests.request("POST", url, headers=headers, data=payload)


print(response.text)




3. 查询文档解析进度

Python
"""
本示例用于查询文档解析进度。注意:需要先将密钥信息写入环境变量 `API_KEY`,并将需要查询任务的 id 写入环境变量 `TASK_ID`。
"""
import requests
import json
import os

task_id = os.environ.get("TASK_ID")
api_key = os.environ.get("API_KEY")
url = "https://maas-api.hivoice.cn/v1/files/parser/tasks/{task_id}"


payload = {}
headers = {
'Authorization': 'Bearer {api_key}',
'content-type': 'application/json',
}


response = requests.request("GET", url, headers=headers, data=payload)


print(response.text)