PDF转Word工具使用指南

注意：在学习使用不同函数之前，建议先阅读请求描述，了解基本的PDF处理流程。使用不同函数时，可以在上传文件时设置各自特殊的参数。其他基本步骤一致。

PDF 转 Word：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "1,2,3-5",
  "pageLayoutMode": "e_Flow",
  "formulaToImage": 1,
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0,
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

AUTO: 自动，CHINESE: 中文简体，CHINESE_TRAD: 中文繁体，ENGLISH: 英语，KOREAN: 韩语，JAPANESE: 日语，LATIN: 拉丁语，DEVANAGARI: 梵文，CYRILLIC: 西里尔语，ARABIC: 阿拉伯语，TAMIL: 泰米尔语，TELUGU: 泰卢固语，KANNADA: 卡纳达语，THAI：泰语，GREEK：希腊语，ESLAV：eslav语系；默认 AUTO。

pageRanges：指定页码转换，从1开始。默认空。

pageLayoutMode：指定布局模式。e_Box：适用于PDF页面流排; e_Flow：适用于PDF框排。默认 e_Flow。

排版差异说明：

Word 的流式布局非常适合编辑，内容会随着您的编辑动态调整到不同的位置。然而，由于不同软件或应用程序版本的不兼容，Word 文件的显示会有所不同。这使得它不适合电子文件或证书等精密文档。

PDF 的固定页面布局：确保在所有设备上呈现稳定、统一的外观和打印质量。内容和格式在创建时即被锁定，因此修改起来非常困难，而且不会影响整体布局。它非常适合用于商业报告和官方电子记录等正式文档。

formulaToImage：是否将公式转换为图片（0：不启用；1：启用）。默认 0，开了保存为图片，不开保存为文本，复杂公式建议保存为图片。

ocrOption：OCR识别范围，支持的类型和定义：

INVALID_CHARACTER：识别 PDF 文档中的非法字符； SCAN_PAGE：识别 PDF 文档中的扫描页面； INVALID_CHARACTERAND_SCAN_PAGE：识别 PDF 文档中的非法字符和扫描页面； ALL：识别所有页面上的所有字符；默认 ALL。

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

containPageBackgroundImage：转换时是否包含页面背景图像，仅使用OCR时生效(0: 不开启；1: 开启)。默认 1。

请求示例：

您需要将 apiKey 替换为您从控制台获取的 publicKey，将 file 替换为您要转换的文件，language 替换为您想要的接口错误提示语言类型。

curljava

curl

curl --location --request POST 'https://api-server.compdf.com/server/v2/process/pdf/docx' \
--header 'x-api-key: apiKey' \
--header 'Accept: */*' \
--header 'Connection: keep-alive' \
--header 'Content-Type: multipart/form-data' \
--form 'file=@"file"' \
--form 'password="" \
--form 'parameter="{  \"enableAiLayout\": 1,  \"isContainImg\": 1,  \"isContainAnnot\": 1, \"enableOcr\": 0,  \"ocrRecognitionLang\": \"ENGLISH\",  \"wordLayoutMode\": 3,  \"pageLayoutMode\": \"e_Flow\",  \"formulaToImage\": 1}"' \
--form 'language="1"'

java

import java.io.*;
import okhttp3.*;
public class main {
  public static void main(String []args) throws IOException{
    OkHttpClient client = new OkHttpClient().newBuilder()
      .build();
    MediaType mediaType = MediaType.parse("text/plain");
    RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
      .addFormDataPart("file","{{file}}",
 RequestBody.create(MediaType.parse("application/octet-stream"),
                                          new File("<file>")))
      .addFormDataPart("language","{{language}}")
      .addFormDataPart("password","")
      .addFormDataPart("parameter","{  \"isContainImg\": 1}")
      .build();
    Request request = new Request.Builder()
      .url("https://api-server.compdf.com/server/v2/process/pdf/docx")
      .method("POST", body)
      .addHeader("x-api-key", "{{apiKey}}")
      .build();
    Response response = client.newCall(request).execute();
  }
}

响应信息：

请求的成功响应返回 HTTP 200 OK 状态代码以及显示订单详细信息的 JSON 响应主体。

响应模式：application/json

响应参数	数据类型	描述
code	String	HTTP请求状态，"200"代表成功
message	String	请求信息
data	Object	返回结果
+taskId	String	任务ID
+taskFileNum	int	任务处理文件数量
+taskSuccessNum	int	任务处理文件成功数量
+taskFailNum	int	任务处理文件失败数量
+taskStatus	String	任务状态
+assetTypeId	int	使用资产类型ID
+taskCost	int	任务费用
+taskTime	int	任务持续时间
+sourceType	String	原格式
+targetType	String	目标格式
+fileInfoDTOList	Array	任务文件信息
++fileKey	String	文件key
++taskId	String	任务ID
++fileName	String	原文件名
++downFileName	String	下载文件名
++fileUrl	String	原文件地址
++downloadUrl	String	处理结果文件下载地址
++sourceType	String	原格式
++targetType	String	目标格式
++fileSize	int	文件大小
++convertSize	int	处理结果文件大小
++convertTime	int	处理消耗时间
++status	String	文件处理状态
++failureCode	String	文件处理失败错误码
++failureReason	String	文件处理失败说明
++fileParameter	String	处理参数

响应示例：

json

"code": "200",
"msg": "success",
"data": {
    "taskId": "f416dbcf-0c10-4f93-ab9e-a835c1f5dba1",
    "taskFileNum": 1,
    "taskSuccessNum": 1,
    "taskFailNum": 0,
    "taskStatus": "<taskStatus>",
    "assetTypeId": 0,
    "taskCost": 1,
    "taskTime": 1,
    "sourceType": "<sourceType>",
    "targetType": "<targetType>",
    "fileInfoDTOList": [
      {
        "fileKey": "<fileKey>",
        "taskId": "<taskId>",
        "fileName": "<fileName>",
        "downFileName": "<downFileName>",
        "fileUrl": "<fileUrl>",
        "downloadUrl": "<downloadUrl>",
        "sourceType": "<sourceType>",
        "targetType": "<targetType>",
        "fileSize": 24475,
        "convertSize": 6922,
        "convertTime": 8,
        "status": "<status>",
        "failureCode": "",
        "failureReason": "",
        "fileParameter": "<fileParameter>"
      }
    ]
}

结果：

文件类型	说明
.docx	完成后的 Word 文件

异步请求

如果您需要使用文件异步处理流程，请阅读异步请求说明。

PDF转Word工具使用指南 ​

PDF转Word工具使用指南