Skip to content

智能文档解析工具使用指南

输出.Json格式文件

注意:在学习使用不同函数之前,建议先阅读请求描述,了解基本的PDF处理流程。使用不同函数时,可以在上传文件时设置各自特殊的参数。其他基本步骤一致。

智能文本提取:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrLanguage": 8,
  "pageRanges": "1,2,3-5",
  "resolveType": "EXTRACT"
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrLanguage:OCR识别语言。1: 中文简体、2: 中文繁体、3: 英语、4: 韩语、5: 日语、6: 拉丁语、7: 梵文、8: 自动。默认8。

pageRanges:指定页码转换,从1开始。默认 空。

resolveType:提取JSON内容类型。 TEXT:仅文本; TABLE:仅表格; IMAGE:仅图;EXTRACT:提取所有; 。默认 EXTRACT。

Java 示例:

您需要将 apiKey 替换为您从控制台获取的 publicKey,将 file 替换为您要转换的文件 ,language 替换为您想要的接口错误提示语言类型。

java
import java.io.*;
import okhttp3.*;
public class main {
  public static void main(String []args) throws IOException{
    OkHttpClient client = new OkHttpClient().newBuilder()
      .build();
    MediaType mediaType = MediaType.parse("text/plain");
    RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
      .addFormDataPart("file","{{file}}",
 RequestBody.create(MediaType.parse("application/octet-stream"),
                                          new File("<file>")))
      .addFormDataPart("language","{{language}}")
      .addFormDataPart("password","")
      .addFormDataPart("parameter","{  \"enableOcr\":1, \"isContainImg\":0}") 
      .build();
    Request request = new Request.Builder()
      .url("https://api-server.compdf.com/server/v1/process/pdf/json")
      .method("POST", body)
      .addHeader("x-api-key", "{{apiKey}}")
      .build();
    Response response = client.newCall(request).execute();
  }
}

结果:

文件类型说明
.Zip该zip文件包含Json结果文件和图片文件夹。

内容

参数说明
rect对象在页面中的位置
page对象所在的页码
order_index对象在当前页面的阅读顺序位置
type用于标识对象的类型。目前支持的对象类型有:

Text:普通文本类型对象,包含文本内容。
Image:图片类型对象,包含图片的路径。
Table和UnstdTable:表格类型对象,包含表格的内容和结构。
Catalogue:目录类型对象,包含目录的内容
List和UnorderedList:列表类型对象,包含列表的内容
Formula:公式类型对象,包含公式的内容
Header:页眉类型对象,包含页眉的内容
Footer:页脚类型对象,包含页脚的内容
PageNumber:页码类型对象,包含页码的内容
FigureTitle:图形标题类型对象,包含图形标题的内容
FigureCaption:图形标题类型对象,包含图形标题的内容
java
{
    "version": "1.0.0",
    "objects": [
        {
            "type": "Header",
            "rect": [
                49.0,
                43.5,
                171.5,
                76.0
            ],
            "text": "Intelligent Document Parsing",
            "page": 0,
            "order_index": 0
        }
   ]
}