Skip to content

文本提取工具使用指南

注意:在学习使用不同函数之前,建议先阅读请求描述,了解基本的PDF处理流程。使用不同函数时,可以在上传文件时设置各自的特殊参数。其他基本步骤一致。

文本提取:

java
{    
  "lang": 8,
  "outputFormat": 1
}

所需参数:

lang:OCR识别语言,支持的类型和定义,1: 中文简体、2: 中文繁体、3: 英语、4: 韩语、5: 日语、6: 拉丁语、7: 梵文、8: 自动。默认8。

outputFormat: 输出格式,1:json 、2:txt。

Java 示例:

您需要将 apiKey 替换为您从控制台获取的 publicKey ,将 file 替换为您要转换的文件 ,language 替换为您想要的接口错误提示语言类型。

java
import java.io.*;
import okhttp3.*;
public class main {
  public static void main(String []args) throws IOException{
    OkHttpClient client = new OkHttpClient().newBuilder()
      .build();
    MediaType mediaType = MediaType.parse("text/plain");
    RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
      .addFormDataPart("file","{{file}}",
 RequestBody.create(MediaType.parse("application/octet-stream"),
                                          new File("<file>")))
      .addFormDataPart("language","{{language}}")
      .addFormDataPart("password","")
      .addFormDataPart("parameter","{    \"lang\": 8    }") 
      .build();
    Request request = new Request.Builder()
      .url("https://api-server.compdf.com/server/v1/process/documentAI/ocr")
      .method("POST", body)
      .addHeader("x-api-key", "{{apiKey}}")
      .build();
    Response response = client.newCall(request).execute();
  }
}

结果:

文件类型说明
.JSONOCR 识别结果

内容

参数说明
costOCR 识别时间
boxes输入图片所有检测到的物体框位置
textOCR 识别内容
rec_scoresOCR 文本识别分数,分数越高,结果越可信
java
{
        "cost": 149,
        "boxes": [
            [
                150,
                71,
                198,
                71,
                198,
                110,
                150,
                110
            ],
            [
                74,
                117,
                274,
                120,
                273,
                166,
                73,
                163
            ],
            [
                99,
                179,
                249,
                182,
                249,
                208,
                99,
                205
            ],
            [
                65,
                203,
                276,
                205,
                276,
                230,
                65,
                228
            ]
        ],
        "text": [
            "EPPING",
            "Twinned with",
            "Eppingen,Germany"
        ],
        "rec_scores": [
            0.46275457739830017,
            0.9971449971199036,
            0.9649983048439026,
            0.9587073922157288
        ]
}