文本提取工具使用指南
注意:在学习使用不同函数之前,建议先阅读请求描述,了解基本的PDF处理流程。使用不同函数时,可以在上传文件时设置各自的特殊参数。其他基本步骤一致。
文本提取:
java
{
"lang": 8,
"outputFormat": 1
}
所需参数:
lang
:OCR识别语言,支持的类型和定义,1: 中文简体、2: 中文繁体、3: 英语、4: 韩语、5: 日语、6: 拉丁语、7: 梵文、8: 自动。默认8。
outputFormat
: 输出格式,1:json 、2:txt。
Java 示例:
您需要将 apiKey 替换为您从控制台获取的 publicKey ,将 file 替换为您要转换的文件 ,language 替换为您想要的接口错误提示语言类型。
java
import java.io.*;
import okhttp3.*;
public class main {
public static void main(String []args) throws IOException{
OkHttpClient client = new OkHttpClient().newBuilder()
.build();
MediaType mediaType = MediaType.parse("text/plain");
RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
.addFormDataPart("file","{{file}}",
RequestBody.create(MediaType.parse("application/octet-stream"),
new File("<file>")))
.addFormDataPart("language","{{language}}")
.addFormDataPart("password","")
.addFormDataPart("parameter","{ \"lang\": 8 }")
.build();
Request request = new Request.Builder()
.url("https://api-server.compdf.com/server/v1/process/documentAI/ocr")
.method("POST", body)
.addHeader("x-api-key", "{{apiKey}}")
.build();
Response response = client.newCall(request).execute();
}
}
结果:
文件类型 | 说明 |
---|---|
.JSON | OCR 识别结果 |
内容
参数 | 说明 |
---|---|
cost | OCR 识别时间 |
boxes | 输入图片所有检测到的物体框位置 |
text | OCR 识别内容 |
rec_scores | OCR 文本识别分数,分数越高,结果越可信 |
java
{
"cost": 149,
"boxes": [
[
150,
71,
198,
71,
198,
110,
150,
110
],
[
74,
117,
274,
120,
273,
166,
73,
163
],
[
99,
179,
249,
182,
249,
208,
99,
205
],
[
65,
203,
276,
205,
276,
230,
65,
228
]
],
"text": [
"EPPING",
"Twinned with",
"Eppingen,Germany"
],
"rec_scores": [
0.46275457739830017,
0.9971449971199036,
0.9649983048439026,
0.9587073922157288
]
}