PDF转HTML工具使用指南
注意:在学习使用不同函数之前,建议先阅读请求描述,了解基本的PDF处理流程。使用不同函数时,可以在上传文件时设置各自特殊的参数。其他基本步骤一致。
PDF 转 HTML:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"pageLayoutMode": "e_Flow",
"htmlOption": "e_SinglePage"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语言。1: 中文简体、2: 中文繁体、3: 英语、4: 韩语、5: 日语、6: 拉丁语、7: 梵文、8: 自动。默认8。
pageRanges
:指定页码转换,从1开始。默认 空。
pageLayoutMode
:指定布局模式。e_Box:适用于PDF页面流排; e_Flow:适用于PDF框排。默认 e_Flow。
排版差异说明:
Word 的流式布局非常适合编辑,内容会随着您的编辑动态调整到不同的位置。然而,由于不同软件或应用程序版本的不兼容,Word 文件的显示会有所不同。这使得它不适合电子文件或证书等精密文档。
PDF 的固定页面布局:确保在所有设备上呈现稳定、统一的外观和打印质量。内容和格式在创建时即被锁定,因此修改起来非常困难,而且不会影响整体布局。它非常适合用于商业报告和官方电子记录等正式文档。
htmlOption
:HTML 选项。e_SinglePage
:将整个 PDF 文件转换为单个 HTML 文件。;e_SinglePageWithBookmark
:将 PDF 文件转换为单个 HTML 文件,并在 HTML 页面开头提供导航大纲。;e_MultiPage
:将 PDF 文件转换为多个 HTML 文件。;e_MultiPageWithBookmark
:将 PDF 文件转换为多个 HTML 文件。每个 HTML 文件对应一个 PDF 页面,用户可以通过 HTML 页面底部的链接导航到下一个 HTML 文件。默认为 e_SinglePage
。
Java 示例:
您需要将 apiKey 替换为您从控制台获取的 publicKey,将 file 替换为您要转换的文件 ,language 替换为您想要的接口错误提示语言类型。
import java.io.*;
import okhttp3.*;
public class main {
public static void main(String []args) throws IOException{
OkHttpClient client = new OkHttpClient().newBuilder()
.build();
MediaType mediaType = MediaType.parse("text/plain");
RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
.addFormDataPart("file","{{file}}",
RequestBody.create(MediaType.parse("application/octet-stream"),
new File("<file>")))
.addFormDataPart("language","{{language}}")
.addFormDataPart("password","")
.addFormDataPart("parameter","{ \"enableOcr\": 1 , \"isContainAnnot\": 1 , \"isContainImg\": 1}")
.build();
Request request = new Request.Builder()
.url("https://api-server.compdf.com/server/v1/process/pdf/html")
.method("POST", body)
.addHeader("x-api-key", "{{apiKey}}")
.build();
Response response = client.newCall(request).execute();
}
}
结果:
文件类型 | 说明 |
---|---|
.zip | 完成后的 HTML 文件压缩包 |