您的位置:首页 > 健康 > 美食 > Docker 部署 OCRmyPDF、提取PDF内容

Docker 部署 OCRmyPDF、提取PDF内容

2025/1/10 7:31:05 来源:https://blog.csdn.net/Jinzhenjie/article/details/139370542  浏览:    关键词:Docker 部署 OCRmyPDF、提取PDF内容

 一、镜像导入

# 拉取镜像
docker pull jbarlow83/ocrmypdf# 导出镜像
docker save -o /data/ocrmypdf/ocrmypdf.tar jbarlow83/ocrmypdf:latest
# 导入镜像
docker load -i ocrmypdf.tar

 二、调取镜像

# 【调用镜像】(以下2选1)# 1-执行后删除容器【官方推荐】
docker run --rm -it -v /data:/data jbarlow83/ocrmypdf /data/ocrmypdf/test/test.pdf /data/ocrmypdf/test/output.pdf --skip-text -l chi_sim# 2-保留容器
docker run -itd -v  /data:/data --name="zc-pdfocr-1"  --entrypoint python -p 5000:5000  jbarlow83/ocrmypdf webservice.py# 固定容器名称调用
docker exec zc-pdfocr-1 ocrmypdf  /data/ocrmypdf/test/test.pdf /data/ocrmypdf/test/output.pdf --skip-text -l chi_sim

 以上完成了:【图片类型的pdf】 向 【文本类型的pdf】 的转换。

至此,可以二次调用 PdfToContent 方法,进行PDF内容的提取。

三、拓展:PdfToContent        (golang抽取pdf内容)

package pdfimport ("bytes""github.com/ledongthuc/pdf"
)func PdfToContent(filePath string) (result string, err error) {f, r, err := pdf.Open(filePath)// remember close fileif err != nil {return}defer f.Close()var buf bytes.Bufferb, err := r.GetPlainText()if err != nil {return}_, err = buf.ReadFrom(b)if err != nil {return}result = buf.String()return
}

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com