您的位置:首页 > 科技 > IT业 > 网店代运营十大排名_中国排名第一的游戏_互联网推广软件_网址收录大全

网店代运营十大排名_中国排名第一的游戏_互联网推广软件_网址收录大全

2024/12/22 1:04:03 来源:https://blog.csdn.net/b_qixin/article/details/144373768  浏览:    关键词:网店代运营十大排名_中国排名第一的游戏_互联网推广软件_网址收录大全
网店代运营十大排名_中国排名第一的游戏_互联网推广软件_网址收录大全

从PDF中解析出表格结构和数据,可以采用以下几种方法:从PDF中解析出表格结构和数据,主要用到以下算法和技术:

·OCR技术:光学字符识别技术,用于从扫描的PDF文件中提取文本信息,包括表格数据。这项技术可以将图像中的文字转换为机器可读的文本格式,进而解析表格结构和数据。

·AI驱动的PDF数据提取:智能文档处理解决方案,使用OCR工具的AI驱动PDF数据提取,提供了从PDF文档中提取数据的全面解决方案。提取的数据可以输出为多种格式,如JSON、XML、Excel和CSV

·机器学习分类:训练机器学习模型来识别表格的各个组成部分,如行、列、单元格等。这些模型可以是基于经典的机器学习算法,也可以是基于深度学习的神经网络。

这里推荐一个好用的文档解析工具,合合信息TextIn通用文档,迎来解析重磅升级!

本次优化主要改善了表格识别效果,以统一方案替代有线表格与无线表格分类处理方法,减少了级联损失,大幅度提升表格全对率。

表格全对率指标包含了对文本全对率结构准确度的测量。文本全对率评估的是,解析出的表格中每个单元格的文本是否与原始表格完全一致,没有遗漏、错误或多余的字符。结构准确度测量模型对表格结构的预测是否正确,排除错行、漏行或合并单元格错误等问题。

根据TextIn测试指标,一个表格中,文本或结构解析有任何问题,即判为错误。表格全对率不仅考虑了单元格的内容,还考虑了表格的层次结构和布局,以确保信息的完整性与准确性。

对于此前表格处理模型,技术团队诊断:解决过于依赖逻辑位置预测与跨cell填充问题,能够进一步提升表格引擎性能。

TextIn技术团队在当前表格解析模型及后处理算法的基础上,结合模型预测的位置信息和逻辑信息,引入轴对齐处理思路,避免仅依赖逻辑信息预测的问题,减少单元格划分错误的情况;通过上下文信息与行列查询,解决跨行列cell填充问题;基于表格内容OCR匹配,实现物理位置修正。经测试,优化版本表格全对率有显著提升。

我们将通过几个案例,直观展示本次表格解析性能优化的表现。

01 无线表格解析

图1-1 识别错误

图1-2 优化结果

如图所示,图1-1是无线表格解析中常见的bad case:合并单元格结构识别不准确。由于合并单元格有顶部对齐、垂直居中多种形式,在实际文档中版面复杂多变,在没有框线的情况下,更增加了解析模型的识别难度。

图1-2中可以看到,TextIn文档解析本次表格性能优化后,能妥善处理这类难点情况,实现正确的表格还原,保障下游信息处理的准确性。

02 不规则无线表格解析

图2-1 识别错误

图2-2优化结果

缺少结构信息的表格文字识别会丢失重要价值,导致数据成为无意义的数字。

PDF文件中,拥有不同行列数的不规则无线表格在同一版面呈现的情况相当常见。以图中的金融机构报告为例,值得注意的是,TextIn本次表格优化后,模型会同步预测空cell,以提升整体表格解析准确率。

03 低清晰度无线表格解析

图3-1 识别错误

图3-2优化结果

如图所示,对于清晰度较低、噪点多的扫描图像,优化后的表格模型也能实现精准的识别。

从具体案例来看,这一次表格解析优化,对解决单元格中的多行问题有优异的效果,用户如有产品说明书、体检报告、技术规格书等文件及其他类型多行复杂表格的解析需求,解析引擎的准确性和使用体验都将大幅度提升,能够满足教育、金融、数据处理等多种场景的精细化使用需求。

前端功能新增:支持表格编辑

新版前端组件支持在线表格编辑,包括文字编辑、插入或删除行列、单元格合并与拆分等一系列常用表格编辑操作,便于直接通过窗口操作对识别结果进行修改或校正。

支持单独提取文档中的表格元素,导出为Excel。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com