FOSS 再次获胜:自由和开源社区在 19 世纪的报纸(以及书籍和期刊……)中崭露头角

Telemarketing Marketing delivers reliable contact information, helping marketers generate leads and maximize revenue efficiently.
Post Reply
shuklaseo7
Posts: 16
Joined: Tue Oct 21, 2025 11:52 am

FOSS 再次获胜:自由和开源社区在 19 世纪的报纸(以及书籍和期刊……)中崭露头角

Post by shuklaseo7 »

我从未像现在这样受到鼓舞,也从未像现在这样感激自由开源社区。三个月前,我发布了一个关于 OCR 和处理 19 世纪报纸的请求,我们收到了非常多的帮助。非常感谢,这真是令人暖心,也提供了切实的帮助——基于这些建议,我们正在将 OCR 和 PDF 软件完全转换为自由开源软件 (FOSS),进行重大改进,并与公司、大学和个人的自由开源软件开发者建立合作伙伴关系,这将推动互联网档案馆拥有更好的数字化文本。我非常感激,谢谢你们。这真是令人鼓舞。

我在互联网档案馆博客上发布了一条求助信息

您能帮助我们使 19 世纪的内容可搜索吗?我们收到了很多社交媒体邀请,并且这条帖子有超过 50 条评论——这可能是一个创纪录的回复率。

我们已经将我们的 OCR 转换为 Tesseract/OCRopus,并利用许多 PDF 库来创建压缩、可访问和存档的 PDF。

一些人建议德国政府牵头的OCR-D项目,该项目开发了生产级工具,用于辅助OCR识别和分割复杂且古老的材料,例如使用旧德语Fraktur(或黑体字)的报纸。(互联网档案馆此前从未能够处理这些材料,现在我们正在大规模地进行处理)。我们还能够对更多印度语言进行OCR识别,这非常棒。这个政府项目是自由/开源软件,并有资金用于推广,以确保更多人能够使用这些工具——这比大多数研究经费更进了一步。

Tesseract 在过去几年里取得了重大进展。我们上次评估它的准 我们的产品 确率时,发现它不如专有的 OCR,但这种情况已经有所改善——我们进行了评估,它的表现同样出色,而且由于其新的架构,它还能更好地服务于我们的应用。

全新 Tesseract 的底层是一个 LSTM 引擎,类似于为 Ocropus2/ocropy 开发的引擎。Ocropus2/ocropy 是由 Tom Breuel 领导的项目(由谷歌、他之前就读的德国大学以及其他机构资助——谢谢!)。即使离开了学术界,他也一直在继续这个项目。一个基于机器学习的程序正在向我们介绍基于 GPU 的处理,这无疑是一个额外的优势。它还可以使用已校对的文本进行训练,从而不断提升性能。

Image

来自我的博客文章中的反奴隶制报纸的专有示例


新的版本,基于免费和开源软件,虽然仍有缺陷,但更好:


我们的集群计算所需的时间大致相同,但如果我们添加 GPU,我们应该能够加快 OCR 和 PDF 创建速度,大概 10 倍,这将有很大帮助,因为我们每天要处理数百万页。

PDF 生成是一种平衡,试图实现较小的文件大小以及在浏览器实现中的快速渲染,具有有用的功能(文本搜索、页码、文本的剪切和粘贴),并符合档案(PDF/A)和可访问性标准(PDF/UA)。新一代 PDF 的核心是“archive-pdf-tools”Python 库,它执行混合光栅内容 (MRC)压缩,使用改进的 Tesseract PDF 渲染器创建隐藏文本层,该渲染器可以读取 hOCR 文件作为输入,并确保 PDF 符合档案标准(VeraPDF用于根据档案 PDF 标准验证我们生成的每个 PDF)。MRC 压缩将每个图像分解为背景、前景和前景蒙版,分别对每个层进行大量压缩(有时会缩小尺寸)。蒙版是无损压缩的,确保图像中的文本和线条不会受到压缩伪影的影响并且看起来清晰。使用这种方法,我们观察到大多数书籍的压缩系数为 10 倍。
Post Reply