FOSS 再次获胜：自由和开源社区在 19 世纪的报纸（以及书籍和期刊……）中崭露头角

shuklaseo7 · Post by **shuklaseo7** » Sat Oct 25, 2025 12:15 pm

我从未像现在这样受到鼓舞，也从未像现在这样感激自由开源社区。三个月前，我发布了一个关于 OCR 和处理 19 世纪报纸的请求，我们收到了非常多的帮助。非常感谢，这真是令人暖心，也提供了切实的帮助——基于这些建议，我们正在将 OCR 和 PDF 软件完全转换为自由开源软件 (FOSS)，进行重大改进，并与公司、大学和个人的自由开源软件开发者建立合作伙伴关系，这将推动互联网档案馆拥有更好的数字化文本。我非常感激，谢谢你们。这真是令人鼓舞。

我在互联网档案馆博客上发布了一条求助信息

您能帮助我们使 19 世纪的内容可搜索吗？我们收到了很多社交媒体邀请，并且这条帖子有超过 50 条评论——这可能是一个创纪录的回复率。

我们已经将我们的 OCR 转换为 Tesseract/OCRopus，并利用许多 PDF 库来创建压缩、可访问和存档的 PDF。

一些人建议德国政府牵头的OCR-D项目，该项目开发了生产级工具，用于辅助OCR识别和分割复杂且古老的材料，例如使用旧德语Fraktur（或黑体字）的报纸。（互联网档案馆此前从未能够处理这些材料，现在我们正在大规模地进行处理）。我们还能够对更多印度语言进行OCR识别，这非常棒。这个政府项目是自由/开源软件，并有资金用于推广，以确保更多人能够使用这些工具——这比大多数研究经费更进了一步。

Tesseract 在过去几年里取得了重大进展。我们上次评估它的准 我们的产品 确率时，发现它不如专有的 OCR，但这种情况已经有所改善——我们进行了评估，它的表现同样出色，而且由于其新的架构，它还能更好地服务于我们的应用。

全新 Tesseract 的底层是一个 LSTM 引擎，类似于为 Ocropus2/ocropy 开发的引擎。Ocropus2/ocropy 是由 Tom Breuel 领导的项目（由谷歌、他之前就读的德国大学以及其他机构资助——谢谢！）。即使离开了学术界，他也一直在继续这个项目。一个基于机器学习的程序正在向我们介绍基于 GPU 的处理，这无疑是一个额外的优势。它还可以使用已校对的文本进行训练，从而不断提升性能。

来自我的博客文章中的反奴隶制报纸的专有示例

新的版本，基于免费和开源软件，虽然仍有缺陷，但更好：

我们的集群计算所需的时间大致相同，但如果我们添加 GPU，我们应该能够加快 OCR 和 PDF 创建速度，大概 10 倍，这将有很大帮助，因为我们每天要处理数百万页。

PDF 生成是一种平衡，试图实现较小的文件大小以及在浏览器实现中的快速渲染，具有有用的功能（文本搜索、页码、文本的剪切和粘贴），并符合档案（PDF/A）和可访问性标准（PDF/UA）。新一代 PDF 的核心是“archive-pdf-tools”Python 库，它执行混合光栅内容 (MRC)压缩，使用改进的 Tesseract PDF 渲染器创建隐藏文本层，该渲染器可以读取 hOCR 文件作为输入，并确保 PDF 符合档案标准（VeraPDF用于根据档案 PDF 标准验证我们生成的每个 PDF）。MRC 压缩将每个图像分解为背景、前景和前景蒙版，分别对每个层进行大量压缩（有时会缩小尺寸）。蒙版是无损压缩的，确保图像中的文本和线条不会受到压缩伪影的影响并且看起来清晰。使用这种方法，我们观察到大多数书籍的压缩系数为 10 倍。