marker PDF 转换为 Markdown pdf to markdown

Posted by eye on 04-12,2024

marker

快速、高精度地将 PDF 转换为 Markdown

Marker 将 PDF、EPUB 和 MOBI 转换为 Markdown。在大多数文档上更准确,并且产生错误的风险较低。

  • 支持一系列 PDF 文档(针对书籍和科学论文进行了优化)
  • 删除页眉/页脚/其他工件
  • 将大多数方程转换为乳胶
  • 设置代码块和表格的格式
  • 支持多种语言(尽管大多数测试是用英语完成的)。请参阅 参考资料settings.py获取语言列表,或添加您自己的语言列表。
  • 适用于 GPU、CPU 或 MPS

Marker 是通过深度学习模型:

  • 提取文本,必要时进行 OCR(启发式、超正方体)
  • 检测页面布局(布局分段器、列检测器)
  • 清理并格式化每个块(启发式,texify)
  • 组合块和后处理完整文本(启发式,pdf_postprocessor)