marker
快速、高精度地将 PDF 转换为 Markdown
Marker 将 PDF、EPUB 和 MOBI 转换为 Markdown。在大多数文档上更准确,并且产生错误的风险较低。
- 支持一系列 PDF 文档(针对书籍和科学论文进行了优化)
- 删除页眉/页脚/其他工件
- 将大多数方程转换为乳胶
- 设置代码块和表格的格式
- 支持多种语言(尽管大多数测试是用英语完成的)。请参阅 参考资料settings.py获取语言列表,或添加您自己的语言列表。
- 适用于 GPU、CPU 或 MPS
Marker 是通过深度学习模型:
- 提取文本,必要时进行 OCR(启发式、超正方体)
- 检测页面布局(布局分段器、列检测器)
- 清理并格式化每个块(启发式,texify)
- 组合块和后处理完整文本(启发式,pdf_postprocessor)