LateXML改善LaTeX生成的PDF文件可读性

PDF,作为一款由Adobe公司开发的文档格式,其优点是,能保证布局在不同的操作系统和设备上保持一致,所见即所得

它的缺点是,余下全部(瘫

PDF文件只保存了格式信息,完全丢失了源文件的结构化信息,编码不统一,二进制和字符串混放,导出为PDF的效果基本和PSD文件全图层合并的效果差不多,导致所有试图对PDF进行自动化处理的尝试都极为困难.(当然,在视觉大模型得到发展的今天,这个问题已经大大缓解)

以下是一个经典的例子:

幸运的是,arxiv上发布的文章一般提供其Tex源文件,我们可以使用LateXML(顾名思义,就是将Latex输出为标记语言的形式)编译改善其可读性.

下载地址:https://math.nist.gov/~BMiller/LaTeXML/get.html#windows.chocolatey

项目提供了Windows版的Releases,但需要通过包管理工具Chocolatey或Strawberry进行安装,我不太会,所以以Ubuntu为例

sudo apt-get install latexml

在arxiv上下载tar.gz格式的源代码

解压文件

tar -zxvf arXiv-xxxx.xxxxx.tar.gz

进入解压文件夹后使用命令编译:

 latexmlc --dest=out.html main.tex

效果其实还行

posted @ 2024-12-10 12:28  Isakovsky  阅读(7)  评论(0编辑  收藏  举报