LateXML改善LaTeX生成的PDF文件可读性
PDF,作为一款由Adobe公司开发的文档格式,其优点是,能保证布局在不同的操作系统和设备上保持一致,所见即所得
它的缺点是,余下全部(瘫
PDF文件只保存了格式信息,完全丢失了源文件的结构化信息,编码不统一,二进制和字符串混放,导出为PDF的效果基本和PSD文件全图层合并的效果差不多,导致所有试图对PDF进行自动化处理的尝试都极为困难.(当然,在视觉大模型得到发展的今天,这个问题已经大大缓解)
以下是一个经典的例子:
幸运的是,arxiv上发布的文章一般提供其Tex源文件,我们可以使用LateXML(顾名思义,就是将Latex输出为标记语言的形式)编译改善其可读性.
下载地址:https://math.nist.gov/~BMiller/LaTeXML/get.html#windows.chocolatey
项目提供了Windows版的Releases,但需要通过包管理工具Chocolatey或Strawberry进行安装,我不太会,所以以Ubuntu为例
sudo apt-get install latexml
在arxiv上下载tar.gz格式的源代码
解压文件
tar -zxvf arXiv-xxxx.xxxxx.tar.gz
进入解压文件夹后使用命令编译:
latexmlc --dest=out.html main.tex
效果其实还行