Ligatures: http://en.wikipedia.org/wiki/Typographical_ligature
通过查阅文档和测试发现,在正常情况下(使用最常用的字体),LaTeX会把下面5种字母组合合并,变成一个字符。虽然视觉上很好看,但是对搜索很不利。这并不是poppler解析不彻底的问题,因为连Adobe Reader都不会解析。
字母组合 | UTF-16/32 (type "Unicode" in poppler) | UTF-8 |
ff | FB00 | EF AC 80 |
fi | FB01 | EF AC 81 |
fl | FB02 | EF AC 82 |
ffi | FB03 | EF AC 83 |
ffl | FB04 | EF AC 84 |